{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.5,
  "eval_steps": 1000,
  "global_step": 240000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2.0833333333333333e-05,
      "grad_norm": 7.369266510009766,
      "learning_rate": 1.4999999999999998e-06,
      "loss": 3.9784,
      "step": 10
    },
    {
      "epoch": 4.1666666666666665e-05,
      "grad_norm": 6.514930248260498,
      "learning_rate": 2.9999999999999997e-06,
      "loss": 4.0876,
      "step": 20
    },
    {
      "epoch": 6.25e-05,
      "grad_norm": 6.609025001525879,
      "learning_rate": 4.499999999999999e-06,
      "loss": 4.1488,
      "step": 30
    },
    {
      "epoch": 8.333333333333333e-05,
      "grad_norm": 6.772834300994873,
      "learning_rate": 5.999999999999999e-06,
      "loss": 3.8901,
      "step": 40
    },
    {
      "epoch": 0.00010416666666666667,
      "grad_norm": 7.126350402832031,
      "learning_rate": 7.499999999999999e-06,
      "loss": 4.0864,
      "step": 50
    },
    {
      "epoch": 0.000125,
      "grad_norm": 6.566469192504883,
      "learning_rate": 8.999999999999999e-06,
      "loss": 4.1959,
      "step": 60
    },
    {
      "epoch": 0.00014583333333333335,
      "grad_norm": 5.515867710113525,
      "learning_rate": 1.05e-05,
      "loss": 3.8084,
      "step": 70
    },
    {
      "epoch": 0.00016666666666666666,
      "grad_norm": 5.790792942047119,
      "learning_rate": 1.1999999999999999e-05,
      "loss": 4.0739,
      "step": 80
    },
    {
      "epoch": 0.0001875,
      "grad_norm": 6.053430557250977,
      "learning_rate": 1.3499999999999998e-05,
      "loss": 4.2123,
      "step": 90
    },
    {
      "epoch": 0.00020833333333333335,
      "grad_norm": 5.650411128997803,
      "learning_rate": 1.4999999999999999e-05,
      "loss": 3.9249,
      "step": 100
    },
    {
      "epoch": 0.00022916666666666666,
      "grad_norm": 5.531260013580322,
      "learning_rate": 1.6499999999999998e-05,
      "loss": 4.0193,
      "step": 110
    },
    {
      "epoch": 0.00025,
      "grad_norm": 4.885991096496582,
      "learning_rate": 1.7999999999999997e-05,
      "loss": 3.724,
      "step": 120
    },
    {
      "epoch": 0.0002708333333333333,
      "grad_norm": 5.165462970733643,
      "learning_rate": 1.95e-05,
      "loss": 3.9344,
      "step": 130
    },
    {
      "epoch": 0.0002916666666666667,
      "grad_norm": 4.782204627990723,
      "learning_rate": 2.1e-05,
      "loss": 4.0379,
      "step": 140
    },
    {
      "epoch": 0.0003125,
      "grad_norm": 4.9411420822143555,
      "learning_rate": 2.2499999999999998e-05,
      "loss": 4.0888,
      "step": 150
    },
    {
      "epoch": 0.0003333333333333333,
      "grad_norm": 4.048075199127197,
      "learning_rate": 2.3999999999999997e-05,
      "loss": 3.9382,
      "step": 160
    },
    {
      "epoch": 0.0003541666666666667,
      "grad_norm": 4.106828212738037,
      "learning_rate": 2.55e-05,
      "loss": 3.9063,
      "step": 170
    },
    {
      "epoch": 0.000375,
      "grad_norm": 3.967660903930664,
      "learning_rate": 2.6999999999999996e-05,
      "loss": 3.8479,
      "step": 180
    },
    {
      "epoch": 0.0003958333333333333,
      "grad_norm": 4.1011834144592285,
      "learning_rate": 2.8499999999999998e-05,
      "loss": 4.0807,
      "step": 190
    },
    {
      "epoch": 0.0004166666666666667,
      "grad_norm": 3.6805419921875,
      "learning_rate": 2.9999999999999997e-05,
      "loss": 4.1101,
      "step": 200
    },
    {
      "epoch": 0.0004375,
      "grad_norm": 4.586904048919678,
      "learning_rate": 3.149999999999999e-05,
      "loss": 3.8571,
      "step": 210
    },
    {
      "epoch": 0.0004583333333333333,
      "grad_norm": 3.1647002696990967,
      "learning_rate": 3.2999999999999996e-05,
      "loss": 3.729,
      "step": 220
    },
    {
      "epoch": 0.00047916666666666664,
      "grad_norm": 2.835263729095459,
      "learning_rate": 3.45e-05,
      "loss": 3.9869,
      "step": 230
    },
    {
      "epoch": 0.0005,
      "grad_norm": 3.3656539916992188,
      "learning_rate": 3.5999999999999994e-05,
      "loss": 3.918,
      "step": 240
    },
    {
      "epoch": 0.0005208333333333333,
      "grad_norm": 2.8719184398651123,
      "learning_rate": 3.75e-05,
      "loss": 3.7732,
      "step": 250
    },
    {
      "epoch": 0.0005416666666666666,
      "grad_norm": 2.6891679763793945,
      "learning_rate": 3.9e-05,
      "loss": 3.7452,
      "step": 260
    },
    {
      "epoch": 0.0005625,
      "grad_norm": 2.6710000038146973,
      "learning_rate": 4.05e-05,
      "loss": 3.7136,
      "step": 270
    },
    {
      "epoch": 0.0005833333333333334,
      "grad_norm": 2.977600574493408,
      "learning_rate": 4.2e-05,
      "loss": 3.7154,
      "step": 280
    },
    {
      "epoch": 0.0006041666666666667,
      "grad_norm": 2.6756129264831543,
      "learning_rate": 4.3499999999999993e-05,
      "loss": 4.0673,
      "step": 290
    },
    {
      "epoch": 0.000625,
      "grad_norm": 2.4988200664520264,
      "learning_rate": 4.4999999999999996e-05,
      "loss": 4.0176,
      "step": 300
    },
    {
      "epoch": 0.0006458333333333333,
      "grad_norm": 2.9364583492279053,
      "learning_rate": 4.65e-05,
      "loss": 3.952,
      "step": 310
    },
    {
      "epoch": 0.0006666666666666666,
      "grad_norm": 2.2746999263763428,
      "learning_rate": 4.7999999999999994e-05,
      "loss": 3.9988,
      "step": 320
    },
    {
      "epoch": 0.0006875,
      "grad_norm": 3.031714916229248,
      "learning_rate": 4.95e-05,
      "loss": 3.9168,
      "step": 330
    },
    {
      "epoch": 0.0007083333333333334,
      "grad_norm": 2.9307734966278076,
      "learning_rate": 5.1e-05,
      "loss": 3.6942,
      "step": 340
    },
    {
      "epoch": 0.0007291666666666667,
      "grad_norm": 2.580369234085083,
      "learning_rate": 5.2499999999999995e-05,
      "loss": 3.9896,
      "step": 350
    },
    {
      "epoch": 0.00075,
      "grad_norm": 2.8122284412384033,
      "learning_rate": 5.399999999999999e-05,
      "loss": 3.9724,
      "step": 360
    },
    {
      "epoch": 0.0007708333333333333,
      "grad_norm": 2.378981113433838,
      "learning_rate": 5.5499999999999994e-05,
      "loss": 3.9802,
      "step": 370
    },
    {
      "epoch": 0.0007916666666666666,
      "grad_norm": 2.870683431625366,
      "learning_rate": 5.6999999999999996e-05,
      "loss": 3.9385,
      "step": 380
    },
    {
      "epoch": 0.0008125,
      "grad_norm": 2.762826442718506,
      "learning_rate": 5.85e-05,
      "loss": 3.7719,
      "step": 390
    },
    {
      "epoch": 0.0008333333333333334,
      "grad_norm": 2.886190891265869,
      "learning_rate": 5.9999999999999995e-05,
      "loss": 3.8097,
      "step": 400
    },
    {
      "epoch": 0.0008541666666666667,
      "grad_norm": 2.836409568786621,
      "learning_rate": 6.149999999999999e-05,
      "loss": 3.818,
      "step": 410
    },
    {
      "epoch": 0.000875,
      "grad_norm": 2.8510560989379883,
      "learning_rate": 6.299999999999999e-05,
      "loss": 3.8657,
      "step": 420
    },
    {
      "epoch": 0.0008958333333333333,
      "grad_norm": 2.677159309387207,
      "learning_rate": 6.45e-05,
      "loss": 3.772,
      "step": 430
    },
    {
      "epoch": 0.0009166666666666666,
      "grad_norm": 2.7777462005615234,
      "learning_rate": 6.599999999999999e-05,
      "loss": 3.9021,
      "step": 440
    },
    {
      "epoch": 0.0009375,
      "grad_norm": 2.45473313331604,
      "learning_rate": 6.75e-05,
      "loss": 3.829,
      "step": 450
    },
    {
      "epoch": 0.0009583333333333333,
      "grad_norm": 2.926514148712158,
      "learning_rate": 6.9e-05,
      "loss": 3.898,
      "step": 460
    },
    {
      "epoch": 0.0009791666666666666,
      "grad_norm": 2.252542495727539,
      "learning_rate": 7.049999999999999e-05,
      "loss": 4.0223,
      "step": 470
    },
    {
      "epoch": 0.001,
      "grad_norm": 2.351160764694214,
      "learning_rate": 7.199999999999999e-05,
      "loss": 3.9716,
      "step": 480
    },
    {
      "epoch": 0.0010208333333333332,
      "grad_norm": 2.2558159828186035,
      "learning_rate": 7.35e-05,
      "loss": 3.8676,
      "step": 490
    },
    {
      "epoch": 0.0010416666666666667,
      "grad_norm": 2.1864795684814453,
      "learning_rate": 7.5e-05,
      "loss": 3.935,
      "step": 500
    },
    {
      "epoch": 0.0010625,
      "grad_norm": 2.233490228652954,
      "learning_rate": 7.649999999999999e-05,
      "loss": 3.9034,
      "step": 510
    },
    {
      "epoch": 0.0010833333333333333,
      "grad_norm": 2.337550163269043,
      "learning_rate": 7.8e-05,
      "loss": 3.8822,
      "step": 520
    },
    {
      "epoch": 0.0011041666666666667,
      "grad_norm": 2.284830093383789,
      "learning_rate": 7.95e-05,
      "loss": 3.9275,
      "step": 530
    },
    {
      "epoch": 0.001125,
      "grad_norm": 2.2319915294647217,
      "learning_rate": 8.1e-05,
      "loss": 3.8581,
      "step": 540
    },
    {
      "epoch": 0.0011458333333333333,
      "grad_norm": 2.0077998638153076,
      "learning_rate": 8.25e-05,
      "loss": 4.1426,
      "step": 550
    },
    {
      "epoch": 0.0011666666666666668,
      "grad_norm": 1.9239250421524048,
      "learning_rate": 8.4e-05,
      "loss": 4.0844,
      "step": 560
    },
    {
      "epoch": 0.0011875,
      "grad_norm": 2.4204318523406982,
      "learning_rate": 8.549999999999999e-05,
      "loss": 3.824,
      "step": 570
    },
    {
      "epoch": 0.0012083333333333334,
      "grad_norm": 3.8920788764953613,
      "learning_rate": 8.699999999999999e-05,
      "loss": 3.9309,
      "step": 580
    },
    {
      "epoch": 0.0012291666666666666,
      "grad_norm": 2.097668409347534,
      "learning_rate": 8.849999999999998e-05,
      "loss": 3.8477,
      "step": 590
    },
    {
      "epoch": 0.00125,
      "grad_norm": 2.2848875522613525,
      "learning_rate": 8.999999999999999e-05,
      "loss": 3.8475,
      "step": 600
    },
    {
      "epoch": 0.0012708333333333332,
      "grad_norm": 2.121750831604004,
      "learning_rate": 9.149999999999999e-05,
      "loss": 3.9012,
      "step": 610
    },
    {
      "epoch": 0.0012916666666666667,
      "grad_norm": 1.888998031616211,
      "learning_rate": 9.3e-05,
      "loss": 4.2044,
      "step": 620
    },
    {
      "epoch": 0.0013125,
      "grad_norm": 1.9981203079223633,
      "learning_rate": 9.449999999999999e-05,
      "loss": 3.8536,
      "step": 630
    },
    {
      "epoch": 0.0013333333333333333,
      "grad_norm": 2.53363299369812,
      "learning_rate": 9.599999999999999e-05,
      "loss": 3.8059,
      "step": 640
    },
    {
      "epoch": 0.0013541666666666667,
      "grad_norm": 2.019169569015503,
      "learning_rate": 9.75e-05,
      "loss": 4.0733,
      "step": 650
    },
    {
      "epoch": 0.001375,
      "grad_norm": 2.37184739112854,
      "learning_rate": 9.9e-05,
      "loss": 3.9411,
      "step": 660
    },
    {
      "epoch": 0.0013958333333333333,
      "grad_norm": 2.0165822505950928,
      "learning_rate": 0.0001005,
      "loss": 4.0182,
      "step": 670
    },
    {
      "epoch": 0.0014166666666666668,
      "grad_norm": 1.9455044269561768,
      "learning_rate": 0.000102,
      "loss": 3.8239,
      "step": 680
    },
    {
      "epoch": 0.0014375,
      "grad_norm": 1.9293179512023926,
      "learning_rate": 0.00010349999999999998,
      "loss": 3.8611,
      "step": 690
    },
    {
      "epoch": 0.0014583333333333334,
      "grad_norm": 2.145423650741577,
      "learning_rate": 0.00010499999999999999,
      "loss": 4.0455,
      "step": 700
    },
    {
      "epoch": 0.0014791666666666666,
      "grad_norm": 2.0064008235931396,
      "learning_rate": 0.00010649999999999999,
      "loss": 3.9075,
      "step": 710
    },
    {
      "epoch": 0.0015,
      "grad_norm": 1.8732527494430542,
      "learning_rate": 0.00010799999999999998,
      "loss": 3.9255,
      "step": 720
    },
    {
      "epoch": 0.0015208333333333332,
      "grad_norm": 1.9233214855194092,
      "learning_rate": 0.00010949999999999999,
      "loss": 3.8687,
      "step": 730
    },
    {
      "epoch": 0.0015416666666666667,
      "grad_norm": 1.7792178392410278,
      "learning_rate": 0.00011099999999999999,
      "loss": 4.0953,
      "step": 740
    },
    {
      "epoch": 0.0015625,
      "grad_norm": 1.6663944721221924,
      "learning_rate": 0.0001125,
      "loss": 3.9122,
      "step": 750
    },
    {
      "epoch": 0.0015833333333333333,
      "grad_norm": 1.86878502368927,
      "learning_rate": 0.00011399999999999999,
      "loss": 3.7749,
      "step": 760
    },
    {
      "epoch": 0.0016041666666666667,
      "grad_norm": 1.9254858493804932,
      "learning_rate": 0.00011549999999999999,
      "loss": 3.8661,
      "step": 770
    },
    {
      "epoch": 0.001625,
      "grad_norm": 1.8493620157241821,
      "learning_rate": 0.000117,
      "loss": 3.8769,
      "step": 780
    },
    {
      "epoch": 0.0016458333333333333,
      "grad_norm": 1.7688013315200806,
      "learning_rate": 0.0001185,
      "loss": 3.8536,
      "step": 790
    },
    {
      "epoch": 0.0016666666666666668,
      "grad_norm": 1.916062831878662,
      "learning_rate": 0.00011999999999999999,
      "loss": 4.1509,
      "step": 800
    },
    {
      "epoch": 0.0016875,
      "grad_norm": 1.925788164138794,
      "learning_rate": 0.0001215,
      "loss": 4.0038,
      "step": 810
    },
    {
      "epoch": 0.0017083333333333334,
      "grad_norm": 1.761607050895691,
      "learning_rate": 0.00012299999999999998,
      "loss": 4.0914,
      "step": 820
    },
    {
      "epoch": 0.0017291666666666666,
      "grad_norm": 1.664099931716919,
      "learning_rate": 0.0001245,
      "loss": 4.0469,
      "step": 830
    },
    {
      "epoch": 0.00175,
      "grad_norm": 1.8013993501663208,
      "learning_rate": 0.00012599999999999997,
      "loss": 3.8813,
      "step": 840
    },
    {
      "epoch": 0.0017708333333333332,
      "grad_norm": 1.6956766843795776,
      "learning_rate": 0.00012749999999999998,
      "loss": 3.822,
      "step": 850
    },
    {
      "epoch": 0.0017916666666666667,
      "grad_norm": 2.446249008178711,
      "learning_rate": 0.000129,
      "loss": 4.1627,
      "step": 860
    },
    {
      "epoch": 0.0018125,
      "grad_norm": 1.7902626991271973,
      "learning_rate": 0.0001305,
      "loss": 3.9155,
      "step": 870
    },
    {
      "epoch": 0.0018333333333333333,
      "grad_norm": 1.739357590675354,
      "learning_rate": 0.00013199999999999998,
      "loss": 3.9453,
      "step": 880
    },
    {
      "epoch": 0.0018541666666666667,
      "grad_norm": 1.642500638961792,
      "learning_rate": 0.0001335,
      "loss": 3.923,
      "step": 890
    },
    {
      "epoch": 0.001875,
      "grad_norm": 1.722559928894043,
      "learning_rate": 0.000135,
      "loss": 3.6202,
      "step": 900
    },
    {
      "epoch": 0.0018958333333333334,
      "grad_norm": 1.6645526885986328,
      "learning_rate": 0.00013649999999999998,
      "loss": 3.9847,
      "step": 910
    },
    {
      "epoch": 0.0019166666666666666,
      "grad_norm": 1.858047604560852,
      "learning_rate": 0.000138,
      "loss": 3.9687,
      "step": 920
    },
    {
      "epoch": 0.0019375,
      "grad_norm": 1.6346834897994995,
      "learning_rate": 0.0001395,
      "loss": 3.8396,
      "step": 930
    },
    {
      "epoch": 0.001958333333333333,
      "grad_norm": 1.6274609565734863,
      "learning_rate": 0.00014099999999999998,
      "loss": 3.9659,
      "step": 940
    },
    {
      "epoch": 0.001979166666666667,
      "grad_norm": 1.5527580976486206,
      "learning_rate": 0.0001425,
      "loss": 4.1579,
      "step": 950
    },
    {
      "epoch": 0.002,
      "grad_norm": 1.4515953063964844,
      "learning_rate": 0.00014399999999999998,
      "loss": 4.0735,
      "step": 960
    },
    {
      "epoch": 0.0020208333333333332,
      "grad_norm": 1.5999442338943481,
      "learning_rate": 0.00014549999999999999,
      "loss": 3.7239,
      "step": 970
    },
    {
      "epoch": 0.0020416666666666665,
      "grad_norm": 1.4522101879119873,
      "learning_rate": 0.000147,
      "loss": 3.9694,
      "step": 980
    },
    {
      "epoch": 0.0020625,
      "grad_norm": 1.5093501806259155,
      "learning_rate": 0.00014849999999999998,
      "loss": 3.9805,
      "step": 990
    },
    {
      "epoch": 0.0020833333333333333,
      "grad_norm": 1.4990453720092773,
      "learning_rate": 0.00015,
      "loss": 3.9406,
      "step": 1000
    },
    {
      "epoch": 0.0020833333333333333,
      "eval_loss": 4.242117404937744,
      "eval_runtime": 10.3451,
      "eval_samples_per_second": 0.967,
      "eval_steps_per_second": 0.29,
      "step": 1000
    },
    {
      "epoch": 0.0021041666666666665,
      "grad_norm": 1.5953153371810913,
      "learning_rate": 0.0001515,
      "loss": 3.973,
      "step": 1010
    },
    {
      "epoch": 0.002125,
      "grad_norm": 1.5966213941574097,
      "learning_rate": 0.00015299999999999998,
      "loss": 4.0613,
      "step": 1020
    },
    {
      "epoch": 0.0021458333333333334,
      "grad_norm": 1.6065714359283447,
      "learning_rate": 0.0001545,
      "loss": 3.9056,
      "step": 1030
    },
    {
      "epoch": 0.0021666666666666666,
      "grad_norm": 1.5830721855163574,
      "learning_rate": 0.000156,
      "loss": 3.8975,
      "step": 1040
    },
    {
      "epoch": 0.0021875,
      "grad_norm": 2.020400047302246,
      "learning_rate": 0.00015749999999999998,
      "loss": 4.0566,
      "step": 1050
    },
    {
      "epoch": 0.0022083333333333334,
      "grad_norm": 1.5964298248291016,
      "learning_rate": 0.000159,
      "loss": 3.8835,
      "step": 1060
    },
    {
      "epoch": 0.0022291666666666666,
      "grad_norm": 1.416454792022705,
      "learning_rate": 0.0001605,
      "loss": 3.8443,
      "step": 1070
    },
    {
      "epoch": 0.00225,
      "grad_norm": 1.5983104705810547,
      "learning_rate": 0.000162,
      "loss": 3.9339,
      "step": 1080
    },
    {
      "epoch": 0.0022708333333333335,
      "grad_norm": 1.468064785003662,
      "learning_rate": 0.0001635,
      "loss": 3.9165,
      "step": 1090
    },
    {
      "epoch": 0.0022916666666666667,
      "grad_norm": 1.4951664209365845,
      "learning_rate": 0.000165,
      "loss": 4.1157,
      "step": 1100
    },
    {
      "epoch": 0.0023125,
      "grad_norm": 1.4276723861694336,
      "learning_rate": 0.0001665,
      "loss": 4.1812,
      "step": 1110
    },
    {
      "epoch": 0.0023333333333333335,
      "grad_norm": 1.5610439777374268,
      "learning_rate": 0.000168,
      "loss": 3.8691,
      "step": 1120
    },
    {
      "epoch": 0.0023541666666666667,
      "grad_norm": 1.53255295753479,
      "learning_rate": 0.00016949999999999997,
      "loss": 3.9833,
      "step": 1130
    },
    {
      "epoch": 0.002375,
      "grad_norm": 1.3743901252746582,
      "learning_rate": 0.00017099999999999998,
      "loss": 4.0057,
      "step": 1140
    },
    {
      "epoch": 0.002395833333333333,
      "grad_norm": 1.3765223026275635,
      "learning_rate": 0.00017249999999999996,
      "loss": 4.0022,
      "step": 1150
    },
    {
      "epoch": 0.002416666666666667,
      "grad_norm": 1.446834683418274,
      "learning_rate": 0.00017399999999999997,
      "loss": 3.9921,
      "step": 1160
    },
    {
      "epoch": 0.0024375,
      "grad_norm": 1.5292930603027344,
      "learning_rate": 0.00017549999999999998,
      "loss": 4.0972,
      "step": 1170
    },
    {
      "epoch": 0.002458333333333333,
      "grad_norm": 2.05924654006958,
      "learning_rate": 0.00017699999999999997,
      "loss": 3.9467,
      "step": 1180
    },
    {
      "epoch": 0.002479166666666667,
      "grad_norm": 1.3823415040969849,
      "learning_rate": 0.00017849999999999997,
      "loss": 3.9854,
      "step": 1190
    },
    {
      "epoch": 0.0025,
      "grad_norm": 1.386183738708496,
      "learning_rate": 0.00017999999999999998,
      "loss": 4.0909,
      "step": 1200
    },
    {
      "epoch": 0.0025208333333333333,
      "grad_norm": 1.5277749300003052,
      "learning_rate": 0.00018149999999999997,
      "loss": 4.3117,
      "step": 1210
    },
    {
      "epoch": 0.0025416666666666665,
      "grad_norm": 1.3108004331588745,
      "learning_rate": 0.00018299999999999998,
      "loss": 4.0516,
      "step": 1220
    },
    {
      "epoch": 0.0025625,
      "grad_norm": 1.484606385231018,
      "learning_rate": 0.00018449999999999999,
      "loss": 4.1339,
      "step": 1230
    },
    {
      "epoch": 0.0025833333333333333,
      "grad_norm": 1.4781019687652588,
      "learning_rate": 0.000186,
      "loss": 4.2401,
      "step": 1240
    },
    {
      "epoch": 0.0026041666666666665,
      "grad_norm": 1.3698230981826782,
      "learning_rate": 0.00018749999999999998,
      "loss": 3.8749,
      "step": 1250
    },
    {
      "epoch": 0.002625,
      "grad_norm": 1.4999946355819702,
      "learning_rate": 0.00018899999999999999,
      "loss": 4.2945,
      "step": 1260
    },
    {
      "epoch": 0.0026458333333333334,
      "grad_norm": 1.264510154724121,
      "learning_rate": 0.0001905,
      "loss": 4.0403,
      "step": 1270
    },
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 1.4496684074401855,
      "learning_rate": 0.00019199999999999998,
      "loss": 3.9182,
      "step": 1280
    },
    {
      "epoch": 0.0026875,
      "grad_norm": 1.4432339668273926,
      "learning_rate": 0.0001935,
      "loss": 4.0175,
      "step": 1290
    },
    {
      "epoch": 0.0027083333333333334,
      "grad_norm": 1.306222677230835,
      "learning_rate": 0.000195,
      "loss": 4.0138,
      "step": 1300
    },
    {
      "epoch": 0.0027291666666666666,
      "grad_norm": 1.4940820932388306,
      "learning_rate": 0.00019649999999999998,
      "loss": 4.0746,
      "step": 1310
    },
    {
      "epoch": 0.00275,
      "grad_norm": 1.342800498008728,
      "learning_rate": 0.000198,
      "loss": 3.9512,
      "step": 1320
    },
    {
      "epoch": 0.0027708333333333335,
      "grad_norm": 1.2622003555297852,
      "learning_rate": 0.0001995,
      "loss": 3.956,
      "step": 1330
    },
    {
      "epoch": 0.0027916666666666667,
      "grad_norm": 1.3727186918258667,
      "learning_rate": 0.000201,
      "loss": 3.9796,
      "step": 1340
    },
    {
      "epoch": 0.0028125,
      "grad_norm": 1.2846344709396362,
      "learning_rate": 0.0002025,
      "loss": 4.0527,
      "step": 1350
    },
    {
      "epoch": 0.0028333333333333335,
      "grad_norm": 1.3601651191711426,
      "learning_rate": 0.000204,
      "loss": 3.9333,
      "step": 1360
    },
    {
      "epoch": 0.0028541666666666667,
      "grad_norm": 1.3182964324951172,
      "learning_rate": 0.0002055,
      "loss": 3.991,
      "step": 1370
    },
    {
      "epoch": 0.002875,
      "grad_norm": 1.363232135772705,
      "learning_rate": 0.00020699999999999996,
      "loss": 4.1472,
      "step": 1380
    },
    {
      "epoch": 0.002895833333333333,
      "grad_norm": 1.6237571239471436,
      "learning_rate": 0.00020849999999999997,
      "loss": 3.9768,
      "step": 1390
    },
    {
      "epoch": 0.002916666666666667,
      "grad_norm": 1.8679720163345337,
      "learning_rate": 0.00020999999999999998,
      "loss": 3.9835,
      "step": 1400
    },
    {
      "epoch": 0.0029375,
      "grad_norm": 1.1690763235092163,
      "learning_rate": 0.00021149999999999996,
      "loss": 4.1292,
      "step": 1410
    },
    {
      "epoch": 0.002958333333333333,
      "grad_norm": 1.364965558052063,
      "learning_rate": 0.00021299999999999997,
      "loss": 3.8245,
      "step": 1420
    },
    {
      "epoch": 0.002979166666666667,
      "grad_norm": 1.122480869293213,
      "learning_rate": 0.00021449999999999998,
      "loss": 4.0,
      "step": 1430
    },
    {
      "epoch": 0.003,
      "grad_norm": 1.2842473983764648,
      "learning_rate": 0.00021599999999999996,
      "loss": 4.0448,
      "step": 1440
    },
    {
      "epoch": 0.0030208333333333333,
      "grad_norm": 1.4669883251190186,
      "learning_rate": 0.00021749999999999997,
      "loss": 4.1627,
      "step": 1450
    },
    {
      "epoch": 0.0030416666666666665,
      "grad_norm": 1.3798481225967407,
      "learning_rate": 0.00021899999999999998,
      "loss": 3.9475,
      "step": 1460
    },
    {
      "epoch": 0.0030625,
      "grad_norm": 1.3747225999832153,
      "learning_rate": 0.00022049999999999997,
      "loss": 3.9597,
      "step": 1470
    },
    {
      "epoch": 0.0030833333333333333,
      "grad_norm": 1.3016811609268188,
      "learning_rate": 0.00022199999999999998,
      "loss": 4.0458,
      "step": 1480
    },
    {
      "epoch": 0.0031041666666666665,
      "grad_norm": 1.2116535902023315,
      "learning_rate": 0.00022349999999999998,
      "loss": 4.1549,
      "step": 1490
    },
    {
      "epoch": 0.003125,
      "grad_norm": 1.475224256515503,
      "learning_rate": 0.000225,
      "loss": 4.0192,
      "step": 1500
    },
    {
      "epoch": 0.0031458333333333334,
      "grad_norm": 1.411436915397644,
      "learning_rate": 0.00022649999999999998,
      "loss": 4.0533,
      "step": 1510
    },
    {
      "epoch": 0.0031666666666666666,
      "grad_norm": 1.175031304359436,
      "learning_rate": 0.00022799999999999999,
      "loss": 3.994,
      "step": 1520
    },
    {
      "epoch": 0.0031875,
      "grad_norm": 1.2909666299819946,
      "learning_rate": 0.0002295,
      "loss": 4.1104,
      "step": 1530
    },
    {
      "epoch": 0.0032083333333333334,
      "grad_norm": 1.1881543397903442,
      "learning_rate": 0.00023099999999999998,
      "loss": 4.1381,
      "step": 1540
    },
    {
      "epoch": 0.0032291666666666666,
      "grad_norm": 1.2744104862213135,
      "learning_rate": 0.00023249999999999999,
      "loss": 4.0251,
      "step": 1550
    },
    {
      "epoch": 0.00325,
      "grad_norm": 1.3131662607192993,
      "learning_rate": 0.000234,
      "loss": 4.167,
      "step": 1560
    },
    {
      "epoch": 0.0032708333333333335,
      "grad_norm": 1.2335139513015747,
      "learning_rate": 0.00023549999999999998,
      "loss": 3.8963,
      "step": 1570
    },
    {
      "epoch": 0.0032916666666666667,
      "grad_norm": 1.1656324863433838,
      "learning_rate": 0.000237,
      "loss": 4.2505,
      "step": 1580
    },
    {
      "epoch": 0.0033125,
      "grad_norm": 1.3538964986801147,
      "learning_rate": 0.0002385,
      "loss": 3.9851,
      "step": 1590
    },
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 1.3212934732437134,
      "learning_rate": 0.00023999999999999998,
      "loss": 4.1367,
      "step": 1600
    },
    {
      "epoch": 0.0033541666666666668,
      "grad_norm": 1.171884298324585,
      "learning_rate": 0.0002415,
      "loss": 4.2488,
      "step": 1610
    },
    {
      "epoch": 0.003375,
      "grad_norm": 1.3764070272445679,
      "learning_rate": 0.000243,
      "loss": 4.1123,
      "step": 1620
    },
    {
      "epoch": 0.003395833333333333,
      "grad_norm": 1.267585277557373,
      "learning_rate": 0.0002445,
      "loss": 4.1675,
      "step": 1630
    },
    {
      "epoch": 0.003416666666666667,
      "grad_norm": 1.3058395385742188,
      "learning_rate": 0.00024599999999999996,
      "loss": 3.8901,
      "step": 1640
    },
    {
      "epoch": 0.0034375,
      "grad_norm": 1.341983675956726,
      "learning_rate": 0.00024749999999999994,
      "loss": 4.0792,
      "step": 1650
    },
    {
      "epoch": 0.0034583333333333332,
      "grad_norm": 1.173112392425537,
      "learning_rate": 0.000249,
      "loss": 3.8471,
      "step": 1660
    },
    {
      "epoch": 0.003479166666666667,
      "grad_norm": 1.409528374671936,
      "learning_rate": 0.00025049999999999996,
      "loss": 4.0386,
      "step": 1670
    },
    {
      "epoch": 0.0035,
      "grad_norm": 1.1081422567367554,
      "learning_rate": 0.00025199999999999995,
      "loss": 4.0552,
      "step": 1680
    },
    {
      "epoch": 0.0035208333333333333,
      "grad_norm": 1.300365924835205,
      "learning_rate": 0.0002535,
      "loss": 4.0157,
      "step": 1690
    },
    {
      "epoch": 0.0035416666666666665,
      "grad_norm": 1.1579424142837524,
      "learning_rate": 0.00025499999999999996,
      "loss": 3.979,
      "step": 1700
    },
    {
      "epoch": 0.0035625,
      "grad_norm": 1.1906883716583252,
      "learning_rate": 0.00025649999999999995,
      "loss": 4.0803,
      "step": 1710
    },
    {
      "epoch": 0.0035833333333333333,
      "grad_norm": 1.1819592714309692,
      "learning_rate": 0.000258,
      "loss": 4.0365,
      "step": 1720
    },
    {
      "epoch": 0.0036041666666666665,
      "grad_norm": 1.3222588300704956,
      "learning_rate": 0.00025949999999999997,
      "loss": 4.0097,
      "step": 1730
    },
    {
      "epoch": 0.003625,
      "grad_norm": 1.2372713088989258,
      "learning_rate": 0.000261,
      "loss": 4.2415,
      "step": 1740
    },
    {
      "epoch": 0.0036458333333333334,
      "grad_norm": 1.192972183227539,
      "learning_rate": 0.0002625,
      "loss": 3.9821,
      "step": 1750
    },
    {
      "epoch": 0.0036666666666666666,
      "grad_norm": 1.2455264329910278,
      "learning_rate": 0.00026399999999999997,
      "loss": 4.2005,
      "step": 1760
    },
    {
      "epoch": 0.0036875,
      "grad_norm": 1.2281546592712402,
      "learning_rate": 0.0002655,
      "loss": 3.9592,
      "step": 1770
    },
    {
      "epoch": 0.0037083333333333334,
      "grad_norm": 2.3578450679779053,
      "learning_rate": 0.000267,
      "loss": 4.0041,
      "step": 1780
    },
    {
      "epoch": 0.0037291666666666667,
      "grad_norm": 1.2774590253829956,
      "learning_rate": 0.00026849999999999997,
      "loss": 3.9978,
      "step": 1790
    },
    {
      "epoch": 0.00375,
      "grad_norm": 1.3133232593536377,
      "learning_rate": 0.00027,
      "loss": 4.1734,
      "step": 1800
    },
    {
      "epoch": 0.0037708333333333335,
      "grad_norm": 1.335173487663269,
      "learning_rate": 0.0002715,
      "loss": 4.117,
      "step": 1810
    },
    {
      "epoch": 0.0037916666666666667,
      "grad_norm": 1.1842995882034302,
      "learning_rate": 0.00027299999999999997,
      "loss": 3.9825,
      "step": 1820
    },
    {
      "epoch": 0.0038125,
      "grad_norm": 1.1911958456039429,
      "learning_rate": 0.0002745,
      "loss": 4.1208,
      "step": 1830
    },
    {
      "epoch": 0.003833333333333333,
      "grad_norm": 1.4115355014801025,
      "learning_rate": 0.000276,
      "loss": 4.0871,
      "step": 1840
    },
    {
      "epoch": 0.0038541666666666668,
      "grad_norm": 1.940555214881897,
      "learning_rate": 0.00027749999999999997,
      "loss": 4.0454,
      "step": 1850
    },
    {
      "epoch": 0.003875,
      "grad_norm": 1.300365924835205,
      "learning_rate": 0.000279,
      "loss": 3.9271,
      "step": 1860
    },
    {
      "epoch": 0.003895833333333333,
      "grad_norm": 1.2404224872589111,
      "learning_rate": 0.0002805,
      "loss": 4.0941,
      "step": 1870
    },
    {
      "epoch": 0.003916666666666666,
      "grad_norm": 1.1379237174987793,
      "learning_rate": 0.00028199999999999997,
      "loss": 4.1332,
      "step": 1880
    },
    {
      "epoch": 0.0039375,
      "grad_norm": 1.171494483947754,
      "learning_rate": 0.00028349999999999995,
      "loss": 4.0771,
      "step": 1890
    },
    {
      "epoch": 0.003958333333333334,
      "grad_norm": 1.444305658340454,
      "learning_rate": 0.000285,
      "loss": 4.0065,
      "step": 1900
    },
    {
      "epoch": 0.0039791666666666664,
      "grad_norm": 1.1444891691207886,
      "learning_rate": 0.00028649999999999997,
      "loss": 4.0505,
      "step": 1910
    },
    {
      "epoch": 0.004,
      "grad_norm": 1.1751891374588013,
      "learning_rate": 0.00028799999999999995,
      "loss": 4.04,
      "step": 1920
    },
    {
      "epoch": 0.004020833333333334,
      "grad_norm": 1.3004765510559082,
      "learning_rate": 0.0002895,
      "loss": 4.0351,
      "step": 1930
    },
    {
      "epoch": 0.0040416666666666665,
      "grad_norm": 1.166332721710205,
      "learning_rate": 0.00029099999999999997,
      "loss": 3.8519,
      "step": 1940
    },
    {
      "epoch": 0.0040625,
      "grad_norm": 1.0714452266693115,
      "learning_rate": 0.00029249999999999995,
      "loss": 4.0759,
      "step": 1950
    },
    {
      "epoch": 0.004083333333333333,
      "grad_norm": 1.2121813297271729,
      "learning_rate": 0.000294,
      "loss": 3.9862,
      "step": 1960
    },
    {
      "epoch": 0.0041041666666666666,
      "grad_norm": 1.2187029123306274,
      "learning_rate": 0.00029549999999999997,
      "loss": 4.1827,
      "step": 1970
    },
    {
      "epoch": 0.004125,
      "grad_norm": 1.1891403198242188,
      "learning_rate": 0.00029699999999999996,
      "loss": 4.203,
      "step": 1980
    },
    {
      "epoch": 0.004145833333333333,
      "grad_norm": 1.3048672676086426,
      "learning_rate": 0.0002985,
      "loss": 4.1336,
      "step": 1990
    },
    {
      "epoch": 0.004166666666666667,
      "grad_norm": 1.2116934061050415,
      "learning_rate": 0.0003,
      "loss": 4.1862,
      "step": 2000
    },
    {
      "epoch": 0.004166666666666667,
      "eval_loss": 4.382291316986084,
      "eval_runtime": 10.3886,
      "eval_samples_per_second": 0.963,
      "eval_steps_per_second": 0.289,
      "step": 2000
    },
    {
      "epoch": 0.0041875,
      "grad_norm": 1.0577685832977295,
      "learning_rate": 0.00029999999967602963,
      "loss": 4.2605,
      "step": 2010
    },
    {
      "epoch": 0.004208333333333333,
      "grad_norm": 1.0988579988479614,
      "learning_rate": 0.0002999999987041187,
      "loss": 4.1993,
      "step": 2020
    },
    {
      "epoch": 0.004229166666666667,
      "grad_norm": 1.1419802904129028,
      "learning_rate": 0.00029999999708426716,
      "loss": 4.0242,
      "step": 2030
    },
    {
      "epoch": 0.00425,
      "grad_norm": 1.0286445617675781,
      "learning_rate": 0.000299999994816475,
      "loss": 3.8877,
      "step": 2040
    },
    {
      "epoch": 0.004270833333333333,
      "grad_norm": 1.1018036603927612,
      "learning_rate": 0.0002999999919007422,
      "loss": 4.264,
      "step": 2050
    },
    {
      "epoch": 0.004291666666666667,
      "grad_norm": 1.399141788482666,
      "learning_rate": 0.00029999998833706883,
      "loss": 4.3198,
      "step": 2060
    },
    {
      "epoch": 0.0043125,
      "grad_norm": 1.1172322034835815,
      "learning_rate": 0.0002999999841254549,
      "loss": 4.1278,
      "step": 2070
    },
    {
      "epoch": 0.004333333333333333,
      "grad_norm": 1.2724196910858154,
      "learning_rate": 0.0002999999792659004,
      "loss": 4.2393,
      "step": 2080
    },
    {
      "epoch": 0.004354166666666667,
      "grad_norm": 1.2641189098358154,
      "learning_rate": 0.00029999997375840536,
      "loss": 4.0983,
      "step": 2090
    },
    {
      "epoch": 0.004375,
      "grad_norm": 1.0351061820983887,
      "learning_rate": 0.0002999999676029699,
      "loss": 4.1453,
      "step": 2100
    },
    {
      "epoch": 0.004395833333333333,
      "grad_norm": 1.1754543781280518,
      "learning_rate": 0.00029999996079959376,
      "loss": 4.0488,
      "step": 2110
    },
    {
      "epoch": 0.004416666666666667,
      "grad_norm": 1.1882072687149048,
      "learning_rate": 0.0002999999533482773,
      "loss": 4.0995,
      "step": 2120
    },
    {
      "epoch": 0.0044375,
      "grad_norm": 1.2081167697906494,
      "learning_rate": 0.0002999999452490204,
      "loss": 4.0441,
      "step": 2130
    },
    {
      "epoch": 0.004458333333333333,
      "grad_norm": 1.2373205423355103,
      "learning_rate": 0.0002999999365018231,
      "loss": 4.1271,
      "step": 2140
    },
    {
      "epoch": 0.004479166666666667,
      "grad_norm": 1.3180184364318848,
      "learning_rate": 0.00029999992710668543,
      "loss": 4.152,
      "step": 2150
    },
    {
      "epoch": 0.0045,
      "grad_norm": 1.0901281833648682,
      "learning_rate": 0.00029999991706360747,
      "loss": 4.0374,
      "step": 2160
    },
    {
      "epoch": 0.004520833333333333,
      "grad_norm": 1.6377564668655396,
      "learning_rate": 0.0002999999063725892,
      "loss": 4.0079,
      "step": 2170
    },
    {
      "epoch": 0.004541666666666667,
      "grad_norm": 1.2074567079544067,
      "learning_rate": 0.00029999989503363077,
      "loss": 4.0182,
      "step": 2180
    },
    {
      "epoch": 0.0045625,
      "grad_norm": 1.2036203145980835,
      "learning_rate": 0.00029999988304673216,
      "loss": 3.9318,
      "step": 2190
    },
    {
      "epoch": 0.004583333333333333,
      "grad_norm": 1.0758192539215088,
      "learning_rate": 0.0002999998704118934,
      "loss": 4.1446,
      "step": 2200
    },
    {
      "epoch": 0.004604166666666667,
      "grad_norm": 1.3355058431625366,
      "learning_rate": 0.0002999998571291146,
      "loss": 4.117,
      "step": 2210
    },
    {
      "epoch": 0.004625,
      "grad_norm": 1.189584493637085,
      "learning_rate": 0.0002999998431983958,
      "loss": 4.1027,
      "step": 2220
    },
    {
      "epoch": 0.004645833333333333,
      "grad_norm": 1.054349660873413,
      "learning_rate": 0.000299999828619737,
      "loss": 4.2338,
      "step": 2230
    },
    {
      "epoch": 0.004666666666666667,
      "grad_norm": 1.0139858722686768,
      "learning_rate": 0.00029999981339313834,
      "loss": 4.0107,
      "step": 2240
    },
    {
      "epoch": 0.0046875,
      "grad_norm": 1.1467679738998413,
      "learning_rate": 0.00029999979751859984,
      "loss": 4.2146,
      "step": 2250
    },
    {
      "epoch": 0.0047083333333333335,
      "grad_norm": 1.0526251792907715,
      "learning_rate": 0.00029999978099612163,
      "loss": 4.0815,
      "step": 2260
    },
    {
      "epoch": 0.004729166666666666,
      "grad_norm": 1.1610180139541626,
      "learning_rate": 0.0002999997638257037,
      "loss": 4.002,
      "step": 2270
    },
    {
      "epoch": 0.00475,
      "grad_norm": 1.1730180978775024,
      "learning_rate": 0.0002999997460073462,
      "loss": 4.2205,
      "step": 2280
    },
    {
      "epoch": 0.0047708333333333335,
      "grad_norm": 1.184383511543274,
      "learning_rate": 0.0002999997275410492,
      "loss": 3.9301,
      "step": 2290
    },
    {
      "epoch": 0.004791666666666666,
      "grad_norm": 1.253609299659729,
      "learning_rate": 0.00029999970842681267,
      "loss": 4.3028,
      "step": 2300
    },
    {
      "epoch": 0.0048125,
      "grad_norm": 1.12043297290802,
      "learning_rate": 0.00029999968866463683,
      "loss": 4.1619,
      "step": 2310
    },
    {
      "epoch": 0.004833333333333334,
      "grad_norm": 1.2768105268478394,
      "learning_rate": 0.00029999966825452166,
      "loss": 4.2285,
      "step": 2320
    },
    {
      "epoch": 0.004854166666666666,
      "grad_norm": 1.096865177154541,
      "learning_rate": 0.00029999964719646733,
      "loss": 3.9927,
      "step": 2330
    },
    {
      "epoch": 0.004875,
      "grad_norm": 1.147199273109436,
      "learning_rate": 0.00029999962549047394,
      "loss": 4.1024,
      "step": 2340
    },
    {
      "epoch": 0.004895833333333334,
      "grad_norm": 1.2145557403564453,
      "learning_rate": 0.0002999996031365415,
      "loss": 4.1925,
      "step": 2350
    },
    {
      "epoch": 0.004916666666666666,
      "grad_norm": 1.2878481149673462,
      "learning_rate": 0.00029999958013467013,
      "loss": 4.29,
      "step": 2360
    },
    {
      "epoch": 0.0049375,
      "grad_norm": 1.0913647413253784,
      "learning_rate": 0.00029999955648485994,
      "loss": 4.0452,
      "step": 2370
    },
    {
      "epoch": 0.004958333333333334,
      "grad_norm": 1.0784485340118408,
      "learning_rate": 0.00029999953218711107,
      "loss": 3.9526,
      "step": 2380
    },
    {
      "epoch": 0.0049791666666666665,
      "grad_norm": 1.2260849475860596,
      "learning_rate": 0.0002999995072414236,
      "loss": 4.0098,
      "step": 2390
    },
    {
      "epoch": 0.005,
      "grad_norm": 1.08518648147583,
      "learning_rate": 0.0002999994816477976,
      "loss": 4.2647,
      "step": 2400
    },
    {
      "epoch": 0.005020833333333334,
      "grad_norm": 1.3454649448394775,
      "learning_rate": 0.00029999945540623324,
      "loss": 4.1582,
      "step": 2410
    },
    {
      "epoch": 0.0050416666666666665,
      "grad_norm": 1.1058865785598755,
      "learning_rate": 0.00029999942851673063,
      "loss": 4.2149,
      "step": 2420
    },
    {
      "epoch": 0.0050625,
      "grad_norm": 1.1923335790634155,
      "learning_rate": 0.0002999994009792898,
      "loss": 4.1541,
      "step": 2430
    },
    {
      "epoch": 0.005083333333333333,
      "grad_norm": 1.142852544784546,
      "learning_rate": 0.000299999372793911,
      "loss": 4.0744,
      "step": 2440
    },
    {
      "epoch": 0.005104166666666667,
      "grad_norm": 1.1746304035186768,
      "learning_rate": 0.00029999934396059423,
      "loss": 4.231,
      "step": 2450
    },
    {
      "epoch": 0.005125,
      "grad_norm": 0.9712422490119934,
      "learning_rate": 0.0002999993144793397,
      "loss": 4.3394,
      "step": 2460
    },
    {
      "epoch": 0.005145833333333333,
      "grad_norm": 1.2291202545166016,
      "learning_rate": 0.0002999992843501475,
      "loss": 4.028,
      "step": 2470
    },
    {
      "epoch": 0.005166666666666667,
      "grad_norm": 1.145798683166504,
      "learning_rate": 0.00029999925357301774,
      "loss": 4.114,
      "step": 2480
    },
    {
      "epoch": 0.0051875,
      "grad_norm": 1.0704258680343628,
      "learning_rate": 0.0002999992221479506,
      "loss": 4.3541,
      "step": 2490
    },
    {
      "epoch": 0.005208333333333333,
      "grad_norm": 1.0827873945236206,
      "learning_rate": 0.0002999991900749462,
      "loss": 4.099,
      "step": 2500
    },
    {
      "epoch": 0.005229166666666667,
      "grad_norm": 1.0499145984649658,
      "learning_rate": 0.0002999991573540047,
      "loss": 4.2679,
      "step": 2510
    },
    {
      "epoch": 0.00525,
      "grad_norm": 1.093379259109497,
      "learning_rate": 0.0002999991239851261,
      "loss": 4.1012,
      "step": 2520
    },
    {
      "epoch": 0.005270833333333333,
      "grad_norm": 1.046856164932251,
      "learning_rate": 0.00029999908996831075,
      "loss": 4.2928,
      "step": 2530
    },
    {
      "epoch": 0.005291666666666667,
      "grad_norm": 1.163751482963562,
      "learning_rate": 0.0002999990553035587,
      "loss": 4.3245,
      "step": 2540
    },
    {
      "epoch": 0.0053125,
      "grad_norm": 1.4320194721221924,
      "learning_rate": 0.00029999901999087014,
      "loss": 3.9341,
      "step": 2550
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 1.0278105735778809,
      "learning_rate": 0.0002999989840302451,
      "loss": 4.1493,
      "step": 2560
    },
    {
      "epoch": 0.005354166666666667,
      "grad_norm": 1.0652390718460083,
      "learning_rate": 0.00029999894742168385,
      "loss": 4.194,
      "step": 2570
    },
    {
      "epoch": 0.005375,
      "grad_norm": 1.0480515956878662,
      "learning_rate": 0.0002999989101651866,
      "loss": 3.9721,
      "step": 2580
    },
    {
      "epoch": 0.005395833333333333,
      "grad_norm": 1.142817497253418,
      "learning_rate": 0.0002999988722607533,
      "loss": 3.9859,
      "step": 2590
    },
    {
      "epoch": 0.005416666666666667,
      "grad_norm": 1.164863109588623,
      "learning_rate": 0.00029999883370838434,
      "loss": 4.058,
      "step": 2600
    },
    {
      "epoch": 0.0054375,
      "grad_norm": 1.197238802909851,
      "learning_rate": 0.00029999879450807977,
      "loss": 3.9827,
      "step": 2610
    },
    {
      "epoch": 0.005458333333333333,
      "grad_norm": 1.0357304811477661,
      "learning_rate": 0.00029999875465983977,
      "loss": 4.1392,
      "step": 2620
    },
    {
      "epoch": 0.005479166666666667,
      "grad_norm": 1.1916322708129883,
      "learning_rate": 0.00029999871416366456,
      "loss": 4.19,
      "step": 2630
    },
    {
      "epoch": 0.0055,
      "grad_norm": 4.384791374206543,
      "learning_rate": 0.00029999867301955425,
      "loss": 4.0635,
      "step": 2640
    },
    {
      "epoch": 0.005520833333333333,
      "grad_norm": 1.0943084955215454,
      "learning_rate": 0.000299998631227509,
      "loss": 4.1459,
      "step": 2650
    },
    {
      "epoch": 0.005541666666666667,
      "grad_norm": 0.9524834752082825,
      "learning_rate": 0.0002999985887875291,
      "loss": 4.0846,
      "step": 2660
    },
    {
      "epoch": 0.0055625,
      "grad_norm": 1.2036954164505005,
      "learning_rate": 0.00029999854569961467,
      "loss": 4.0522,
      "step": 2670
    },
    {
      "epoch": 0.005583333333333333,
      "grad_norm": 1.0524048805236816,
      "learning_rate": 0.00029999850196376585,
      "loss": 4.1405,
      "step": 2680
    },
    {
      "epoch": 0.005604166666666667,
      "grad_norm": 0.9235457181930542,
      "learning_rate": 0.0002999984575799829,
      "loss": 4.2421,
      "step": 2690
    },
    {
      "epoch": 0.005625,
      "grad_norm": 1.0990880727767944,
      "learning_rate": 0.000299998412548266,
      "loss": 4.282,
      "step": 2700
    },
    {
      "epoch": 0.005645833333333333,
      "grad_norm": 0.926478922367096,
      "learning_rate": 0.0002999983668686153,
      "loss": 4.2851,
      "step": 2710
    },
    {
      "epoch": 0.005666666666666667,
      "grad_norm": 1.0308059453964233,
      "learning_rate": 0.00029999832054103105,
      "loss": 4.1306,
      "step": 2720
    },
    {
      "epoch": 0.0056875,
      "grad_norm": 1.2634823322296143,
      "learning_rate": 0.00029999827356551345,
      "loss": 4.1079,
      "step": 2730
    },
    {
      "epoch": 0.0057083333333333335,
      "grad_norm": 1.12738835811615,
      "learning_rate": 0.0002999982259420627,
      "loss": 4.0866,
      "step": 2740
    },
    {
      "epoch": 0.005729166666666666,
      "grad_norm": 1.2450400590896606,
      "learning_rate": 0.00029999817767067895,
      "loss": 4.1577,
      "step": 2750
    },
    {
      "epoch": 0.00575,
      "grad_norm": 1.7179460525512695,
      "learning_rate": 0.0002999981287513624,
      "loss": 4.146,
      "step": 2760
    },
    {
      "epoch": 0.0057708333333333335,
      "grad_norm": 1.095332384109497,
      "learning_rate": 0.00029999807918411336,
      "loss": 4.1192,
      "step": 2770
    },
    {
      "epoch": 0.005791666666666666,
      "grad_norm": 1.1595033407211304,
      "learning_rate": 0.00029999802896893196,
      "loss": 4.1392,
      "step": 2780
    },
    {
      "epoch": 0.0058125,
      "grad_norm": 1.1099618673324585,
      "learning_rate": 0.0002999979781058185,
      "loss": 4.1111,
      "step": 2790
    },
    {
      "epoch": 0.005833333333333334,
      "grad_norm": 0.9408655166625977,
      "learning_rate": 0.0002999979265947731,
      "loss": 4.1332,
      "step": 2800
    },
    {
      "epoch": 0.005854166666666666,
      "grad_norm": 1.1000653505325317,
      "learning_rate": 0.00029999787443579605,
      "loss": 4.4146,
      "step": 2810
    },
    {
      "epoch": 0.005875,
      "grad_norm": 1.7831401824951172,
      "learning_rate": 0.0002999978216288876,
      "loss": 4.1126,
      "step": 2820
    },
    {
      "epoch": 0.005895833333333334,
      "grad_norm": 1.0727406740188599,
      "learning_rate": 0.00029999776817404784,
      "loss": 4.0295,
      "step": 2830
    },
    {
      "epoch": 0.005916666666666666,
      "grad_norm": 1.111051082611084,
      "learning_rate": 0.0002999977140712772,
      "loss": 4.0813,
      "step": 2840
    },
    {
      "epoch": 0.0059375,
      "grad_norm": 1.1414178609848022,
      "learning_rate": 0.0002999976593205757,
      "loss": 4.1177,
      "step": 2850
    },
    {
      "epoch": 0.005958333333333334,
      "grad_norm": 0.964155912399292,
      "learning_rate": 0.00029999760392194374,
      "loss": 4.1353,
      "step": 2860
    },
    {
      "epoch": 0.0059791666666666665,
      "grad_norm": 0.9044974446296692,
      "learning_rate": 0.0002999975478753815,
      "loss": 4.2462,
      "step": 2870
    },
    {
      "epoch": 0.006,
      "grad_norm": 1.0221383571624756,
      "learning_rate": 0.00029999749118088924,
      "loss": 4.1503,
      "step": 2880
    },
    {
      "epoch": 0.006020833333333334,
      "grad_norm": 0.9620047211647034,
      "learning_rate": 0.0002999974338384672,
      "loss": 4.0076,
      "step": 2890
    },
    {
      "epoch": 0.0060416666666666665,
      "grad_norm": 0.9373981356620789,
      "learning_rate": 0.0002999973758481156,
      "loss": 4.2175,
      "step": 2900
    },
    {
      "epoch": 0.0060625,
      "grad_norm": 1.0862994194030762,
      "learning_rate": 0.00029999731720983466,
      "loss": 4.0353,
      "step": 2910
    },
    {
      "epoch": 0.006083333333333333,
      "grad_norm": 1.1491087675094604,
      "learning_rate": 0.00029999725792362477,
      "loss": 4.1164,
      "step": 2920
    },
    {
      "epoch": 0.006104166666666667,
      "grad_norm": 1.0262116193771362,
      "learning_rate": 0.000299997197989486,
      "loss": 4.0479,
      "step": 2930
    },
    {
      "epoch": 0.006125,
      "grad_norm": 1.1843056678771973,
      "learning_rate": 0.0002999971374074188,
      "loss": 4.1838,
      "step": 2940
    },
    {
      "epoch": 0.006145833333333333,
      "grad_norm": 1.049102544784546,
      "learning_rate": 0.0002999970761774233,
      "loss": 4.1142,
      "step": 2950
    },
    {
      "epoch": 0.006166666666666667,
      "grad_norm": 0.9689348936080933,
      "learning_rate": 0.0002999970142994998,
      "loss": 4.1138,
      "step": 2960
    },
    {
      "epoch": 0.0061875,
      "grad_norm": 1.0530732870101929,
      "learning_rate": 0.0002999969517736486,
      "loss": 4.29,
      "step": 2970
    },
    {
      "epoch": 0.006208333333333333,
      "grad_norm": 1.7195388078689575,
      "learning_rate": 0.0002999968885998699,
      "loss": 4.1257,
      "step": 2980
    },
    {
      "epoch": 0.006229166666666667,
      "grad_norm": 1.0450174808502197,
      "learning_rate": 0.000299996824778164,
      "loss": 4.1088,
      "step": 2990
    },
    {
      "epoch": 0.00625,
      "grad_norm": 1.228456735610962,
      "learning_rate": 0.00029999676030853127,
      "loss": 4.2825,
      "step": 3000
    },
    {
      "epoch": 0.00625,
      "eval_loss": 4.378960609436035,
      "eval_runtime": 8.8477,
      "eval_samples_per_second": 1.13,
      "eval_steps_per_second": 0.339,
      "step": 3000
    },
    {
      "epoch": 0.006270833333333333,
      "grad_norm": 1.0226293802261353,
      "learning_rate": 0.00029999669519097187,
      "loss": 4.0176,
      "step": 3010
    },
    {
      "epoch": 0.006291666666666667,
      "grad_norm": 1.0989165306091309,
      "learning_rate": 0.0002999966294254861,
      "loss": 4.0433,
      "step": 3020
    },
    {
      "epoch": 0.0063125,
      "grad_norm": 1.1580628156661987,
      "learning_rate": 0.00029999656301207426,
      "loss": 4.2991,
      "step": 3030
    },
    {
      "epoch": 0.006333333333333333,
      "grad_norm": 1.0603053569793701,
      "learning_rate": 0.0002999964959507367,
      "loss": 4.2655,
      "step": 3040
    },
    {
      "epoch": 0.006354166666666667,
      "grad_norm": 1.0689760446548462,
      "learning_rate": 0.00029999642824147355,
      "loss": 4.2025,
      "step": 3050
    },
    {
      "epoch": 0.006375,
      "grad_norm": 0.9069424867630005,
      "learning_rate": 0.00029999635988428526,
      "loss": 4.1641,
      "step": 3060
    },
    {
      "epoch": 0.006395833333333333,
      "grad_norm": 1.004957914352417,
      "learning_rate": 0.0002999962908791721,
      "loss": 4.0479,
      "step": 3070
    },
    {
      "epoch": 0.006416666666666667,
      "grad_norm": 1.0289911031723022,
      "learning_rate": 0.0002999962212261343,
      "loss": 4.2761,
      "step": 3080
    },
    {
      "epoch": 0.0064375,
      "grad_norm": 1.219789981842041,
      "learning_rate": 0.0002999961509251722,
      "loss": 4.1492,
      "step": 3090
    },
    {
      "epoch": 0.006458333333333333,
      "grad_norm": 1.4861950874328613,
      "learning_rate": 0.0002999960799762861,
      "loss": 4.0238,
      "step": 3100
    },
    {
      "epoch": 0.006479166666666667,
      "grad_norm": 0.96826171875,
      "learning_rate": 0.00029999600837947633,
      "loss": 4.1346,
      "step": 3110
    },
    {
      "epoch": 0.0065,
      "grad_norm": 1.0257459878921509,
      "learning_rate": 0.00029999593613474313,
      "loss": 4.0958,
      "step": 3120
    },
    {
      "epoch": 0.006520833333333333,
      "grad_norm": 1.6640087366104126,
      "learning_rate": 0.00029999586324208687,
      "loss": 3.9899,
      "step": 3130
    },
    {
      "epoch": 0.006541666666666667,
      "grad_norm": 1.0861214399337769,
      "learning_rate": 0.0002999957897015079,
      "loss": 3.9649,
      "step": 3140
    },
    {
      "epoch": 0.0065625,
      "grad_norm": 0.9673305153846741,
      "learning_rate": 0.00029999571551300643,
      "loss": 4.0539,
      "step": 3150
    },
    {
      "epoch": 0.006583333333333333,
      "grad_norm": 0.9759741425514221,
      "learning_rate": 0.0002999956406765829,
      "loss": 4.0037,
      "step": 3160
    },
    {
      "epoch": 0.006604166666666667,
      "grad_norm": 1.2089710235595703,
      "learning_rate": 0.0002999955651922376,
      "loss": 4.0834,
      "step": 3170
    },
    {
      "epoch": 0.006625,
      "grad_norm": 1.2135523557662964,
      "learning_rate": 0.00029999548905997075,
      "loss": 4.2219,
      "step": 3180
    },
    {
      "epoch": 0.0066458333333333335,
      "grad_norm": 0.9745142459869385,
      "learning_rate": 0.00029999541227978275,
      "loss": 4.1502,
      "step": 3190
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 0.9930278658866882,
      "learning_rate": 0.00029999533485167395,
      "loss": 4.0187,
      "step": 3200
    },
    {
      "epoch": 0.0066875,
      "grad_norm": 0.9936468601226807,
      "learning_rate": 0.0002999952567756447,
      "loss": 3.9984,
      "step": 3210
    },
    {
      "epoch": 0.0067083333333333335,
      "grad_norm": 1.0657151937484741,
      "learning_rate": 0.00029999517805169535,
      "loss": 3.9239,
      "step": 3220
    },
    {
      "epoch": 0.006729166666666666,
      "grad_norm": 1.2029967308044434,
      "learning_rate": 0.00029999509867982614,
      "loss": 4.0249,
      "step": 3230
    },
    {
      "epoch": 0.00675,
      "grad_norm": 1.0581333637237549,
      "learning_rate": 0.00029999501866003755,
      "loss": 4.1263,
      "step": 3240
    },
    {
      "epoch": 0.0067708333333333336,
      "grad_norm": 0.9429060220718384,
      "learning_rate": 0.00029999493799232974,
      "loss": 4.1181,
      "step": 3250
    },
    {
      "epoch": 0.006791666666666666,
      "grad_norm": 1.3834877014160156,
      "learning_rate": 0.00029999485667670325,
      "loss": 4.0355,
      "step": 3260
    },
    {
      "epoch": 0.0068125,
      "grad_norm": 1.0421152114868164,
      "learning_rate": 0.00029999477471315836,
      "loss": 4.0786,
      "step": 3270
    },
    {
      "epoch": 0.006833333333333334,
      "grad_norm": 0.9363729953765869,
      "learning_rate": 0.00029999469210169533,
      "loss": 4.2617,
      "step": 3280
    },
    {
      "epoch": 0.006854166666666666,
      "grad_norm": 0.9872600436210632,
      "learning_rate": 0.0002999946088423147,
      "loss": 4.3244,
      "step": 3290
    },
    {
      "epoch": 0.006875,
      "grad_norm": 0.9648100137710571,
      "learning_rate": 0.0002999945249350167,
      "loss": 4.209,
      "step": 3300
    },
    {
      "epoch": 0.006895833333333334,
      "grad_norm": 0.9150853157043457,
      "learning_rate": 0.00029999444037980173,
      "loss": 4.1278,
      "step": 3310
    },
    {
      "epoch": 0.0069166666666666664,
      "grad_norm": 1.055658221244812,
      "learning_rate": 0.0002999943551766701,
      "loss": 4.0166,
      "step": 3320
    },
    {
      "epoch": 0.0069375,
      "grad_norm": 1.0330820083618164,
      "learning_rate": 0.0002999942693256223,
      "loss": 3.9702,
      "step": 3330
    },
    {
      "epoch": 0.006958333333333334,
      "grad_norm": 1.051222801208496,
      "learning_rate": 0.00029999418282665864,
      "loss": 3.9864,
      "step": 3340
    },
    {
      "epoch": 0.0069791666666666665,
      "grad_norm": 1.012973427772522,
      "learning_rate": 0.00029999409567977935,
      "loss": 3.9872,
      "step": 3350
    },
    {
      "epoch": 0.007,
      "grad_norm": 1.0198677778244019,
      "learning_rate": 0.0002999940078849851,
      "loss": 4.0731,
      "step": 3360
    },
    {
      "epoch": 0.007020833333333333,
      "grad_norm": 0.8081440925598145,
      "learning_rate": 0.000299993919442276,
      "loss": 4.1988,
      "step": 3370
    },
    {
      "epoch": 0.0070416666666666666,
      "grad_norm": 0.9568122029304504,
      "learning_rate": 0.0002999938303516526,
      "loss": 4.0705,
      "step": 3380
    },
    {
      "epoch": 0.0070625,
      "grad_norm": 1.230553150177002,
      "learning_rate": 0.0002999937406131152,
      "loss": 4.1092,
      "step": 3390
    },
    {
      "epoch": 0.007083333333333333,
      "grad_norm": 1.1079275608062744,
      "learning_rate": 0.00029999365022666415,
      "loss": 4.2416,
      "step": 3400
    },
    {
      "epoch": 0.007104166666666667,
      "grad_norm": 0.9667612910270691,
      "learning_rate": 0.00029999355919229997,
      "loss": 4.194,
      "step": 3410
    },
    {
      "epoch": 0.007125,
      "grad_norm": 1.2702641487121582,
      "learning_rate": 0.00029999346751002296,
      "loss": 4.179,
      "step": 3420
    },
    {
      "epoch": 0.007145833333333333,
      "grad_norm": 1.158349871635437,
      "learning_rate": 0.00029999337517983357,
      "loss": 3.9772,
      "step": 3430
    },
    {
      "epoch": 0.007166666666666667,
      "grad_norm": 1.153567910194397,
      "learning_rate": 0.00029999328220173217,
      "loss": 3.9881,
      "step": 3440
    },
    {
      "epoch": 0.0071875,
      "grad_norm": 0.9724677801132202,
      "learning_rate": 0.0002999931885757192,
      "loss": 4.0156,
      "step": 3450
    },
    {
      "epoch": 0.007208333333333333,
      "grad_norm": 0.9752664566040039,
      "learning_rate": 0.0002999930943017949,
      "loss": 4.0632,
      "step": 3460
    },
    {
      "epoch": 0.007229166666666667,
      "grad_norm": 1.0466904640197754,
      "learning_rate": 0.00029999299937995993,
      "loss": 4.1103,
      "step": 3470
    },
    {
      "epoch": 0.00725,
      "grad_norm": 1.1763368844985962,
      "learning_rate": 0.0002999929038102145,
      "loss": 3.9864,
      "step": 3480
    },
    {
      "epoch": 0.007270833333333333,
      "grad_norm": 1.0249053239822388,
      "learning_rate": 0.00029999280759255913,
      "loss": 4.1273,
      "step": 3490
    },
    {
      "epoch": 0.007291666666666667,
      "grad_norm": 1.0555284023284912,
      "learning_rate": 0.0002999927107269942,
      "loss": 4.0869,
      "step": 3500
    },
    {
      "epoch": 0.0073125,
      "grad_norm": 0.8717091083526611,
      "learning_rate": 0.0002999926132135202,
      "loss": 4.1583,
      "step": 3510
    },
    {
      "epoch": 0.007333333333333333,
      "grad_norm": 0.9739394187927246,
      "learning_rate": 0.00029999251505213734,
      "loss": 4.0874,
      "step": 3520
    },
    {
      "epoch": 0.007354166666666667,
      "grad_norm": 1.0422697067260742,
      "learning_rate": 0.00029999241624284624,
      "loss": 4.2855,
      "step": 3530
    },
    {
      "epoch": 0.007375,
      "grad_norm": 0.8878806233406067,
      "learning_rate": 0.0002999923167856473,
      "loss": 4.0969,
      "step": 3540
    },
    {
      "epoch": 0.007395833333333333,
      "grad_norm": 0.9929745197296143,
      "learning_rate": 0.0002999922166805409,
      "loss": 4.181,
      "step": 3550
    },
    {
      "epoch": 0.007416666666666667,
      "grad_norm": 1.059216022491455,
      "learning_rate": 0.0002999921159275275,
      "loss": 4.0431,
      "step": 3560
    },
    {
      "epoch": 0.0074375,
      "grad_norm": 0.9647489190101624,
      "learning_rate": 0.0002999920145266076,
      "loss": 3.9452,
      "step": 3570
    },
    {
      "epoch": 0.007458333333333333,
      "grad_norm": 0.9883825182914734,
      "learning_rate": 0.0002999919124777815,
      "loss": 3.9943,
      "step": 3580
    },
    {
      "epoch": 0.007479166666666667,
      "grad_norm": 1.7491518259048462,
      "learning_rate": 0.00029999180978104966,
      "loss": 4.2686,
      "step": 3590
    },
    {
      "epoch": 0.0075,
      "grad_norm": 0.9396332502365112,
      "learning_rate": 0.00029999170643641267,
      "loss": 4.0992,
      "step": 3600
    },
    {
      "epoch": 0.007520833333333333,
      "grad_norm": 1.0325697660446167,
      "learning_rate": 0.0002999916024438708,
      "loss": 4.0462,
      "step": 3610
    },
    {
      "epoch": 0.007541666666666667,
      "grad_norm": 1.132477879524231,
      "learning_rate": 0.0002999914978034246,
      "loss": 4.0857,
      "step": 3620
    },
    {
      "epoch": 0.0075625,
      "grad_norm": 0.9360105395317078,
      "learning_rate": 0.0002999913925150746,
      "loss": 4.1431,
      "step": 3630
    },
    {
      "epoch": 0.007583333333333333,
      "grad_norm": 1.0355085134506226,
      "learning_rate": 0.000299991286578821,
      "loss": 4.0801,
      "step": 3640
    },
    {
      "epoch": 0.007604166666666667,
      "grad_norm": 1.011344313621521,
      "learning_rate": 0.0002999911799946645,
      "loss": 4.0594,
      "step": 3650
    },
    {
      "epoch": 0.007625,
      "grad_norm": 1.94801926612854,
      "learning_rate": 0.00029999107276260545,
      "loss": 3.8672,
      "step": 3660
    },
    {
      "epoch": 0.0076458333333333335,
      "grad_norm": 1.0276235342025757,
      "learning_rate": 0.00029999096488264436,
      "loss": 4.2793,
      "step": 3670
    },
    {
      "epoch": 0.007666666666666666,
      "grad_norm": 1.0639641284942627,
      "learning_rate": 0.00029999085635478166,
      "loss": 4.1022,
      "step": 3680
    },
    {
      "epoch": 0.0076875,
      "grad_norm": 1.0312830209732056,
      "learning_rate": 0.0002999907471790178,
      "loss": 4.1329,
      "step": 3690
    },
    {
      "epoch": 0.0077083333333333335,
      "grad_norm": 0.9456416368484497,
      "learning_rate": 0.0002999906373553533,
      "loss": 4.1512,
      "step": 3700
    },
    {
      "epoch": 0.007729166666666666,
      "grad_norm": 1.0327266454696655,
      "learning_rate": 0.00029999052688378864,
      "loss": 4.0437,
      "step": 3710
    },
    {
      "epoch": 0.00775,
      "grad_norm": 1.0199079513549805,
      "learning_rate": 0.00029999041576432426,
      "loss": 4.1266,
      "step": 3720
    },
    {
      "epoch": 0.007770833333333334,
      "grad_norm": 0.9087216854095459,
      "learning_rate": 0.00029999030399696067,
      "loss": 4.0776,
      "step": 3730
    },
    {
      "epoch": 0.007791666666666666,
      "grad_norm": 1.1087385416030884,
      "learning_rate": 0.0002999901915816983,
      "loss": 4.2229,
      "step": 3740
    },
    {
      "epoch": 0.0078125,
      "grad_norm": 0.8982157707214355,
      "learning_rate": 0.0002999900785185377,
      "loss": 4.1174,
      "step": 3750
    },
    {
      "epoch": 0.007833333333333333,
      "grad_norm": 0.8922094106674194,
      "learning_rate": 0.0002999899648074793,
      "loss": 4.1664,
      "step": 3760
    },
    {
      "epoch": 0.007854166666666667,
      "grad_norm": 0.9248464107513428,
      "learning_rate": 0.00029998985044852363,
      "loss": 3.9535,
      "step": 3770
    },
    {
      "epoch": 0.007875,
      "grad_norm": 1.0945724248886108,
      "learning_rate": 0.0002999897354416712,
      "loss": 4.0894,
      "step": 3780
    },
    {
      "epoch": 0.007895833333333333,
      "grad_norm": 1.1510943174362183,
      "learning_rate": 0.0002999896197869225,
      "loss": 4.1383,
      "step": 3790
    },
    {
      "epoch": 0.007916666666666667,
      "grad_norm": 1.1635935306549072,
      "learning_rate": 0.000299989503484278,
      "loss": 4.1987,
      "step": 3800
    },
    {
      "epoch": 0.0079375,
      "grad_norm": 0.8856581449508667,
      "learning_rate": 0.0002999893865337382,
      "loss": 4.2426,
      "step": 3810
    },
    {
      "epoch": 0.007958333333333333,
      "grad_norm": 0.9936603903770447,
      "learning_rate": 0.00029998926893530357,
      "loss": 4.0476,
      "step": 3820
    },
    {
      "epoch": 0.007979166666666667,
      "grad_norm": 1.0611181259155273,
      "learning_rate": 0.0002999891506889747,
      "loss": 4.0121,
      "step": 3830
    },
    {
      "epoch": 0.008,
      "grad_norm": 0.9917404651641846,
      "learning_rate": 0.0002999890317947521,
      "loss": 4.1045,
      "step": 3840
    },
    {
      "epoch": 0.008020833333333333,
      "grad_norm": 0.9718139171600342,
      "learning_rate": 0.0002999889122526363,
      "loss": 4.0057,
      "step": 3850
    },
    {
      "epoch": 0.008041666666666667,
      "grad_norm": 0.9431995749473572,
      "learning_rate": 0.00029998879206262767,
      "loss": 3.978,
      "step": 3860
    },
    {
      "epoch": 0.0080625,
      "grad_norm": 0.9864229559898376,
      "learning_rate": 0.0002999886712247269,
      "loss": 4.0648,
      "step": 3870
    },
    {
      "epoch": 0.008083333333333333,
      "grad_norm": 0.941291868686676,
      "learning_rate": 0.0002999885497389344,
      "loss": 3.9596,
      "step": 3880
    },
    {
      "epoch": 0.008104166666666668,
      "grad_norm": 0.9219740033149719,
      "learning_rate": 0.00029998842760525074,
      "loss": 3.9756,
      "step": 3890
    },
    {
      "epoch": 0.008125,
      "grad_norm": 0.9785711169242859,
      "learning_rate": 0.00029998830482367645,
      "loss": 4.0041,
      "step": 3900
    },
    {
      "epoch": 0.008145833333333333,
      "grad_norm": 1.0201159715652466,
      "learning_rate": 0.00029998818139421204,
      "loss": 3.9864,
      "step": 3910
    },
    {
      "epoch": 0.008166666666666666,
      "grad_norm": 0.9140158891677856,
      "learning_rate": 0.0002999880573168581,
      "loss": 4.0738,
      "step": 3920
    },
    {
      "epoch": 0.0081875,
      "grad_norm": 1.0216072797775269,
      "learning_rate": 0.00029998793259161503,
      "loss": 4.0114,
      "step": 3930
    },
    {
      "epoch": 0.008208333333333333,
      "grad_norm": 1.4922420978546143,
      "learning_rate": 0.00029998780721848356,
      "loss": 4.1293,
      "step": 3940
    },
    {
      "epoch": 0.008229166666666666,
      "grad_norm": 1.0311052799224854,
      "learning_rate": 0.00029998768119746404,
      "loss": 4.2765,
      "step": 3950
    },
    {
      "epoch": 0.00825,
      "grad_norm": 1.01318359375,
      "learning_rate": 0.0002999875545285572,
      "loss": 4.221,
      "step": 3960
    },
    {
      "epoch": 0.008270833333333333,
      "grad_norm": 1.1478917598724365,
      "learning_rate": 0.0002999874272117634,
      "loss": 4.2538,
      "step": 3970
    },
    {
      "epoch": 0.008291666666666666,
      "grad_norm": 0.9388420581817627,
      "learning_rate": 0.0002999872992470833,
      "loss": 4.1074,
      "step": 3980
    },
    {
      "epoch": 0.0083125,
      "grad_norm": 0.9623293876647949,
      "learning_rate": 0.0002999871706345175,
      "loss": 4.1475,
      "step": 3990
    },
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 0.9232184886932373,
      "learning_rate": 0.0002999870413740665,
      "loss": 4.1645,
      "step": 4000
    },
    {
      "epoch": 0.008333333333333333,
      "eval_loss": 4.344626426696777,
      "eval_runtime": 8.8815,
      "eval_samples_per_second": 1.126,
      "eval_steps_per_second": 0.338,
      "step": 4000
    },
    {
      "epoch": 0.008354166666666666,
      "grad_norm": 1.1243256330490112,
      "learning_rate": 0.00029998691146573077,
      "loss": 4.1855,
      "step": 4010
    },
    {
      "epoch": 0.008375,
      "grad_norm": 1.0673884153366089,
      "learning_rate": 0.000299986780909511,
      "loss": 4.1537,
      "step": 4020
    },
    {
      "epoch": 0.008395833333333333,
      "grad_norm": 1.016884684562683,
      "learning_rate": 0.00029998664970540766,
      "loss": 4.1361,
      "step": 4030
    },
    {
      "epoch": 0.008416666666666666,
      "grad_norm": 1.143649935722351,
      "learning_rate": 0.0002999865178534214,
      "loss": 4.2514,
      "step": 4040
    },
    {
      "epoch": 0.0084375,
      "grad_norm": 0.955266535282135,
      "learning_rate": 0.0002999863853535528,
      "loss": 4.0963,
      "step": 4050
    },
    {
      "epoch": 0.008458333333333333,
      "grad_norm": 0.9963364601135254,
      "learning_rate": 0.00029998625220580233,
      "loss": 4.1306,
      "step": 4060
    },
    {
      "epoch": 0.008479166666666666,
      "grad_norm": 1.0318132638931274,
      "learning_rate": 0.00029998611841017064,
      "loss": 4.0334,
      "step": 4070
    },
    {
      "epoch": 0.0085,
      "grad_norm": 1.06947660446167,
      "learning_rate": 0.00029998598396665827,
      "loss": 4.0345,
      "step": 4080
    },
    {
      "epoch": 0.008520833333333333,
      "grad_norm": 0.7951093912124634,
      "learning_rate": 0.0002999858488752658,
      "loss": 4.0281,
      "step": 4090
    },
    {
      "epoch": 0.008541666666666666,
      "grad_norm": 1.0295147895812988,
      "learning_rate": 0.00029998571313599384,
      "loss": 3.9276,
      "step": 4100
    },
    {
      "epoch": 0.0085625,
      "grad_norm": 1.0354214906692505,
      "learning_rate": 0.000299985576748843,
      "loss": 4.0168,
      "step": 4110
    },
    {
      "epoch": 0.008583333333333333,
      "grad_norm": 1.069574236869812,
      "learning_rate": 0.0002999854397138138,
      "loss": 4.0646,
      "step": 4120
    },
    {
      "epoch": 0.008604166666666666,
      "grad_norm": 0.9855145215988159,
      "learning_rate": 0.0002999853020309069,
      "loss": 4.1169,
      "step": 4130
    },
    {
      "epoch": 0.008625,
      "grad_norm": 0.9590917825698853,
      "learning_rate": 0.00029998516370012286,
      "loss": 4.3467,
      "step": 4140
    },
    {
      "epoch": 0.008645833333333333,
      "grad_norm": 1.0236679315567017,
      "learning_rate": 0.00029998502472146224,
      "loss": 4.0406,
      "step": 4150
    },
    {
      "epoch": 0.008666666666666666,
      "grad_norm": 1.089318871498108,
      "learning_rate": 0.00029998488509492573,
      "loss": 4.0066,
      "step": 4160
    },
    {
      "epoch": 0.0086875,
      "grad_norm": 0.9119101762771606,
      "learning_rate": 0.00029998474482051385,
      "loss": 4.0957,
      "step": 4170
    },
    {
      "epoch": 0.008708333333333334,
      "grad_norm": 0.9008681774139404,
      "learning_rate": 0.00029998460389822726,
      "loss": 4.0443,
      "step": 4180
    },
    {
      "epoch": 0.008729166666666666,
      "grad_norm": 1.3638948202133179,
      "learning_rate": 0.00029998446232806656,
      "loss": 4.1917,
      "step": 4190
    },
    {
      "epoch": 0.00875,
      "grad_norm": 1.1425158977508545,
      "learning_rate": 0.00029998432011003233,
      "loss": 4.0617,
      "step": 4200
    },
    {
      "epoch": 0.008770833333333334,
      "grad_norm": 1.031792163848877,
      "learning_rate": 0.0002999841772441252,
      "loss": 3.9981,
      "step": 4210
    },
    {
      "epoch": 0.008791666666666666,
      "grad_norm": 1.0319832563400269,
      "learning_rate": 0.00029998403373034577,
      "loss": 3.9967,
      "step": 4220
    },
    {
      "epoch": 0.0088125,
      "grad_norm": 0.9644712805747986,
      "learning_rate": 0.0002999838895686947,
      "loss": 4.1769,
      "step": 4230
    },
    {
      "epoch": 0.008833333333333334,
      "grad_norm": 1.019997477531433,
      "learning_rate": 0.00029998374475917266,
      "loss": 4.052,
      "step": 4240
    },
    {
      "epoch": 0.008854166666666666,
      "grad_norm": 1.0303020477294922,
      "learning_rate": 0.0002999835993017801,
      "loss": 4.143,
      "step": 4250
    },
    {
      "epoch": 0.008875,
      "grad_norm": 0.9148163795471191,
      "learning_rate": 0.00029998345319651783,
      "loss": 4.1927,
      "step": 4260
    },
    {
      "epoch": 0.008895833333333334,
      "grad_norm": 0.8995682597160339,
      "learning_rate": 0.00029998330644338643,
      "loss": 4.0264,
      "step": 4270
    },
    {
      "epoch": 0.008916666666666666,
      "grad_norm": 0.9485030770301819,
      "learning_rate": 0.00029998315904238644,
      "loss": 4.2882,
      "step": 4280
    },
    {
      "epoch": 0.0089375,
      "grad_norm": 1.0049161911010742,
      "learning_rate": 0.0002999830109935187,
      "loss": 4.1111,
      "step": 4290
    },
    {
      "epoch": 0.008958333333333334,
      "grad_norm": 0.9980230927467346,
      "learning_rate": 0.0002999828622967836,
      "loss": 4.0975,
      "step": 4300
    },
    {
      "epoch": 0.008979166666666667,
      "grad_norm": 1.0125739574432373,
      "learning_rate": 0.0002999827129521819,
      "loss": 3.983,
      "step": 4310
    },
    {
      "epoch": 0.009,
      "grad_norm": 0.9592376947402954,
      "learning_rate": 0.0002999825629597143,
      "loss": 4.1672,
      "step": 4320
    },
    {
      "epoch": 0.009020833333333334,
      "grad_norm": 0.9460607767105103,
      "learning_rate": 0.00029998241231938134,
      "loss": 3.9299,
      "step": 4330
    },
    {
      "epoch": 0.009041666666666667,
      "grad_norm": 0.8304726481437683,
      "learning_rate": 0.00029998226103118377,
      "loss": 4.2397,
      "step": 4340
    },
    {
      "epoch": 0.0090625,
      "grad_norm": 0.9739450216293335,
      "learning_rate": 0.00029998210909512217,
      "loss": 3.9122,
      "step": 4350
    },
    {
      "epoch": 0.009083333333333334,
      "grad_norm": 1.1449451446533203,
      "learning_rate": 0.0002999819565111973,
      "loss": 3.9826,
      "step": 4360
    },
    {
      "epoch": 0.009104166666666667,
      "grad_norm": 1.0574077367782593,
      "learning_rate": 0.00029998180327940973,
      "loss": 4.1161,
      "step": 4370
    },
    {
      "epoch": 0.009125,
      "grad_norm": 1.0234532356262207,
      "learning_rate": 0.00029998164939976004,
      "loss": 4.0794,
      "step": 4380
    },
    {
      "epoch": 0.009145833333333334,
      "grad_norm": 0.8376774787902832,
      "learning_rate": 0.0002999814948722491,
      "loss": 4.1355,
      "step": 4390
    },
    {
      "epoch": 0.009166666666666667,
      "grad_norm": 0.8910546898841858,
      "learning_rate": 0.0002999813396968774,
      "loss": 4.0935,
      "step": 4400
    },
    {
      "epoch": 0.0091875,
      "grad_norm": 0.8840876817703247,
      "learning_rate": 0.0002999811838736457,
      "loss": 4.3061,
      "step": 4410
    },
    {
      "epoch": 0.009208333333333334,
      "grad_norm": 0.9769382476806641,
      "learning_rate": 0.0002999810274025546,
      "loss": 4.0736,
      "step": 4420
    },
    {
      "epoch": 0.009229166666666667,
      "grad_norm": 1.0291005373001099,
      "learning_rate": 0.0002999808702836049,
      "loss": 4.1609,
      "step": 4430
    },
    {
      "epoch": 0.00925,
      "grad_norm": 0.9491590261459351,
      "learning_rate": 0.00029998071251679723,
      "loss": 4.0267,
      "step": 4440
    },
    {
      "epoch": 0.009270833333333334,
      "grad_norm": 1.089226245880127,
      "learning_rate": 0.00029998055410213216,
      "loss": 4.0875,
      "step": 4450
    },
    {
      "epoch": 0.009291666666666667,
      "grad_norm": 1.0706385374069214,
      "learning_rate": 0.00029998039503961055,
      "loss": 4.0191,
      "step": 4460
    },
    {
      "epoch": 0.0093125,
      "grad_norm": 0.9832356572151184,
      "learning_rate": 0.0002999802353292329,
      "loss": 4.2588,
      "step": 4470
    },
    {
      "epoch": 0.009333333333333334,
      "grad_norm": 0.966361939907074,
      "learning_rate": 0.0002999800749710001,
      "loss": 4.0292,
      "step": 4480
    },
    {
      "epoch": 0.009354166666666667,
      "grad_norm": 0.9859091639518738,
      "learning_rate": 0.00029997991396491267,
      "loss": 4.2235,
      "step": 4490
    },
    {
      "epoch": 0.009375,
      "grad_norm": 0.9760363698005676,
      "learning_rate": 0.0002999797523109714,
      "loss": 4.1272,
      "step": 4500
    },
    {
      "epoch": 0.009395833333333334,
      "grad_norm": 1.1319416761398315,
      "learning_rate": 0.000299979590009177,
      "loss": 3.8141,
      "step": 4510
    },
    {
      "epoch": 0.009416666666666667,
      "grad_norm": 1.058521032333374,
      "learning_rate": 0.0002999794270595301,
      "loss": 4.2047,
      "step": 4520
    },
    {
      "epoch": 0.0094375,
      "grad_norm": 0.9600679874420166,
      "learning_rate": 0.0002999792634620314,
      "loss": 4.0714,
      "step": 4530
    },
    {
      "epoch": 0.009458333333333332,
      "grad_norm": 1.0818012952804565,
      "learning_rate": 0.0002999790992166817,
      "loss": 4.0849,
      "step": 4540
    },
    {
      "epoch": 0.009479166666666667,
      "grad_norm": 1.0046089887619019,
      "learning_rate": 0.00029997893432348165,
      "loss": 3.9717,
      "step": 4550
    },
    {
      "epoch": 0.0095,
      "grad_norm": 1.1016243696212769,
      "learning_rate": 0.00029997876878243204,
      "loss": 4.26,
      "step": 4560
    },
    {
      "epoch": 0.009520833333333333,
      "grad_norm": 1.1213055849075317,
      "learning_rate": 0.00029997860259353346,
      "loss": 3.9202,
      "step": 4570
    },
    {
      "epoch": 0.009541666666666667,
      "grad_norm": 1.0830364227294922,
      "learning_rate": 0.00029997843575678667,
      "loss": 4.0014,
      "step": 4580
    },
    {
      "epoch": 0.0095625,
      "grad_norm": 0.892376720905304,
      "learning_rate": 0.0002999782682721924,
      "loss": 4.1357,
      "step": 4590
    },
    {
      "epoch": 0.009583333333333333,
      "grad_norm": 1.0177985429763794,
      "learning_rate": 0.00029997810013975137,
      "loss": 4.0604,
      "step": 4600
    },
    {
      "epoch": 0.009604166666666667,
      "grad_norm": 1.0660438537597656,
      "learning_rate": 0.0002999779313594643,
      "loss": 4.1728,
      "step": 4610
    },
    {
      "epoch": 0.009625,
      "grad_norm": 0.9619247913360596,
      "learning_rate": 0.000299977761931332,
      "loss": 4.0696,
      "step": 4620
    },
    {
      "epoch": 0.009645833333333333,
      "grad_norm": 1.0453952550888062,
      "learning_rate": 0.0002999775918553551,
      "loss": 4.2251,
      "step": 4630
    },
    {
      "epoch": 0.009666666666666667,
      "grad_norm": 0.9851884245872498,
      "learning_rate": 0.0002999774211315343,
      "loss": 4.1434,
      "step": 4640
    },
    {
      "epoch": 0.0096875,
      "grad_norm": 0.9162231683731079,
      "learning_rate": 0.0002999772497598705,
      "loss": 4.1694,
      "step": 4650
    },
    {
      "epoch": 0.009708333333333333,
      "grad_norm": 1.106068730354309,
      "learning_rate": 0.0002999770777403643,
      "loss": 4.081,
      "step": 4660
    },
    {
      "epoch": 0.009729166666666667,
      "grad_norm": 0.8733890652656555,
      "learning_rate": 0.0002999769050730165,
      "loss": 4.2417,
      "step": 4670
    },
    {
      "epoch": 0.00975,
      "grad_norm": 0.9880221486091614,
      "learning_rate": 0.00029997673175782786,
      "loss": 4.2314,
      "step": 4680
    },
    {
      "epoch": 0.009770833333333333,
      "grad_norm": 1.1616184711456299,
      "learning_rate": 0.00029997655779479904,
      "loss": 4.1721,
      "step": 4690
    },
    {
      "epoch": 0.009791666666666667,
      "grad_norm": 0.8936964869499207,
      "learning_rate": 0.00029997638318393096,
      "loss": 4.2603,
      "step": 4700
    },
    {
      "epoch": 0.0098125,
      "grad_norm": 0.9306889176368713,
      "learning_rate": 0.00029997620792522416,
      "loss": 4.2908,
      "step": 4710
    },
    {
      "epoch": 0.009833333333333333,
      "grad_norm": 1.1105449199676514,
      "learning_rate": 0.00029997603201867957,
      "loss": 4.1358,
      "step": 4720
    },
    {
      "epoch": 0.009854166666666667,
      "grad_norm": 1.1639209985733032,
      "learning_rate": 0.00029997585546429783,
      "loss": 4.0373,
      "step": 4730
    },
    {
      "epoch": 0.009875,
      "grad_norm": 1.1427661180496216,
      "learning_rate": 0.0002999756782620798,
      "loss": 4.0461,
      "step": 4740
    },
    {
      "epoch": 0.009895833333333333,
      "grad_norm": 1.0038659572601318,
      "learning_rate": 0.00029997550041202623,
      "loss": 4.1233,
      "step": 4750
    },
    {
      "epoch": 0.009916666666666667,
      "grad_norm": 0.9660082459449768,
      "learning_rate": 0.00029997532191413783,
      "loss": 4.2012,
      "step": 4760
    },
    {
      "epoch": 0.0099375,
      "grad_norm": 0.8811535835266113,
      "learning_rate": 0.0002999751427684154,
      "loss": 4.223,
      "step": 4770
    },
    {
      "epoch": 0.009958333333333333,
      "grad_norm": 0.8887596726417542,
      "learning_rate": 0.00029997496297485974,
      "loss": 3.9292,
      "step": 4780
    },
    {
      "epoch": 0.009979166666666667,
      "grad_norm": 1.0434662103652954,
      "learning_rate": 0.00029997478253347156,
      "loss": 4.1467,
      "step": 4790
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.9406684041023254,
      "learning_rate": 0.0002999746014442517,
      "loss": 4.1734,
      "step": 4800
    },
    {
      "epoch": 0.010020833333333333,
      "grad_norm": 1.1713988780975342,
      "learning_rate": 0.0002999744197072009,
      "loss": 4.1302,
      "step": 4810
    },
    {
      "epoch": 0.010041666666666667,
      "grad_norm": 1.012882947921753,
      "learning_rate": 0.00029997423732232005,
      "loss": 3.896,
      "step": 4820
    },
    {
      "epoch": 0.0100625,
      "grad_norm": 1.1197835206985474,
      "learning_rate": 0.0002999740542896098,
      "loss": 3.9719,
      "step": 4830
    },
    {
      "epoch": 0.010083333333333333,
      "grad_norm": 1.0985404253005981,
      "learning_rate": 0.00029997387060907104,
      "loss": 3.9741,
      "step": 4840
    },
    {
      "epoch": 0.010104166666666666,
      "grad_norm": 0.9690613150596619,
      "learning_rate": 0.0002999736862807045,
      "loss": 4.4011,
      "step": 4850
    },
    {
      "epoch": 0.010125,
      "grad_norm": 3.1978161334991455,
      "learning_rate": 0.000299973501304511,
      "loss": 4.09,
      "step": 4860
    },
    {
      "epoch": 0.010145833333333333,
      "grad_norm": 1.0629050731658936,
      "learning_rate": 0.00029997331568049133,
      "loss": 3.9067,
      "step": 4870
    },
    {
      "epoch": 0.010166666666666666,
      "grad_norm": 0.9088018536567688,
      "learning_rate": 0.0002999731294086463,
      "loss": 4.0977,
      "step": 4880
    },
    {
      "epoch": 0.0101875,
      "grad_norm": 1.1026993989944458,
      "learning_rate": 0.0002999729424889767,
      "loss": 4.048,
      "step": 4890
    },
    {
      "epoch": 0.010208333333333333,
      "grad_norm": 0.9417087435722351,
      "learning_rate": 0.00029997275492148337,
      "loss": 3.9495,
      "step": 4900
    },
    {
      "epoch": 0.010229166666666666,
      "grad_norm": 1.0456846952438354,
      "learning_rate": 0.0002999725667061671,
      "loss": 4.0785,
      "step": 4910
    },
    {
      "epoch": 0.01025,
      "grad_norm": 0.9317986369132996,
      "learning_rate": 0.00029997237784302875,
      "loss": 4.1543,
      "step": 4920
    },
    {
      "epoch": 0.010270833333333333,
      "grad_norm": 1.1679273843765259,
      "learning_rate": 0.0002999721883320691,
      "loss": 4.088,
      "step": 4930
    },
    {
      "epoch": 0.010291666666666666,
      "grad_norm": 0.9274995923042297,
      "learning_rate": 0.0002999719981732889,
      "loss": 4.0281,
      "step": 4940
    },
    {
      "epoch": 0.0103125,
      "grad_norm": 1.1864968538284302,
      "learning_rate": 0.000299971807366689,
      "loss": 3.9755,
      "step": 4950
    },
    {
      "epoch": 0.010333333333333333,
      "grad_norm": 0.9755812883377075,
      "learning_rate": 0.0002999716159122703,
      "loss": 4.1841,
      "step": 4960
    },
    {
      "epoch": 0.010354166666666666,
      "grad_norm": 0.9211527109146118,
      "learning_rate": 0.00029997142381003357,
      "loss": 4.0401,
      "step": 4970
    },
    {
      "epoch": 0.010375,
      "grad_norm": 1.3366219997406006,
      "learning_rate": 0.00029997123105997964,
      "loss": 4.1101,
      "step": 4980
    },
    {
      "epoch": 0.010395833333333333,
      "grad_norm": 0.9389422535896301,
      "learning_rate": 0.00029997103766210944,
      "loss": 3.8959,
      "step": 4990
    },
    {
      "epoch": 0.010416666666666666,
      "grad_norm": 0.8832875490188599,
      "learning_rate": 0.0002999708436164236,
      "loss": 4.2677,
      "step": 5000
    },
    {
      "epoch": 0.010416666666666666,
      "eval_loss": 4.370577812194824,
      "eval_runtime": 8.8729,
      "eval_samples_per_second": 1.127,
      "eval_steps_per_second": 0.338,
      "step": 5000
    },
    {
      "epoch": 0.0104375,
      "grad_norm": 0.873633861541748,
      "learning_rate": 0.00029997064892292314,
      "loss": 4.1391,
      "step": 5010
    },
    {
      "epoch": 0.010458333333333333,
      "grad_norm": 1.0159385204315186,
      "learning_rate": 0.00029997045358160884,
      "loss": 4.1271,
      "step": 5020
    },
    {
      "epoch": 0.010479166666666666,
      "grad_norm": 0.9279839396476746,
      "learning_rate": 0.0002999702575924815,
      "loss": 4.0717,
      "step": 5030
    },
    {
      "epoch": 0.0105,
      "grad_norm": 0.8764974474906921,
      "learning_rate": 0.00029997006095554204,
      "loss": 4.0442,
      "step": 5040
    },
    {
      "epoch": 0.010520833333333333,
      "grad_norm": 0.9061101675033569,
      "learning_rate": 0.0002999698636707913,
      "loss": 4.1291,
      "step": 5050
    },
    {
      "epoch": 0.010541666666666666,
      "grad_norm": 1.1503463983535767,
      "learning_rate": 0.0002999696657382301,
      "loss": 4.0456,
      "step": 5060
    },
    {
      "epoch": 0.0105625,
      "grad_norm": 1.005418062210083,
      "learning_rate": 0.0002999694671578593,
      "loss": 4.1166,
      "step": 5070
    },
    {
      "epoch": 0.010583333333333333,
      "grad_norm": 0.9875721335411072,
      "learning_rate": 0.00029996926792967977,
      "loss": 4.0771,
      "step": 5080
    },
    {
      "epoch": 0.010604166666666666,
      "grad_norm": 0.9183871746063232,
      "learning_rate": 0.0002999690680536924,
      "loss": 4.1778,
      "step": 5090
    },
    {
      "epoch": 0.010625,
      "grad_norm": 1.0354697704315186,
      "learning_rate": 0.000299968867529898,
      "loss": 4.0515,
      "step": 5100
    },
    {
      "epoch": 0.010645833333333334,
      "grad_norm": 0.9327830672264099,
      "learning_rate": 0.0002999686663582974,
      "loss": 4.061,
      "step": 5110
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 1.0666239261627197,
      "learning_rate": 0.0002999684645388915,
      "loss": 3.9381,
      "step": 5120
    },
    {
      "epoch": 0.0106875,
      "grad_norm": 0.8940494060516357,
      "learning_rate": 0.00029996826207168126,
      "loss": 4.1398,
      "step": 5130
    },
    {
      "epoch": 0.010708333333333334,
      "grad_norm": 1.1079604625701904,
      "learning_rate": 0.0002999680589566675,
      "loss": 4.2036,
      "step": 5140
    },
    {
      "epoch": 0.010729166666666666,
      "grad_norm": 0.9707878232002258,
      "learning_rate": 0.00029996785519385106,
      "loss": 4.0504,
      "step": 5150
    },
    {
      "epoch": 0.01075,
      "grad_norm": 0.923814594745636,
      "learning_rate": 0.00029996765078323285,
      "loss": 4.2121,
      "step": 5160
    },
    {
      "epoch": 0.010770833333333334,
      "grad_norm": 0.86277174949646,
      "learning_rate": 0.00029996744572481377,
      "loss": 4.1438,
      "step": 5170
    },
    {
      "epoch": 0.010791666666666666,
      "grad_norm": 1.055037260055542,
      "learning_rate": 0.0002999672400185947,
      "loss": 3.9951,
      "step": 5180
    },
    {
      "epoch": 0.0108125,
      "grad_norm": 0.9854041337966919,
      "learning_rate": 0.00029996703366457644,
      "loss": 3.9555,
      "step": 5190
    },
    {
      "epoch": 0.010833333333333334,
      "grad_norm": 0.9806405305862427,
      "learning_rate": 0.00029996682666276,
      "loss": 4.1025,
      "step": 5200
    },
    {
      "epoch": 0.010854166666666666,
      "grad_norm": 0.8483632206916809,
      "learning_rate": 0.0002999666190131462,
      "loss": 4.0765,
      "step": 5210
    },
    {
      "epoch": 0.010875,
      "grad_norm": 0.9474264979362488,
      "learning_rate": 0.000299966410715736,
      "loss": 4.2195,
      "step": 5220
    },
    {
      "epoch": 0.010895833333333334,
      "grad_norm": 1.0165170431137085,
      "learning_rate": 0.0002999662017705303,
      "loss": 4.0818,
      "step": 5230
    },
    {
      "epoch": 0.010916666666666667,
      "grad_norm": 0.9026477932929993,
      "learning_rate": 0.0002999659921775299,
      "loss": 4.0267,
      "step": 5240
    },
    {
      "epoch": 0.0109375,
      "grad_norm": 0.8660348653793335,
      "learning_rate": 0.0002999657819367358,
      "loss": 4.0821,
      "step": 5250
    },
    {
      "epoch": 0.010958333333333334,
      "grad_norm": 0.946662962436676,
      "learning_rate": 0.0002999655710481489,
      "loss": 4.1237,
      "step": 5260
    },
    {
      "epoch": 0.010979166666666667,
      "grad_norm": 0.8683421611785889,
      "learning_rate": 0.0002999653595117701,
      "loss": 4.0454,
      "step": 5270
    },
    {
      "epoch": 0.011,
      "grad_norm": 1.072624921798706,
      "learning_rate": 0.0002999651473276003,
      "loss": 4.0367,
      "step": 5280
    },
    {
      "epoch": 0.011020833333333334,
      "grad_norm": 1.0327613353729248,
      "learning_rate": 0.0002999649344956404,
      "loss": 4.1558,
      "step": 5290
    },
    {
      "epoch": 0.011041666666666667,
      "grad_norm": 0.9970088601112366,
      "learning_rate": 0.0002999647210158913,
      "loss": 4.1735,
      "step": 5300
    },
    {
      "epoch": 0.0110625,
      "grad_norm": 0.9861274361610413,
      "learning_rate": 0.00029996450688835405,
      "loss": 3.8541,
      "step": 5310
    },
    {
      "epoch": 0.011083333333333334,
      "grad_norm": 0.8053154349327087,
      "learning_rate": 0.00029996429211302946,
      "loss": 4.0191,
      "step": 5320
    },
    {
      "epoch": 0.011104166666666667,
      "grad_norm": 0.9291845560073853,
      "learning_rate": 0.00029996407668991847,
      "loss": 4.1135,
      "step": 5330
    },
    {
      "epoch": 0.011125,
      "grad_norm": 0.9447972178459167,
      "learning_rate": 0.00029996386061902205,
      "loss": 4.1278,
      "step": 5340
    },
    {
      "epoch": 0.011145833333333334,
      "grad_norm": 0.9961071610450745,
      "learning_rate": 0.00029996364390034113,
      "loss": 4.0927,
      "step": 5350
    },
    {
      "epoch": 0.011166666666666667,
      "grad_norm": 0.9535923004150391,
      "learning_rate": 0.0002999634265338766,
      "loss": 4.1082,
      "step": 5360
    },
    {
      "epoch": 0.0111875,
      "grad_norm": 1.1580954790115356,
      "learning_rate": 0.00029996320851962945,
      "loss": 4.0574,
      "step": 5370
    },
    {
      "epoch": 0.011208333333333334,
      "grad_norm": 0.9974673986434937,
      "learning_rate": 0.00029996298985760053,
      "loss": 4.2132,
      "step": 5380
    },
    {
      "epoch": 0.011229166666666667,
      "grad_norm": 0.9261285662651062,
      "learning_rate": 0.00029996277054779096,
      "loss": 4.0746,
      "step": 5390
    },
    {
      "epoch": 0.01125,
      "grad_norm": 0.997142493724823,
      "learning_rate": 0.0002999625505902015,
      "loss": 3.9265,
      "step": 5400
    },
    {
      "epoch": 0.011270833333333334,
      "grad_norm": 1.008379340171814,
      "learning_rate": 0.0002999623299848332,
      "loss": 4.0246,
      "step": 5410
    },
    {
      "epoch": 0.011291666666666667,
      "grad_norm": 0.948972761631012,
      "learning_rate": 0.00029996210873168704,
      "loss": 4.225,
      "step": 5420
    },
    {
      "epoch": 0.0113125,
      "grad_norm": 0.9582616686820984,
      "learning_rate": 0.0002999618868307639,
      "loss": 4.1497,
      "step": 5430
    },
    {
      "epoch": 0.011333333333333334,
      "grad_norm": 1.0417988300323486,
      "learning_rate": 0.00029996166428206475,
      "loss": 4.2742,
      "step": 5440
    },
    {
      "epoch": 0.011354166666666667,
      "grad_norm": 1.0113927125930786,
      "learning_rate": 0.0002999614410855906,
      "loss": 3.9904,
      "step": 5450
    },
    {
      "epoch": 0.011375,
      "grad_norm": 1.043034315109253,
      "learning_rate": 0.0002999612172413423,
      "loss": 4.188,
      "step": 5460
    },
    {
      "epoch": 0.011395833333333332,
      "grad_norm": 1.0352418422698975,
      "learning_rate": 0.000299960992749321,
      "loss": 4.1515,
      "step": 5470
    },
    {
      "epoch": 0.011416666666666667,
      "grad_norm": 0.8755269646644592,
      "learning_rate": 0.00029996076760952753,
      "loss": 3.9161,
      "step": 5480
    },
    {
      "epoch": 0.0114375,
      "grad_norm": 0.9631335139274597,
      "learning_rate": 0.0002999605418219629,
      "loss": 4.1547,
      "step": 5490
    },
    {
      "epoch": 0.011458333333333333,
      "grad_norm": 1.0319585800170898,
      "learning_rate": 0.00029996031538662805,
      "loss": 4.1003,
      "step": 5500
    },
    {
      "epoch": 0.011479166666666667,
      "grad_norm": 0.9601361155509949,
      "learning_rate": 0.00029996008830352405,
      "loss": 4.2062,
      "step": 5510
    },
    {
      "epoch": 0.0115,
      "grad_norm": 0.9250887632369995,
      "learning_rate": 0.00029995986057265186,
      "loss": 3.9637,
      "step": 5520
    },
    {
      "epoch": 0.011520833333333333,
      "grad_norm": 1.027815818786621,
      "learning_rate": 0.00029995963219401234,
      "loss": 4.0546,
      "step": 5530
    },
    {
      "epoch": 0.011541666666666667,
      "grad_norm": 1.0670416355133057,
      "learning_rate": 0.0002999594031676066,
      "loss": 4.1225,
      "step": 5540
    },
    {
      "epoch": 0.0115625,
      "grad_norm": 0.8062381744384766,
      "learning_rate": 0.00029995917349343563,
      "loss": 4.1337,
      "step": 5550
    },
    {
      "epoch": 0.011583333333333333,
      "grad_norm": 0.9995294213294983,
      "learning_rate": 0.0002999589431715004,
      "loss": 4.0815,
      "step": 5560
    },
    {
      "epoch": 0.011604166666666667,
      "grad_norm": 1.3284013271331787,
      "learning_rate": 0.00029995871220180184,
      "loss": 4.202,
      "step": 5570
    },
    {
      "epoch": 0.011625,
      "grad_norm": 1.006390929222107,
      "learning_rate": 0.000299958480584341,
      "loss": 4.1928,
      "step": 5580
    },
    {
      "epoch": 0.011645833333333333,
      "grad_norm": 0.9090350270271301,
      "learning_rate": 0.0002999582483191189,
      "loss": 4.024,
      "step": 5590
    },
    {
      "epoch": 0.011666666666666667,
      "grad_norm": 0.8780757188796997,
      "learning_rate": 0.0002999580154061365,
      "loss": 4.1662,
      "step": 5600
    },
    {
      "epoch": 0.0116875,
      "grad_norm": 0.9481406807899475,
      "learning_rate": 0.0002999577818453949,
      "loss": 4.0606,
      "step": 5610
    },
    {
      "epoch": 0.011708333333333333,
      "grad_norm": 1.0547072887420654,
      "learning_rate": 0.000299957547636895,
      "loss": 3.9856,
      "step": 5620
    },
    {
      "epoch": 0.011729166666666667,
      "grad_norm": 1.0377051830291748,
      "learning_rate": 0.00029995731278063787,
      "loss": 4.1613,
      "step": 5630
    },
    {
      "epoch": 0.01175,
      "grad_norm": 0.9384186267852783,
      "learning_rate": 0.00029995707727662445,
      "loss": 3.8926,
      "step": 5640
    },
    {
      "epoch": 0.011770833333333333,
      "grad_norm": 1.188773512840271,
      "learning_rate": 0.00029995684112485584,
      "loss": 4.1437,
      "step": 5650
    },
    {
      "epoch": 0.011791666666666667,
      "grad_norm": 1.2075719833374023,
      "learning_rate": 0.00029995660432533303,
      "loss": 4.1929,
      "step": 5660
    },
    {
      "epoch": 0.0118125,
      "grad_norm": 0.872288703918457,
      "learning_rate": 0.0002999563668780571,
      "loss": 4.0513,
      "step": 5670
    },
    {
      "epoch": 0.011833333333333333,
      "grad_norm": 0.922525942325592,
      "learning_rate": 0.000299956128783029,
      "loss": 4.2275,
      "step": 5680
    },
    {
      "epoch": 0.011854166666666667,
      "grad_norm": 0.9171212315559387,
      "learning_rate": 0.0002999558900402497,
      "loss": 4.0624,
      "step": 5690
    },
    {
      "epoch": 0.011875,
      "grad_norm": 1.0454503297805786,
      "learning_rate": 0.00029995565064972043,
      "loss": 3.8801,
      "step": 5700
    },
    {
      "epoch": 0.011895833333333333,
      "grad_norm": 0.8571341037750244,
      "learning_rate": 0.000299955410611442,
      "loss": 4.1946,
      "step": 5710
    },
    {
      "epoch": 0.011916666666666667,
      "grad_norm": 0.8365829586982727,
      "learning_rate": 0.0002999551699254156,
      "loss": 3.9604,
      "step": 5720
    },
    {
      "epoch": 0.0119375,
      "grad_norm": 0.9211521148681641,
      "learning_rate": 0.00029995492859164223,
      "loss": 4.2924,
      "step": 5730
    },
    {
      "epoch": 0.011958333333333333,
      "grad_norm": 0.8443504571914673,
      "learning_rate": 0.000299954686610123,
      "loss": 4.2304,
      "step": 5740
    },
    {
      "epoch": 0.011979166666666667,
      "grad_norm": 0.860998809337616,
      "learning_rate": 0.00029995444398085876,
      "loss": 4.0858,
      "step": 5750
    },
    {
      "epoch": 0.012,
      "grad_norm": 0.8654314875602722,
      "learning_rate": 0.0002999542007038507,
      "loss": 4.1007,
      "step": 5760
    },
    {
      "epoch": 0.012020833333333333,
      "grad_norm": 0.9083671569824219,
      "learning_rate": 0.0002999539567790999,
      "loss": 3.9845,
      "step": 5770
    },
    {
      "epoch": 0.012041666666666668,
      "grad_norm": 0.9409719705581665,
      "learning_rate": 0.00029995371220660727,
      "loss": 4.1631,
      "step": 5780
    },
    {
      "epoch": 0.0120625,
      "grad_norm": 0.9629682898521423,
      "learning_rate": 0.00029995346698637404,
      "loss": 4.1025,
      "step": 5790
    },
    {
      "epoch": 0.012083333333333333,
      "grad_norm": 0.9104552268981934,
      "learning_rate": 0.0002999532211184012,
      "loss": 4.1618,
      "step": 5800
    },
    {
      "epoch": 0.012104166666666666,
      "grad_norm": 0.9406991600990295,
      "learning_rate": 0.00029995297460268976,
      "loss": 4.2904,
      "step": 5810
    },
    {
      "epoch": 0.012125,
      "grad_norm": 0.970385730266571,
      "learning_rate": 0.0002999527274392408,
      "loss": 4.0907,
      "step": 5820
    },
    {
      "epoch": 0.012145833333333333,
      "grad_norm": 1.0111403465270996,
      "learning_rate": 0.00029995247962805546,
      "loss": 4.2463,
      "step": 5830
    },
    {
      "epoch": 0.012166666666666666,
      "grad_norm": 1.0769060850143433,
      "learning_rate": 0.0002999522311691347,
      "loss": 4.1208,
      "step": 5840
    },
    {
      "epoch": 0.0121875,
      "grad_norm": 0.9502212405204773,
      "learning_rate": 0.00029995198206247975,
      "loss": 3.9436,
      "step": 5850
    },
    {
      "epoch": 0.012208333333333333,
      "grad_norm": 0.9658715128898621,
      "learning_rate": 0.00029995173230809157,
      "loss": 3.9633,
      "step": 5860
    },
    {
      "epoch": 0.012229166666666666,
      "grad_norm": 1.1009750366210938,
      "learning_rate": 0.0002999514819059712,
      "loss": 4.1194,
      "step": 5870
    },
    {
      "epoch": 0.01225,
      "grad_norm": 1.1324915885925293,
      "learning_rate": 0.0002999512308561198,
      "loss": 3.992,
      "step": 5880
    },
    {
      "epoch": 0.012270833333333333,
      "grad_norm": 1.1784034967422485,
      "learning_rate": 0.0002999509791585385,
      "loss": 3.9714,
      "step": 5890
    },
    {
      "epoch": 0.012291666666666666,
      "grad_norm": 1.0563786029815674,
      "learning_rate": 0.00029995072681322825,
      "loss": 4.1235,
      "step": 5900
    },
    {
      "epoch": 0.0123125,
      "grad_norm": 0.8993197679519653,
      "learning_rate": 0.0002999504738201903,
      "loss": 3.98,
      "step": 5910
    },
    {
      "epoch": 0.012333333333333333,
      "grad_norm": 1.2406171560287476,
      "learning_rate": 0.0002999502201794256,
      "loss": 4.2188,
      "step": 5920
    },
    {
      "epoch": 0.012354166666666666,
      "grad_norm": 1.0735266208648682,
      "learning_rate": 0.00029994996589093525,
      "loss": 4.0805,
      "step": 5930
    },
    {
      "epoch": 0.012375,
      "grad_norm": 0.9529826641082764,
      "learning_rate": 0.0002999497109547205,
      "loss": 4.0163,
      "step": 5940
    },
    {
      "epoch": 0.012395833333333333,
      "grad_norm": 1.1779168844223022,
      "learning_rate": 0.0002999494553707823,
      "loss": 4.1448,
      "step": 5950
    },
    {
      "epoch": 0.012416666666666666,
      "grad_norm": 1.0238772630691528,
      "learning_rate": 0.00029994919913912184,
      "loss": 4.3096,
      "step": 5960
    },
    {
      "epoch": 0.0124375,
      "grad_norm": 0.8970621824264526,
      "learning_rate": 0.00029994894225974014,
      "loss": 3.9828,
      "step": 5970
    },
    {
      "epoch": 0.012458333333333333,
      "grad_norm": 1.086896538734436,
      "learning_rate": 0.0002999486847326384,
      "loss": 4.1389,
      "step": 5980
    },
    {
      "epoch": 0.012479166666666666,
      "grad_norm": 1.0852673053741455,
      "learning_rate": 0.0002999484265578177,
      "loss": 4.3322,
      "step": 5990
    },
    {
      "epoch": 0.0125,
      "grad_norm": 1.1359448432922363,
      "learning_rate": 0.00029994816773527914,
      "loss": 4.0537,
      "step": 6000
    },
    {
      "epoch": 0.0125,
      "eval_loss": 4.364706993103027,
      "eval_runtime": 8.6358,
      "eval_samples_per_second": 1.158,
      "eval_steps_per_second": 0.347,
      "step": 6000
    },
    {
      "epoch": 0.012520833333333333,
      "grad_norm": 1.1655429601669312,
      "learning_rate": 0.0002999479082650239,
      "loss": 4.0653,
      "step": 6010
    },
    {
      "epoch": 0.012541666666666666,
      "grad_norm": 0.957078754901886,
      "learning_rate": 0.00029994764814705296,
      "loss": 4.2411,
      "step": 6020
    },
    {
      "epoch": 0.0125625,
      "grad_norm": 1.0028799772262573,
      "learning_rate": 0.0002999473873813676,
      "loss": 4.1531,
      "step": 6030
    },
    {
      "epoch": 0.012583333333333334,
      "grad_norm": 0.8951534032821655,
      "learning_rate": 0.00029994712596796886,
      "loss": 3.9969,
      "step": 6040
    },
    {
      "epoch": 0.012604166666666666,
      "grad_norm": 0.8129245042800903,
      "learning_rate": 0.0002999468639068579,
      "loss": 4.1812,
      "step": 6050
    },
    {
      "epoch": 0.012625,
      "grad_norm": 0.8950570225715637,
      "learning_rate": 0.0002999466011980358,
      "loss": 4.0424,
      "step": 6060
    },
    {
      "epoch": 0.012645833333333334,
      "grad_norm": 0.8109812140464783,
      "learning_rate": 0.00029994633784150373,
      "loss": 4.1283,
      "step": 6070
    },
    {
      "epoch": 0.012666666666666666,
      "grad_norm": 1.0479668378829956,
      "learning_rate": 0.0002999460738372629,
      "loss": 3.9377,
      "step": 6080
    },
    {
      "epoch": 0.0126875,
      "grad_norm": 0.9200255870819092,
      "learning_rate": 0.0002999458091853143,
      "loss": 3.9175,
      "step": 6090
    },
    {
      "epoch": 0.012708333333333334,
      "grad_norm": 0.923332691192627,
      "learning_rate": 0.00029994554388565925,
      "loss": 4.1298,
      "step": 6100
    },
    {
      "epoch": 0.012729166666666666,
      "grad_norm": 0.9668201804161072,
      "learning_rate": 0.00029994527793829876,
      "loss": 4.1153,
      "step": 6110
    },
    {
      "epoch": 0.01275,
      "grad_norm": 0.8372182846069336,
      "learning_rate": 0.00029994501134323405,
      "loss": 4.0196,
      "step": 6120
    },
    {
      "epoch": 0.012770833333333334,
      "grad_norm": 0.9949009418487549,
      "learning_rate": 0.0002999447441004662,
      "loss": 3.9416,
      "step": 6130
    },
    {
      "epoch": 0.012791666666666666,
      "grad_norm": 0.9004925489425659,
      "learning_rate": 0.0002999444762099964,
      "loss": 4.0651,
      "step": 6140
    },
    {
      "epoch": 0.0128125,
      "grad_norm": 0.9128996729850769,
      "learning_rate": 0.0002999442076718258,
      "loss": 4.2135,
      "step": 6150
    },
    {
      "epoch": 0.012833333333333334,
      "grad_norm": 0.9584335088729858,
      "learning_rate": 0.00029994393848595567,
      "loss": 4.1165,
      "step": 6160
    },
    {
      "epoch": 0.012854166666666667,
      "grad_norm": 0.9648441672325134,
      "learning_rate": 0.000299943668652387,
      "loss": 3.9458,
      "step": 6170
    },
    {
      "epoch": 0.012875,
      "grad_norm": 0.8765039443969727,
      "learning_rate": 0.00029994339817112107,
      "loss": 4.1653,
      "step": 6180
    },
    {
      "epoch": 0.012895833333333334,
      "grad_norm": 0.9018328785896301,
      "learning_rate": 0.000299943127042159,
      "loss": 4.1809,
      "step": 6190
    },
    {
      "epoch": 0.012916666666666667,
      "grad_norm": 0.8819262981414795,
      "learning_rate": 0.00029994285526550196,
      "loss": 4.1164,
      "step": 6200
    },
    {
      "epoch": 0.0129375,
      "grad_norm": 1.068333625793457,
      "learning_rate": 0.00029994258284115114,
      "loss": 3.9838,
      "step": 6210
    },
    {
      "epoch": 0.012958333333333334,
      "grad_norm": 0.9078938961029053,
      "learning_rate": 0.0002999423097691077,
      "loss": 3.9797,
      "step": 6220
    },
    {
      "epoch": 0.012979166666666667,
      "grad_norm": 0.9527643918991089,
      "learning_rate": 0.0002999420360493729,
      "loss": 4.0528,
      "step": 6230
    },
    {
      "epoch": 0.013,
      "grad_norm": 0.9671280384063721,
      "learning_rate": 0.0002999417616819478,
      "loss": 3.9915,
      "step": 6240
    },
    {
      "epoch": 0.013020833333333334,
      "grad_norm": 1.0323084592819214,
      "learning_rate": 0.00029994148666683364,
      "loss": 4.2473,
      "step": 6250
    },
    {
      "epoch": 0.013041666666666667,
      "grad_norm": 1.008888840675354,
      "learning_rate": 0.00029994121100403154,
      "loss": 4.0077,
      "step": 6260
    },
    {
      "epoch": 0.0130625,
      "grad_norm": 0.8360439538955688,
      "learning_rate": 0.0002999409346935429,
      "loss": 4.0394,
      "step": 6270
    },
    {
      "epoch": 0.013083333333333334,
      "grad_norm": 1.0562629699707031,
      "learning_rate": 0.00029994065773536867,
      "loss": 4.1728,
      "step": 6280
    },
    {
      "epoch": 0.013104166666666667,
      "grad_norm": 0.8998481631278992,
      "learning_rate": 0.00029994038012951023,
      "loss": 4.0647,
      "step": 6290
    },
    {
      "epoch": 0.013125,
      "grad_norm": 0.9556834101676941,
      "learning_rate": 0.00029994010187596866,
      "loss": 4.1575,
      "step": 6300
    },
    {
      "epoch": 0.013145833333333334,
      "grad_norm": 0.9387531280517578,
      "learning_rate": 0.0002999398229747452,
      "loss": 4.2053,
      "step": 6310
    },
    {
      "epoch": 0.013166666666666667,
      "grad_norm": 1.059512734413147,
      "learning_rate": 0.00029993954342584105,
      "loss": 4.1122,
      "step": 6320
    },
    {
      "epoch": 0.0131875,
      "grad_norm": 0.8863552212715149,
      "learning_rate": 0.0002999392632292574,
      "loss": 4.0638,
      "step": 6330
    },
    {
      "epoch": 0.013208333333333334,
      "grad_norm": 0.96615070104599,
      "learning_rate": 0.00029993898238499554,
      "loss": 4.069,
      "step": 6340
    },
    {
      "epoch": 0.013229166666666667,
      "grad_norm": 0.9637752175331116,
      "learning_rate": 0.00029993870089305657,
      "loss": 4.059,
      "step": 6350
    },
    {
      "epoch": 0.01325,
      "grad_norm": 0.9568811655044556,
      "learning_rate": 0.0002999384187534418,
      "loss": 4.0715,
      "step": 6360
    },
    {
      "epoch": 0.013270833333333334,
      "grad_norm": 0.9379424452781677,
      "learning_rate": 0.00029993813596615237,
      "loss": 4.0718,
      "step": 6370
    },
    {
      "epoch": 0.013291666666666667,
      "grad_norm": 1.0933842658996582,
      "learning_rate": 0.00029993785253118954,
      "loss": 4.0454,
      "step": 6380
    },
    {
      "epoch": 0.0133125,
      "grad_norm": 0.9435713887214661,
      "learning_rate": 0.00029993756844855457,
      "loss": 4.0584,
      "step": 6390
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 0.8405054211616516,
      "learning_rate": 0.00029993728371824867,
      "loss": 3.871,
      "step": 6400
    },
    {
      "epoch": 0.013354166666666667,
      "grad_norm": 0.933931291103363,
      "learning_rate": 0.000299936998340273,
      "loss": 4.1761,
      "step": 6410
    },
    {
      "epoch": 0.013375,
      "grad_norm": 0.8940505981445312,
      "learning_rate": 0.0002999367123146289,
      "loss": 4.0246,
      "step": 6420
    },
    {
      "epoch": 0.013395833333333333,
      "grad_norm": 0.9127814173698425,
      "learning_rate": 0.00029993642564131754,
      "loss": 4.0734,
      "step": 6430
    },
    {
      "epoch": 0.013416666666666667,
      "grad_norm": 0.9094292521476746,
      "learning_rate": 0.00029993613832034015,
      "loss": 3.946,
      "step": 6440
    },
    {
      "epoch": 0.0134375,
      "grad_norm": 1.2239240407943726,
      "learning_rate": 0.000299935850351698,
      "loss": 3.9459,
      "step": 6450
    },
    {
      "epoch": 0.013458333333333333,
      "grad_norm": 0.8955016732215881,
      "learning_rate": 0.00029993556173539234,
      "loss": 3.8617,
      "step": 6460
    },
    {
      "epoch": 0.013479166666666667,
      "grad_norm": 0.8669296503067017,
      "learning_rate": 0.00029993527247142436,
      "loss": 4.0158,
      "step": 6470
    },
    {
      "epoch": 0.0135,
      "grad_norm": 0.8309480547904968,
      "learning_rate": 0.0002999349825597954,
      "loss": 4.0057,
      "step": 6480
    },
    {
      "epoch": 0.013520833333333333,
      "grad_norm": 0.8429121971130371,
      "learning_rate": 0.0002999346920005066,
      "loss": 4.0032,
      "step": 6490
    },
    {
      "epoch": 0.013541666666666667,
      "grad_norm": 0.897562563419342,
      "learning_rate": 0.00029993440079355933,
      "loss": 4.052,
      "step": 6500
    },
    {
      "epoch": 0.0135625,
      "grad_norm": 0.8948218822479248,
      "learning_rate": 0.00029993410893895477,
      "loss": 4.0736,
      "step": 6510
    },
    {
      "epoch": 0.013583333333333333,
      "grad_norm": 0.9286693930625916,
      "learning_rate": 0.00029993381643669424,
      "loss": 4.1823,
      "step": 6520
    },
    {
      "epoch": 0.013604166666666667,
      "grad_norm": 0.8896878361701965,
      "learning_rate": 0.000299933523286779,
      "loss": 4.1354,
      "step": 6530
    },
    {
      "epoch": 0.013625,
      "grad_norm": 0.9024227261543274,
      "learning_rate": 0.00029993322948921024,
      "loss": 4.1706,
      "step": 6540
    },
    {
      "epoch": 0.013645833333333333,
      "grad_norm": 0.9716841578483582,
      "learning_rate": 0.00029993293504398927,
      "loss": 4.0001,
      "step": 6550
    },
    {
      "epoch": 0.013666666666666667,
      "grad_norm": 0.8848289251327515,
      "learning_rate": 0.00029993263995111737,
      "loss": 4.1008,
      "step": 6560
    },
    {
      "epoch": 0.0136875,
      "grad_norm": 0.9355757832527161,
      "learning_rate": 0.00029993234421059583,
      "loss": 4.0402,
      "step": 6570
    },
    {
      "epoch": 0.013708333333333333,
      "grad_norm": 0.9168696403503418,
      "learning_rate": 0.00029993204782242586,
      "loss": 4.0907,
      "step": 6580
    },
    {
      "epoch": 0.013729166666666667,
      "grad_norm": 1.1814876794815063,
      "learning_rate": 0.00029993175078660885,
      "loss": 4.1214,
      "step": 6590
    },
    {
      "epoch": 0.01375,
      "grad_norm": 1.0008504390716553,
      "learning_rate": 0.000299931453103146,
      "loss": 4.0659,
      "step": 6600
    },
    {
      "epoch": 0.013770833333333333,
      "grad_norm": 1.0081291198730469,
      "learning_rate": 0.00029993115477203864,
      "loss": 3.9152,
      "step": 6610
    },
    {
      "epoch": 0.013791666666666667,
      "grad_norm": 1.0494648218154907,
      "learning_rate": 0.000299930855793288,
      "loss": 4.0762,
      "step": 6620
    },
    {
      "epoch": 0.0138125,
      "grad_norm": 1.0659271478652954,
      "learning_rate": 0.0002999305561668955,
      "loss": 4.0953,
      "step": 6630
    },
    {
      "epoch": 0.013833333333333333,
      "grad_norm": 0.9607105851173401,
      "learning_rate": 0.00029993025589286225,
      "loss": 3.9694,
      "step": 6640
    },
    {
      "epoch": 0.013854166666666667,
      "grad_norm": 1.063226342201233,
      "learning_rate": 0.0002999299549711897,
      "loss": 4.0232,
      "step": 6650
    },
    {
      "epoch": 0.013875,
      "grad_norm": 0.8980494737625122,
      "learning_rate": 0.00029992965340187904,
      "loss": 4.0558,
      "step": 6660
    },
    {
      "epoch": 0.013895833333333333,
      "grad_norm": 0.8890358805656433,
      "learning_rate": 0.00029992935118493166,
      "loss": 4.0773,
      "step": 6670
    },
    {
      "epoch": 0.013916666666666667,
      "grad_norm": 1.0375691652297974,
      "learning_rate": 0.00029992904832034875,
      "loss": 4.2058,
      "step": 6680
    },
    {
      "epoch": 0.0139375,
      "grad_norm": 0.9427799582481384,
      "learning_rate": 0.0002999287448081318,
      "loss": 4.1623,
      "step": 6690
    },
    {
      "epoch": 0.013958333333333333,
      "grad_norm": 0.9718566536903381,
      "learning_rate": 0.00029992844064828195,
      "loss": 4.1282,
      "step": 6700
    },
    {
      "epoch": 0.013979166666666668,
      "grad_norm": 0.9963191747665405,
      "learning_rate": 0.00029992813584080066,
      "loss": 4.1961,
      "step": 6710
    },
    {
      "epoch": 0.014,
      "grad_norm": 0.887082576751709,
      "learning_rate": 0.0002999278303856891,
      "loss": 3.9252,
      "step": 6720
    },
    {
      "epoch": 0.014020833333333333,
      "grad_norm": 0.8736108541488647,
      "learning_rate": 0.00029992752428294867,
      "loss": 3.9604,
      "step": 6730
    },
    {
      "epoch": 0.014041666666666666,
      "grad_norm": 0.9039258360862732,
      "learning_rate": 0.0002999272175325807,
      "loss": 4.2475,
      "step": 6740
    },
    {
      "epoch": 0.0140625,
      "grad_norm": 0.9288772940635681,
      "learning_rate": 0.00029992691013458646,
      "loss": 3.9646,
      "step": 6750
    },
    {
      "epoch": 0.014083333333333333,
      "grad_norm": 0.9164652824401855,
      "learning_rate": 0.0002999266020889674,
      "loss": 4.0333,
      "step": 6760
    },
    {
      "epoch": 0.014104166666666666,
      "grad_norm": 0.8952393531799316,
      "learning_rate": 0.00029992629339572465,
      "loss": 4.0806,
      "step": 6770
    },
    {
      "epoch": 0.014125,
      "grad_norm": 0.8376536965370178,
      "learning_rate": 0.0002999259840548597,
      "loss": 3.9286,
      "step": 6780
    },
    {
      "epoch": 0.014145833333333333,
      "grad_norm": 0.9379526972770691,
      "learning_rate": 0.0002999256740663739,
      "loss": 4.1664,
      "step": 6790
    },
    {
      "epoch": 0.014166666666666666,
      "grad_norm": 0.977990448474884,
      "learning_rate": 0.00029992536343026845,
      "loss": 3.9658,
      "step": 6800
    },
    {
      "epoch": 0.0141875,
      "grad_norm": 0.8667201399803162,
      "learning_rate": 0.00029992505214654477,
      "loss": 3.9671,
      "step": 6810
    },
    {
      "epoch": 0.014208333333333333,
      "grad_norm": 0.9429517388343811,
      "learning_rate": 0.00029992474021520426,
      "loss": 3.98,
      "step": 6820
    },
    {
      "epoch": 0.014229166666666666,
      "grad_norm": 0.8257001042366028,
      "learning_rate": 0.0002999244276362482,
      "loss": 3.9335,
      "step": 6830
    },
    {
      "epoch": 0.01425,
      "grad_norm": 0.9612383842468262,
      "learning_rate": 0.000299924114409678,
      "loss": 4.0503,
      "step": 6840
    },
    {
      "epoch": 0.014270833333333333,
      "grad_norm": 0.7644697427749634,
      "learning_rate": 0.0002999238005354949,
      "loss": 4.2029,
      "step": 6850
    },
    {
      "epoch": 0.014291666666666666,
      "grad_norm": 0.8802212476730347,
      "learning_rate": 0.0002999234860137004,
      "loss": 4.0442,
      "step": 6860
    },
    {
      "epoch": 0.0143125,
      "grad_norm": 1.0356061458587646,
      "learning_rate": 0.0002999231708442957,
      "loss": 3.8788,
      "step": 6870
    },
    {
      "epoch": 0.014333333333333333,
      "grad_norm": 0.8861193656921387,
      "learning_rate": 0.0002999228550272823,
      "loss": 4.1211,
      "step": 6880
    },
    {
      "epoch": 0.014354166666666666,
      "grad_norm": 0.8845570683479309,
      "learning_rate": 0.0002999225385626615,
      "loss": 4.1261,
      "step": 6890
    },
    {
      "epoch": 0.014375,
      "grad_norm": 0.9453163743019104,
      "learning_rate": 0.0002999222214504347,
      "loss": 4.0783,
      "step": 6900
    },
    {
      "epoch": 0.014395833333333333,
      "grad_norm": 1.037510633468628,
      "learning_rate": 0.00029992190369060323,
      "loss": 4.0957,
      "step": 6910
    },
    {
      "epoch": 0.014416666666666666,
      "grad_norm": 0.9237430691719055,
      "learning_rate": 0.0002999215852831685,
      "loss": 4.0247,
      "step": 6920
    },
    {
      "epoch": 0.0144375,
      "grad_norm": 0.8403300642967224,
      "learning_rate": 0.0002999212662281318,
      "loss": 3.8862,
      "step": 6930
    },
    {
      "epoch": 0.014458333333333333,
      "grad_norm": 0.9654322862625122,
      "learning_rate": 0.00029992094652549455,
      "loss": 3.989,
      "step": 6940
    },
    {
      "epoch": 0.014479166666666666,
      "grad_norm": 0.9429084062576294,
      "learning_rate": 0.00029992062617525825,
      "loss": 4.1007,
      "step": 6950
    },
    {
      "epoch": 0.0145,
      "grad_norm": 0.9030852913856506,
      "learning_rate": 0.00029992030517742415,
      "loss": 3.996,
      "step": 6960
    },
    {
      "epoch": 0.014520833333333334,
      "grad_norm": 0.9190139770507812,
      "learning_rate": 0.00029991998353199364,
      "loss": 4.0217,
      "step": 6970
    },
    {
      "epoch": 0.014541666666666666,
      "grad_norm": 1.0145999193191528,
      "learning_rate": 0.0002999196612389682,
      "loss": 3.925,
      "step": 6980
    },
    {
      "epoch": 0.0145625,
      "grad_norm": 0.9598746299743652,
      "learning_rate": 0.00029991933829834913,
      "loss": 4.0229,
      "step": 6990
    },
    {
      "epoch": 0.014583333333333334,
      "grad_norm": 0.8927167654037476,
      "learning_rate": 0.0002999190147101379,
      "loss": 4.0605,
      "step": 7000
    },
    {
      "epoch": 0.014583333333333334,
      "eval_loss": 4.340586185455322,
      "eval_runtime": 11.0302,
      "eval_samples_per_second": 0.907,
      "eval_steps_per_second": 0.272,
      "step": 7000
    },
    {
      "epoch": 0.014604166666666666,
      "grad_norm": 1.0125157833099365,
      "learning_rate": 0.0002999186904743358,
      "loss": 3.9642,
      "step": 7010
    },
    {
      "epoch": 0.014625,
      "grad_norm": 0.9457781910896301,
      "learning_rate": 0.00029991836559094433,
      "loss": 4.0079,
      "step": 7020
    },
    {
      "epoch": 0.014645833333333334,
      "grad_norm": 0.9316348433494568,
      "learning_rate": 0.00029991804005996493,
      "loss": 4.0168,
      "step": 7030
    },
    {
      "epoch": 0.014666666666666666,
      "grad_norm": 0.9104083180427551,
      "learning_rate": 0.00029991771388139884,
      "loss": 4.0599,
      "step": 7040
    },
    {
      "epoch": 0.0146875,
      "grad_norm": 0.9380168914794922,
      "learning_rate": 0.00029991738705524763,
      "loss": 3.9804,
      "step": 7050
    },
    {
      "epoch": 0.014708333333333334,
      "grad_norm": 0.8020222187042236,
      "learning_rate": 0.0002999170595815126,
      "loss": 4.0416,
      "step": 7060
    },
    {
      "epoch": 0.014729166666666666,
      "grad_norm": 0.895160973072052,
      "learning_rate": 0.00029991673146019526,
      "loss": 4.0953,
      "step": 7070
    },
    {
      "epoch": 0.01475,
      "grad_norm": 0.9720396399497986,
      "learning_rate": 0.000299916402691297,
      "loss": 4.1505,
      "step": 7080
    },
    {
      "epoch": 0.014770833333333334,
      "grad_norm": 0.9162779450416565,
      "learning_rate": 0.00029991607327481916,
      "loss": 3.9746,
      "step": 7090
    },
    {
      "epoch": 0.014791666666666667,
      "grad_norm": 0.9347497224807739,
      "learning_rate": 0.00029991574321076327,
      "loss": 3.8849,
      "step": 7100
    },
    {
      "epoch": 0.0148125,
      "grad_norm": 1.1414587497711182,
      "learning_rate": 0.00029991541249913066,
      "loss": 4.1746,
      "step": 7110
    },
    {
      "epoch": 0.014833333333333334,
      "grad_norm": 0.8596989512443542,
      "learning_rate": 0.00029991508113992284,
      "loss": 4.0042,
      "step": 7120
    },
    {
      "epoch": 0.014854166666666667,
      "grad_norm": 1.5247185230255127,
      "learning_rate": 0.00029991474913314124,
      "loss": 4.0133,
      "step": 7130
    },
    {
      "epoch": 0.014875,
      "grad_norm": 1.1025023460388184,
      "learning_rate": 0.0002999144164787872,
      "loss": 4.0831,
      "step": 7140
    },
    {
      "epoch": 0.014895833333333334,
      "grad_norm": 0.8815367221832275,
      "learning_rate": 0.0002999140831768623,
      "loss": 4.1567,
      "step": 7150
    },
    {
      "epoch": 0.014916666666666667,
      "grad_norm": 0.8190339207649231,
      "learning_rate": 0.0002999137492273678,
      "loss": 4.0352,
      "step": 7160
    },
    {
      "epoch": 0.0149375,
      "grad_norm": 0.9389554858207703,
      "learning_rate": 0.0002999134146303053,
      "loss": 4.0819,
      "step": 7170
    },
    {
      "epoch": 0.014958333333333334,
      "grad_norm": 0.844062864780426,
      "learning_rate": 0.0002999130793856762,
      "loss": 4.1883,
      "step": 7180
    },
    {
      "epoch": 0.014979166666666667,
      "grad_norm": 0.9921501874923706,
      "learning_rate": 0.0002999127434934819,
      "loss": 4.0527,
      "step": 7190
    },
    {
      "epoch": 0.015,
      "grad_norm": 0.8162594437599182,
      "learning_rate": 0.00029991240695372397,
      "loss": 4.1004,
      "step": 7200
    },
    {
      "epoch": 0.015020833333333334,
      "grad_norm": 0.9247971177101135,
      "learning_rate": 0.0002999120697664037,
      "loss": 4.0457,
      "step": 7210
    },
    {
      "epoch": 0.015041666666666667,
      "grad_norm": 0.8534733057022095,
      "learning_rate": 0.00029991173193152264,
      "loss": 4.056,
      "step": 7220
    },
    {
      "epoch": 0.0150625,
      "grad_norm": 0.9703700542449951,
      "learning_rate": 0.0002999113934490822,
      "loss": 3.9965,
      "step": 7230
    },
    {
      "epoch": 0.015083333333333334,
      "grad_norm": 0.9544861912727356,
      "learning_rate": 0.000299911054319084,
      "loss": 4.1055,
      "step": 7240
    },
    {
      "epoch": 0.015104166666666667,
      "grad_norm": 0.9065807461738586,
      "learning_rate": 0.0002999107145415293,
      "loss": 4.0456,
      "step": 7250
    },
    {
      "epoch": 0.015125,
      "grad_norm": 0.9795711636543274,
      "learning_rate": 0.00029991037411641967,
      "loss": 3.8591,
      "step": 7260
    },
    {
      "epoch": 0.015145833333333334,
      "grad_norm": 0.9871900081634521,
      "learning_rate": 0.00029991003304375655,
      "loss": 4.0524,
      "step": 7270
    },
    {
      "epoch": 0.015166666666666667,
      "grad_norm": 0.8816227316856384,
      "learning_rate": 0.00029990969132354144,
      "loss": 4.2103,
      "step": 7280
    },
    {
      "epoch": 0.0151875,
      "grad_norm": 0.9611108899116516,
      "learning_rate": 0.0002999093489557758,
      "loss": 4.1064,
      "step": 7290
    },
    {
      "epoch": 0.015208333333333334,
      "grad_norm": 0.9315329194068909,
      "learning_rate": 0.0002999090059404611,
      "loss": 3.9858,
      "step": 7300
    },
    {
      "epoch": 0.015229166666666667,
      "grad_norm": 0.8917229771614075,
      "learning_rate": 0.0002999086622775988,
      "loss": 4.1627,
      "step": 7310
    },
    {
      "epoch": 0.01525,
      "grad_norm": 1.0180741548538208,
      "learning_rate": 0.0002999083179671905,
      "loss": 4.0763,
      "step": 7320
    },
    {
      "epoch": 0.015270833333333334,
      "grad_norm": 0.9636371731758118,
      "learning_rate": 0.00029990797300923755,
      "loss": 3.9742,
      "step": 7330
    },
    {
      "epoch": 0.015291666666666667,
      "grad_norm": 1.1485958099365234,
      "learning_rate": 0.00029990762740374145,
      "loss": 3.9178,
      "step": 7340
    },
    {
      "epoch": 0.0153125,
      "grad_norm": 0.900506317615509,
      "learning_rate": 0.0002999072811507038,
      "loss": 4.1424,
      "step": 7350
    },
    {
      "epoch": 0.015333333333333332,
      "grad_norm": 0.9068747162818909,
      "learning_rate": 0.000299906934250126,
      "loss": 4.0313,
      "step": 7360
    },
    {
      "epoch": 0.015354166666666667,
      "grad_norm": 1.0739527940750122,
      "learning_rate": 0.0002999065867020097,
      "loss": 4.0776,
      "step": 7370
    },
    {
      "epoch": 0.015375,
      "grad_norm": 0.8621461987495422,
      "learning_rate": 0.0002999062385063561,
      "loss": 4.1099,
      "step": 7380
    },
    {
      "epoch": 0.015395833333333333,
      "grad_norm": 0.925075113773346,
      "learning_rate": 0.000299905889663167,
      "loss": 3.9909,
      "step": 7390
    },
    {
      "epoch": 0.015416666666666667,
      "grad_norm": 1.0692356824874878,
      "learning_rate": 0.00029990554017244377,
      "loss": 4.2384,
      "step": 7400
    },
    {
      "epoch": 0.0154375,
      "grad_norm": 0.8479160666465759,
      "learning_rate": 0.0002999051900341879,
      "loss": 3.983,
      "step": 7410
    },
    {
      "epoch": 0.015458333333333333,
      "grad_norm": 0.9838065505027771,
      "learning_rate": 0.000299904839248401,
      "loss": 3.9416,
      "step": 7420
    },
    {
      "epoch": 0.015479166666666667,
      "grad_norm": 0.8836420178413391,
      "learning_rate": 0.00029990448781508453,
      "loss": 4.1588,
      "step": 7430
    },
    {
      "epoch": 0.0155,
      "grad_norm": 0.8008750677108765,
      "learning_rate": 0.00029990413573424,
      "loss": 4.3644,
      "step": 7440
    },
    {
      "epoch": 0.015520833333333333,
      "grad_norm": 0.8938660621643066,
      "learning_rate": 0.00029990378300586893,
      "loss": 4.077,
      "step": 7450
    },
    {
      "epoch": 0.015541666666666667,
      "grad_norm": 0.9481860995292664,
      "learning_rate": 0.0002999034296299729,
      "loss": 4.0922,
      "step": 7460
    },
    {
      "epoch": 0.0155625,
      "grad_norm": 0.8930200934410095,
      "learning_rate": 0.00029990307560655326,
      "loss": 3.995,
      "step": 7470
    },
    {
      "epoch": 0.015583333333333333,
      "grad_norm": 1.2217803001403809,
      "learning_rate": 0.00029990272093561183,
      "loss": 3.9935,
      "step": 7480
    },
    {
      "epoch": 0.015604166666666667,
      "grad_norm": 1.000601887702942,
      "learning_rate": 0.0002999023656171499,
      "loss": 4.0182,
      "step": 7490
    },
    {
      "epoch": 0.015625,
      "grad_norm": 0.8854073882102966,
      "learning_rate": 0.0002999020096511691,
      "loss": 3.9662,
      "step": 7500
    },
    {
      "epoch": 0.015645833333333335,
      "grad_norm": 1.2044990062713623,
      "learning_rate": 0.0002999016530376709,
      "loss": 3.9801,
      "step": 7510
    },
    {
      "epoch": 0.015666666666666666,
      "grad_norm": 0.9241108298301697,
      "learning_rate": 0.00029990129577665695,
      "loss": 4.0193,
      "step": 7520
    },
    {
      "epoch": 0.0156875,
      "grad_norm": 0.7738756537437439,
      "learning_rate": 0.0002999009378681287,
      "loss": 3.9725,
      "step": 7530
    },
    {
      "epoch": 0.015708333333333335,
      "grad_norm": 0.9775682687759399,
      "learning_rate": 0.0002999005793120878,
      "loss": 4.1193,
      "step": 7540
    },
    {
      "epoch": 0.015729166666666666,
      "grad_norm": 0.9840127825737,
      "learning_rate": 0.0002999002201085357,
      "loss": 4.0843,
      "step": 7550
    },
    {
      "epoch": 0.01575,
      "grad_norm": 0.900884747505188,
      "learning_rate": 0.000299899860257474,
      "loss": 4.009,
      "step": 7560
    },
    {
      "epoch": 0.015770833333333335,
      "grad_norm": 0.8358213901519775,
      "learning_rate": 0.0002998994997589042,
      "loss": 4.149,
      "step": 7570
    },
    {
      "epoch": 0.015791666666666666,
      "grad_norm": 0.8391352891921997,
      "learning_rate": 0.00029989913861282793,
      "loss": 3.9244,
      "step": 7580
    },
    {
      "epoch": 0.0158125,
      "grad_norm": 0.9761918783187866,
      "learning_rate": 0.0002998987768192467,
      "loss": 4.0347,
      "step": 7590
    },
    {
      "epoch": 0.015833333333333335,
      "grad_norm": 1.1620367765426636,
      "learning_rate": 0.0002998984143781621,
      "loss": 3.9484,
      "step": 7600
    },
    {
      "epoch": 0.015854166666666666,
      "grad_norm": 0.9000586271286011,
      "learning_rate": 0.0002998980512895756,
      "loss": 4.0313,
      "step": 7610
    },
    {
      "epoch": 0.015875,
      "grad_norm": 0.9657297134399414,
      "learning_rate": 0.00029989768755348895,
      "loss": 4.0561,
      "step": 7620
    },
    {
      "epoch": 0.015895833333333335,
      "grad_norm": 1.0161843299865723,
      "learning_rate": 0.0002998973231699036,
      "loss": 4.1927,
      "step": 7630
    },
    {
      "epoch": 0.015916666666666666,
      "grad_norm": 0.9004241824150085,
      "learning_rate": 0.0002998969581388211,
      "loss": 4.1073,
      "step": 7640
    },
    {
      "epoch": 0.0159375,
      "grad_norm": 0.9844752550125122,
      "learning_rate": 0.00029989659246024315,
      "loss": 4.1457,
      "step": 7650
    },
    {
      "epoch": 0.015958333333333335,
      "grad_norm": 0.9914301633834839,
      "learning_rate": 0.0002998962261341712,
      "loss": 4.1176,
      "step": 7660
    },
    {
      "epoch": 0.015979166666666666,
      "grad_norm": 0.9517707228660583,
      "learning_rate": 0.0002998958591606069,
      "loss": 4.0301,
      "step": 7670
    },
    {
      "epoch": 0.016,
      "grad_norm": 0.9848448634147644,
      "learning_rate": 0.0002998954915395519,
      "loss": 3.9633,
      "step": 7680
    },
    {
      "epoch": 0.016020833333333335,
      "grad_norm": 0.9697771668434143,
      "learning_rate": 0.0002998951232710076,
      "loss": 4.0888,
      "step": 7690
    },
    {
      "epoch": 0.016041666666666666,
      "grad_norm": 0.8675816655158997,
      "learning_rate": 0.0002998947543549757,
      "loss": 4.1535,
      "step": 7700
    },
    {
      "epoch": 0.0160625,
      "grad_norm": 0.888594925403595,
      "learning_rate": 0.00029989438479145785,
      "loss": 4.0266,
      "step": 7710
    },
    {
      "epoch": 0.016083333333333335,
      "grad_norm": 0.8527824878692627,
      "learning_rate": 0.0002998940145804556,
      "loss": 4.076,
      "step": 7720
    },
    {
      "epoch": 0.016104166666666666,
      "grad_norm": 0.8573829531669617,
      "learning_rate": 0.0002998936437219705,
      "loss": 4.1426,
      "step": 7730
    },
    {
      "epoch": 0.016125,
      "grad_norm": 0.8374878168106079,
      "learning_rate": 0.0002998932722160042,
      "loss": 4.2586,
      "step": 7740
    },
    {
      "epoch": 0.016145833333333335,
      "grad_norm": 0.9867334365844727,
      "learning_rate": 0.0002998929000625583,
      "loss": 3.9878,
      "step": 7750
    },
    {
      "epoch": 0.016166666666666666,
      "grad_norm": 1.0349607467651367,
      "learning_rate": 0.0002998925272616344,
      "loss": 3.9155,
      "step": 7760
    },
    {
      "epoch": 0.0161875,
      "grad_norm": 0.9910019040107727,
      "learning_rate": 0.00029989215381323413,
      "loss": 4.1652,
      "step": 7770
    },
    {
      "epoch": 0.016208333333333335,
      "grad_norm": 1.1321102380752563,
      "learning_rate": 0.0002998917797173591,
      "loss": 3.9685,
      "step": 7780
    },
    {
      "epoch": 0.016229166666666666,
      "grad_norm": 0.8418395519256592,
      "learning_rate": 0.00029989140497401086,
      "loss": 4.1075,
      "step": 7790
    },
    {
      "epoch": 0.01625,
      "grad_norm": 0.8726577758789062,
      "learning_rate": 0.0002998910295831911,
      "loss": 4.1443,
      "step": 7800
    },
    {
      "epoch": 0.016270833333333335,
      "grad_norm": 0.9628142714500427,
      "learning_rate": 0.00029989065354490144,
      "loss": 3.9348,
      "step": 7810
    },
    {
      "epoch": 0.016291666666666666,
      "grad_norm": 0.875770092010498,
      "learning_rate": 0.00029989027685914344,
      "loss": 4.152,
      "step": 7820
    },
    {
      "epoch": 0.0163125,
      "grad_norm": 0.890224039554596,
      "learning_rate": 0.0002998898995259188,
      "loss": 4.1304,
      "step": 7830
    },
    {
      "epoch": 0.01633333333333333,
      "grad_norm": 0.9940407276153564,
      "learning_rate": 0.00029988952154522917,
      "loss": 4.1147,
      "step": 7840
    },
    {
      "epoch": 0.016354166666666666,
      "grad_norm": 1.057767629623413,
      "learning_rate": 0.0002998891429170761,
      "loss": 4.0949,
      "step": 7850
    },
    {
      "epoch": 0.016375,
      "grad_norm": 0.8641510009765625,
      "learning_rate": 0.00029988876364146126,
      "loss": 4.0559,
      "step": 7860
    },
    {
      "epoch": 0.01639583333333333,
      "grad_norm": 1.054960012435913,
      "learning_rate": 0.00029988838371838633,
      "loss": 3.9667,
      "step": 7870
    },
    {
      "epoch": 0.016416666666666666,
      "grad_norm": 0.887367308139801,
      "learning_rate": 0.0002998880031478528,
      "loss": 4.2097,
      "step": 7880
    },
    {
      "epoch": 0.0164375,
      "grad_norm": 1.0446540117263794,
      "learning_rate": 0.0002998876219298625,
      "loss": 3.9531,
      "step": 7890
    },
    {
      "epoch": 0.016458333333333332,
      "grad_norm": 0.8754667043685913,
      "learning_rate": 0.00029988724006441706,
      "loss": 4.1747,
      "step": 7900
    },
    {
      "epoch": 0.016479166666666666,
      "grad_norm": 0.867599606513977,
      "learning_rate": 0.00029988685755151805,
      "loss": 4.2133,
      "step": 7910
    },
    {
      "epoch": 0.0165,
      "grad_norm": 0.8551528453826904,
      "learning_rate": 0.00029988647439116705,
      "loss": 4.0214,
      "step": 7920
    },
    {
      "epoch": 0.016520833333333332,
      "grad_norm": 0.9514595866203308,
      "learning_rate": 0.0002998860905833659,
      "loss": 4.0321,
      "step": 7930
    },
    {
      "epoch": 0.016541666666666666,
      "grad_norm": 0.9246469140052795,
      "learning_rate": 0.0002998857061281161,
      "loss": 4.0849,
      "step": 7940
    },
    {
      "epoch": 0.0165625,
      "grad_norm": 0.8294110298156738,
      "learning_rate": 0.00029988532102541947,
      "loss": 3.8799,
      "step": 7950
    },
    {
      "epoch": 0.016583333333333332,
      "grad_norm": 0.9265419840812683,
      "learning_rate": 0.0002998849352752775,
      "loss": 4.2849,
      "step": 7960
    },
    {
      "epoch": 0.016604166666666666,
      "grad_norm": 0.9284372329711914,
      "learning_rate": 0.000299884548877692,
      "loss": 3.9457,
      "step": 7970
    },
    {
      "epoch": 0.016625,
      "grad_norm": 0.8611606955528259,
      "learning_rate": 0.00029988416183266456,
      "loss": 3.8719,
      "step": 7980
    },
    {
      "epoch": 0.016645833333333332,
      "grad_norm": 0.975935161113739,
      "learning_rate": 0.00029988377414019685,
      "loss": 4.0905,
      "step": 7990
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 0.8938225507736206,
      "learning_rate": 0.00029988338580029056,
      "loss": 4.0504,
      "step": 8000
    },
    {
      "epoch": 0.016666666666666666,
      "eval_loss": 4.359135627746582,
      "eval_runtime": 9.6608,
      "eval_samples_per_second": 1.035,
      "eval_steps_per_second": 0.311,
      "step": 8000
    },
    {
      "epoch": 0.0166875,
      "grad_norm": 0.8844358325004578,
      "learning_rate": 0.0002998829968129474,
      "loss": 4.159,
      "step": 8010
    },
    {
      "epoch": 0.016708333333333332,
      "grad_norm": 0.945570170879364,
      "learning_rate": 0.00029988260717816903,
      "loss": 4.0678,
      "step": 8020
    },
    {
      "epoch": 0.016729166666666666,
      "grad_norm": 0.9997355341911316,
      "learning_rate": 0.00029988221689595705,
      "loss": 4.2037,
      "step": 8030
    },
    {
      "epoch": 0.01675,
      "grad_norm": 0.9758825898170471,
      "learning_rate": 0.00029988182596631325,
      "loss": 3.8107,
      "step": 8040
    },
    {
      "epoch": 0.016770833333333332,
      "grad_norm": 0.7964422702789307,
      "learning_rate": 0.00029988143438923937,
      "loss": 4.2898,
      "step": 8050
    },
    {
      "epoch": 0.016791666666666667,
      "grad_norm": 0.903896689414978,
      "learning_rate": 0.000299881042164737,
      "loss": 4.1031,
      "step": 8060
    },
    {
      "epoch": 0.0168125,
      "grad_norm": 0.9570715427398682,
      "learning_rate": 0.00029988064929280776,
      "loss": 3.9441,
      "step": 8070
    },
    {
      "epoch": 0.016833333333333332,
      "grad_norm": 1.100372076034546,
      "learning_rate": 0.00029988025577345345,
      "loss": 4.1331,
      "step": 8080
    },
    {
      "epoch": 0.016854166666666667,
      "grad_norm": 1.2692229747772217,
      "learning_rate": 0.00029987986160667584,
      "loss": 4.1688,
      "step": 8090
    },
    {
      "epoch": 0.016875,
      "grad_norm": 0.9311814904212952,
      "learning_rate": 0.00029987946679247655,
      "loss": 4.0383,
      "step": 8100
    },
    {
      "epoch": 0.016895833333333332,
      "grad_norm": 0.9424052834510803,
      "learning_rate": 0.00029987907133085726,
      "loss": 4.4557,
      "step": 8110
    },
    {
      "epoch": 0.016916666666666667,
      "grad_norm": 0.9361470341682434,
      "learning_rate": 0.0002998786752218197,
      "loss": 3.956,
      "step": 8120
    },
    {
      "epoch": 0.0169375,
      "grad_norm": 0.9429013133049011,
      "learning_rate": 0.0002998782784653656,
      "loss": 4.072,
      "step": 8130
    },
    {
      "epoch": 0.016958333333333332,
      "grad_norm": 0.9332160949707031,
      "learning_rate": 0.00029987788106149664,
      "loss": 4.1583,
      "step": 8140
    },
    {
      "epoch": 0.016979166666666667,
      "grad_norm": 0.8462079167366028,
      "learning_rate": 0.0002998774830102146,
      "loss": 4.1381,
      "step": 8150
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.9293659925460815,
      "learning_rate": 0.00029987708431152113,
      "loss": 4.1782,
      "step": 8160
    },
    {
      "epoch": 0.017020833333333332,
      "grad_norm": 0.931438684463501,
      "learning_rate": 0.000299876684965418,
      "loss": 4.243,
      "step": 8170
    },
    {
      "epoch": 0.017041666666666667,
      "grad_norm": 0.8117160797119141,
      "learning_rate": 0.0002998762849719069,
      "loss": 4.0017,
      "step": 8180
    },
    {
      "epoch": 0.0170625,
      "grad_norm": 1.0574076175689697,
      "learning_rate": 0.0002998758843309896,
      "loss": 4.1704,
      "step": 8190
    },
    {
      "epoch": 0.017083333333333332,
      "grad_norm": 0.9583580493927002,
      "learning_rate": 0.0002998754830426678,
      "loss": 4.0298,
      "step": 8200
    },
    {
      "epoch": 0.017104166666666667,
      "grad_norm": 0.8882920145988464,
      "learning_rate": 0.00029987508110694317,
      "loss": 3.9623,
      "step": 8210
    },
    {
      "epoch": 0.017125,
      "grad_norm": 0.9885251522064209,
      "learning_rate": 0.00029987467852381764,
      "loss": 3.901,
      "step": 8220
    },
    {
      "epoch": 0.017145833333333332,
      "grad_norm": 1.0381290912628174,
      "learning_rate": 0.0002998742752932927,
      "loss": 4.1142,
      "step": 8230
    },
    {
      "epoch": 0.017166666666666667,
      "grad_norm": 1.0162827968597412,
      "learning_rate": 0.0002998738714153703,
      "loss": 3.8985,
      "step": 8240
    },
    {
      "epoch": 0.0171875,
      "grad_norm": 1.0146030187606812,
      "learning_rate": 0.00029987346689005204,
      "loss": 3.9436,
      "step": 8250
    },
    {
      "epoch": 0.017208333333333332,
      "grad_norm": 0.8633815050125122,
      "learning_rate": 0.00029987306171733977,
      "loss": 4.2695,
      "step": 8260
    },
    {
      "epoch": 0.017229166666666667,
      "grad_norm": 0.8891245722770691,
      "learning_rate": 0.0002998726558972352,
      "loss": 4.0899,
      "step": 8270
    },
    {
      "epoch": 0.01725,
      "grad_norm": 0.9359492063522339,
      "learning_rate": 0.00029987224942974006,
      "loss": 3.9815,
      "step": 8280
    },
    {
      "epoch": 0.017270833333333332,
      "grad_norm": 0.9664071798324585,
      "learning_rate": 0.0002998718423148561,
      "loss": 4.1807,
      "step": 8290
    },
    {
      "epoch": 0.017291666666666667,
      "grad_norm": 1.0486708879470825,
      "learning_rate": 0.00029987143455258516,
      "loss": 4.1797,
      "step": 8300
    },
    {
      "epoch": 0.0173125,
      "grad_norm": 0.9385436773300171,
      "learning_rate": 0.0002998710261429289,
      "loss": 4.0756,
      "step": 8310
    },
    {
      "epoch": 0.017333333333333333,
      "grad_norm": 0.9213384389877319,
      "learning_rate": 0.00029987061708588916,
      "loss": 4.0342,
      "step": 8320
    },
    {
      "epoch": 0.017354166666666667,
      "grad_norm": 0.948731541633606,
      "learning_rate": 0.00029987020738146767,
      "loss": 4.118,
      "step": 8330
    },
    {
      "epoch": 0.017375,
      "grad_norm": 0.9450809955596924,
      "learning_rate": 0.0002998697970296662,
      "loss": 4.1192,
      "step": 8340
    },
    {
      "epoch": 0.017395833333333333,
      "grad_norm": 0.8671319484710693,
      "learning_rate": 0.0002998693860304865,
      "loss": 4.0003,
      "step": 8350
    },
    {
      "epoch": 0.017416666666666667,
      "grad_norm": 0.9694793224334717,
      "learning_rate": 0.00029986897438393043,
      "loss": 3.8087,
      "step": 8360
    },
    {
      "epoch": 0.0174375,
      "grad_norm": 0.9735819101333618,
      "learning_rate": 0.0002998685620899997,
      "loss": 4.1153,
      "step": 8370
    },
    {
      "epoch": 0.017458333333333333,
      "grad_norm": 0.9942685961723328,
      "learning_rate": 0.0002998681491486961,
      "loss": 4.0003,
      "step": 8380
    },
    {
      "epoch": 0.017479166666666667,
      "grad_norm": 0.9571182727813721,
      "learning_rate": 0.0002998677355600214,
      "loss": 4.0935,
      "step": 8390
    },
    {
      "epoch": 0.0175,
      "grad_norm": 0.7830858826637268,
      "learning_rate": 0.0002998673213239774,
      "loss": 4.2864,
      "step": 8400
    },
    {
      "epoch": 0.017520833333333333,
      "grad_norm": 1.0673060417175293,
      "learning_rate": 0.0002998669064405659,
      "loss": 3.9124,
      "step": 8410
    },
    {
      "epoch": 0.017541666666666667,
      "grad_norm": 0.8895696997642517,
      "learning_rate": 0.0002998664909097887,
      "loss": 4.0705,
      "step": 8420
    },
    {
      "epoch": 0.0175625,
      "grad_norm": 1.176624059677124,
      "learning_rate": 0.0002998660747316476,
      "loss": 4.1571,
      "step": 8430
    },
    {
      "epoch": 0.017583333333333333,
      "grad_norm": 1.1625657081604004,
      "learning_rate": 0.00029986565790614435,
      "loss": 4.0164,
      "step": 8440
    },
    {
      "epoch": 0.017604166666666667,
      "grad_norm": 1.1032110452651978,
      "learning_rate": 0.0002998652404332808,
      "loss": 3.9599,
      "step": 8450
    },
    {
      "epoch": 0.017625,
      "grad_norm": 1.0995789766311646,
      "learning_rate": 0.0002998648223130587,
      "loss": 4.0638,
      "step": 8460
    },
    {
      "epoch": 0.017645833333333333,
      "grad_norm": 0.8630760312080383,
      "learning_rate": 0.0002998644035454799,
      "loss": 3.9497,
      "step": 8470
    },
    {
      "epoch": 0.017666666666666667,
      "grad_norm": 0.838282585144043,
      "learning_rate": 0.0002998639841305462,
      "loss": 4.0781,
      "step": 8480
    },
    {
      "epoch": 0.0176875,
      "grad_norm": 0.7680670022964478,
      "learning_rate": 0.0002998635640682594,
      "loss": 4.1953,
      "step": 8490
    },
    {
      "epoch": 0.017708333333333333,
      "grad_norm": 0.8610295653343201,
      "learning_rate": 0.00029986314335862135,
      "loss": 4.0202,
      "step": 8500
    },
    {
      "epoch": 0.017729166666666667,
      "grad_norm": 0.9679912328720093,
      "learning_rate": 0.0002998627220016338,
      "loss": 4.1376,
      "step": 8510
    },
    {
      "epoch": 0.01775,
      "grad_norm": 0.8499793410301208,
      "learning_rate": 0.0002998622999972987,
      "loss": 4.2573,
      "step": 8520
    },
    {
      "epoch": 0.017770833333333333,
      "grad_norm": 0.918820321559906,
      "learning_rate": 0.00029986187734561766,
      "loss": 4.1539,
      "step": 8530
    },
    {
      "epoch": 0.017791666666666667,
      "grad_norm": 1.0979641675949097,
      "learning_rate": 0.0002998614540465927,
      "loss": 4.0731,
      "step": 8540
    },
    {
      "epoch": 0.0178125,
      "grad_norm": 0.9051472544670105,
      "learning_rate": 0.0002998610301002256,
      "loss": 4.0903,
      "step": 8550
    },
    {
      "epoch": 0.017833333333333333,
      "grad_norm": 0.9612399935722351,
      "learning_rate": 0.0002998606055065181,
      "loss": 3.9094,
      "step": 8560
    },
    {
      "epoch": 0.017854166666666667,
      "grad_norm": 1.085081696510315,
      "learning_rate": 0.00029986018026547214,
      "loss": 4.0771,
      "step": 8570
    },
    {
      "epoch": 0.017875,
      "grad_norm": 0.9349003434181213,
      "learning_rate": 0.0002998597543770895,
      "loss": 4.1552,
      "step": 8580
    },
    {
      "epoch": 0.017895833333333333,
      "grad_norm": 0.8839707374572754,
      "learning_rate": 0.0002998593278413721,
      "loss": 4.0256,
      "step": 8590
    },
    {
      "epoch": 0.017916666666666668,
      "grad_norm": 0.958372950553894,
      "learning_rate": 0.00029985890065832165,
      "loss": 4.0301,
      "step": 8600
    },
    {
      "epoch": 0.0179375,
      "grad_norm": 1.2134268283843994,
      "learning_rate": 0.0002998584728279401,
      "loss": 4.1408,
      "step": 8610
    },
    {
      "epoch": 0.017958333333333333,
      "grad_norm": 0.9239814281463623,
      "learning_rate": 0.0002998580443502293,
      "loss": 4.0323,
      "step": 8620
    },
    {
      "epoch": 0.017979166666666668,
      "grad_norm": 0.843664824962616,
      "learning_rate": 0.00029985761522519094,
      "loss": 3.9146,
      "step": 8630
    },
    {
      "epoch": 0.018,
      "grad_norm": 1.2419476509094238,
      "learning_rate": 0.00029985718545282714,
      "loss": 4.1792,
      "step": 8640
    },
    {
      "epoch": 0.018020833333333333,
      "grad_norm": 1.329093098640442,
      "learning_rate": 0.00029985675503313956,
      "loss": 4.2059,
      "step": 8650
    },
    {
      "epoch": 0.018041666666666668,
      "grad_norm": 0.8298959136009216,
      "learning_rate": 0.0002998563239661301,
      "loss": 3.9852,
      "step": 8660
    },
    {
      "epoch": 0.0180625,
      "grad_norm": 0.7582468390464783,
      "learning_rate": 0.0002998558922518007,
      "loss": 4.084,
      "step": 8670
    },
    {
      "epoch": 0.018083333333333333,
      "grad_norm": 0.9785591959953308,
      "learning_rate": 0.0002998554598901531,
      "loss": 4.0348,
      "step": 8680
    },
    {
      "epoch": 0.018104166666666668,
      "grad_norm": 0.9617912769317627,
      "learning_rate": 0.00029985502688118925,
      "loss": 3.9361,
      "step": 8690
    },
    {
      "epoch": 0.018125,
      "grad_norm": 0.9017140865325928,
      "learning_rate": 0.000299854593224911,
      "loss": 4.1316,
      "step": 8700
    },
    {
      "epoch": 0.018145833333333333,
      "grad_norm": 0.8073142170906067,
      "learning_rate": 0.00029985415892132023,
      "loss": 3.9029,
      "step": 8710
    },
    {
      "epoch": 0.018166666666666668,
      "grad_norm": 1.0022088289260864,
      "learning_rate": 0.0002998537239704188,
      "loss": 4.1955,
      "step": 8720
    },
    {
      "epoch": 0.0181875,
      "grad_norm": 0.8683967590332031,
      "learning_rate": 0.0002998532883722086,
      "loss": 3.9902,
      "step": 8730
    },
    {
      "epoch": 0.018208333333333333,
      "grad_norm": 0.8850433230400085,
      "learning_rate": 0.0002998528521266915,
      "loss": 3.9935,
      "step": 8740
    },
    {
      "epoch": 0.018229166666666668,
      "grad_norm": 0.9850907921791077,
      "learning_rate": 0.0002998524152338694,
      "loss": 4.1306,
      "step": 8750
    },
    {
      "epoch": 0.01825,
      "grad_norm": 0.9019120335578918,
      "learning_rate": 0.00029985197769374423,
      "loss": 4.0238,
      "step": 8760
    },
    {
      "epoch": 0.018270833333333333,
      "grad_norm": 0.9077861309051514,
      "learning_rate": 0.0002998515395063177,
      "loss": 4.0197,
      "step": 8770
    },
    {
      "epoch": 0.018291666666666668,
      "grad_norm": 1.1095470190048218,
      "learning_rate": 0.000299851100671592,
      "loss": 3.9661,
      "step": 8780
    },
    {
      "epoch": 0.0183125,
      "grad_norm": 0.8263306617736816,
      "learning_rate": 0.0002998506611895688,
      "loss": 4.087,
      "step": 8790
    },
    {
      "epoch": 0.018333333333333333,
      "grad_norm": 1.001594066619873,
      "learning_rate": 0.00029985022106025,
      "loss": 4.042,
      "step": 8800
    },
    {
      "epoch": 0.018354166666666668,
      "grad_norm": 0.7825855016708374,
      "learning_rate": 0.0002998497802836376,
      "loss": 3.9146,
      "step": 8810
    },
    {
      "epoch": 0.018375,
      "grad_norm": 0.8702734708786011,
      "learning_rate": 0.00029984933885973355,
      "loss": 4.0408,
      "step": 8820
    },
    {
      "epoch": 0.018395833333333333,
      "grad_norm": 0.8864033222198486,
      "learning_rate": 0.00029984889678853955,
      "loss": 4.0739,
      "step": 8830
    },
    {
      "epoch": 0.018416666666666668,
      "grad_norm": 1.0076587200164795,
      "learning_rate": 0.00029984845407005767,
      "loss": 4.013,
      "step": 8840
    },
    {
      "epoch": 0.0184375,
      "grad_norm": 0.935309886932373,
      "learning_rate": 0.00029984801070428974,
      "loss": 4.1587,
      "step": 8850
    },
    {
      "epoch": 0.018458333333333334,
      "grad_norm": 0.8029825687408447,
      "learning_rate": 0.00029984756669123783,
      "loss": 4.055,
      "step": 8860
    },
    {
      "epoch": 0.018479166666666668,
      "grad_norm": 0.8799611926078796,
      "learning_rate": 0.00029984712203090367,
      "loss": 3.9093,
      "step": 8870
    },
    {
      "epoch": 0.0185,
      "grad_norm": 0.9531365633010864,
      "learning_rate": 0.0002998466767232892,
      "loss": 3.9717,
      "step": 8880
    },
    {
      "epoch": 0.018520833333333334,
      "grad_norm": 0.884185254573822,
      "learning_rate": 0.0002998462307683965,
      "loss": 3.9517,
      "step": 8890
    },
    {
      "epoch": 0.018541666666666668,
      "grad_norm": 0.9882393479347229,
      "learning_rate": 0.00029984578416622737,
      "loss": 4.0974,
      "step": 8900
    },
    {
      "epoch": 0.0185625,
      "grad_norm": 0.8401179313659668,
      "learning_rate": 0.0002998453369167838,
      "loss": 4.1953,
      "step": 8910
    },
    {
      "epoch": 0.018583333333333334,
      "grad_norm": 0.9629188179969788,
      "learning_rate": 0.0002998448890200676,
      "loss": 4.0424,
      "step": 8920
    },
    {
      "epoch": 0.018604166666666668,
      "grad_norm": 1.0426764488220215,
      "learning_rate": 0.0002998444404760808,
      "loss": 4.0312,
      "step": 8930
    },
    {
      "epoch": 0.018625,
      "grad_norm": 0.9690893292427063,
      "learning_rate": 0.0002998439912848254,
      "loss": 3.9159,
      "step": 8940
    },
    {
      "epoch": 0.018645833333333334,
      "grad_norm": 0.8988893032073975,
      "learning_rate": 0.0002998435414463032,
      "loss": 4.1215,
      "step": 8950
    },
    {
      "epoch": 0.018666666666666668,
      "grad_norm": 1.0951426029205322,
      "learning_rate": 0.00029984309096051624,
      "loss": 3.9974,
      "step": 8960
    },
    {
      "epoch": 0.0186875,
      "grad_norm": 0.858089029788971,
      "learning_rate": 0.0002998426398274665,
      "loss": 3.8983,
      "step": 8970
    },
    {
      "epoch": 0.018708333333333334,
      "grad_norm": 0.9532752633094788,
      "learning_rate": 0.0002998421880471558,
      "loss": 4.1317,
      "step": 8980
    },
    {
      "epoch": 0.01872916666666667,
      "grad_norm": 1.2736117839813232,
      "learning_rate": 0.00029984173561958615,
      "loss": 4.2258,
      "step": 8990
    },
    {
      "epoch": 0.01875,
      "grad_norm": 1.0548949241638184,
      "learning_rate": 0.0002998412825447595,
      "loss": 4.1096,
      "step": 9000
    },
    {
      "epoch": 0.01875,
      "eval_loss": 4.345475673675537,
      "eval_runtime": 10.5435,
      "eval_samples_per_second": 0.948,
      "eval_steps_per_second": 0.285,
      "step": 9000
    },
    {
      "epoch": 0.018770833333333334,
      "grad_norm": 0.9277525544166565,
      "learning_rate": 0.00029984082882267786,
      "loss": 4.2696,
      "step": 9010
    },
    {
      "epoch": 0.01879166666666667,
      "grad_norm": 1.0537359714508057,
      "learning_rate": 0.00029984037445334317,
      "loss": 4.113,
      "step": 9020
    },
    {
      "epoch": 0.0188125,
      "grad_norm": 0.8888839483261108,
      "learning_rate": 0.0002998399194367574,
      "loss": 4.0897,
      "step": 9030
    },
    {
      "epoch": 0.018833333333333334,
      "grad_norm": 0.9012905955314636,
      "learning_rate": 0.0002998394637729224,
      "loss": 4.0483,
      "step": 9040
    },
    {
      "epoch": 0.01885416666666667,
      "grad_norm": 0.966414749622345,
      "learning_rate": 0.00029983900746184027,
      "loss": 4.183,
      "step": 9050
    },
    {
      "epoch": 0.018875,
      "grad_norm": 0.8427063822746277,
      "learning_rate": 0.00029983855050351297,
      "loss": 3.8561,
      "step": 9060
    },
    {
      "epoch": 0.018895833333333334,
      "grad_norm": 0.823745608329773,
      "learning_rate": 0.0002998380928979424,
      "loss": 4.0483,
      "step": 9070
    },
    {
      "epoch": 0.018916666666666665,
      "grad_norm": 0.9898422360420227,
      "learning_rate": 0.00029983763464513057,
      "loss": 3.9237,
      "step": 9080
    },
    {
      "epoch": 0.0189375,
      "grad_norm": 0.8690701723098755,
      "learning_rate": 0.00029983717574507947,
      "loss": 4.0887,
      "step": 9090
    },
    {
      "epoch": 0.018958333333333334,
      "grad_norm": 1.0593056678771973,
      "learning_rate": 0.0002998367161977911,
      "loss": 4.2075,
      "step": 9100
    },
    {
      "epoch": 0.018979166666666665,
      "grad_norm": 1.0398879051208496,
      "learning_rate": 0.0002998362560032674,
      "loss": 4.1353,
      "step": 9110
    },
    {
      "epoch": 0.019,
      "grad_norm": 0.871092677116394,
      "learning_rate": 0.00029983579516151045,
      "loss": 4.1322,
      "step": 9120
    },
    {
      "epoch": 0.019020833333333334,
      "grad_norm": 0.8651396036148071,
      "learning_rate": 0.0002998353336725221,
      "loss": 3.9945,
      "step": 9130
    },
    {
      "epoch": 0.019041666666666665,
      "grad_norm": 0.8620742559432983,
      "learning_rate": 0.00029983487153630446,
      "loss": 4.0121,
      "step": 9140
    },
    {
      "epoch": 0.0190625,
      "grad_norm": 0.9897534847259521,
      "learning_rate": 0.00029983440875285943,
      "loss": 3.8512,
      "step": 9150
    },
    {
      "epoch": 0.019083333333333334,
      "grad_norm": 0.912268340587616,
      "learning_rate": 0.0002998339453221891,
      "loss": 4.0959,
      "step": 9160
    },
    {
      "epoch": 0.019104166666666665,
      "grad_norm": 0.9242444634437561,
      "learning_rate": 0.0002998334812442955,
      "loss": 3.9677,
      "step": 9170
    },
    {
      "epoch": 0.019125,
      "grad_norm": 0.9498921036720276,
      "learning_rate": 0.00029983301651918045,
      "loss": 3.9376,
      "step": 9180
    },
    {
      "epoch": 0.019145833333333334,
      "grad_norm": 0.9305335879325867,
      "learning_rate": 0.0002998325511468462,
      "loss": 4.0968,
      "step": 9190
    },
    {
      "epoch": 0.019166666666666665,
      "grad_norm": 0.8681609034538269,
      "learning_rate": 0.0002998320851272945,
      "loss": 3.9807,
      "step": 9200
    },
    {
      "epoch": 0.0191875,
      "grad_norm": 0.8862873911857605,
      "learning_rate": 0.0002998316184605276,
      "loss": 3.9169,
      "step": 9210
    },
    {
      "epoch": 0.019208333333333334,
      "grad_norm": 1.2506145238876343,
      "learning_rate": 0.0002998311511465474,
      "loss": 4.0204,
      "step": 9220
    },
    {
      "epoch": 0.019229166666666665,
      "grad_norm": 0.8647387027740479,
      "learning_rate": 0.0002998306831853559,
      "loss": 4.1874,
      "step": 9230
    },
    {
      "epoch": 0.01925,
      "grad_norm": 0.8172548413276672,
      "learning_rate": 0.00029983021457695517,
      "loss": 4.0949,
      "step": 9240
    },
    {
      "epoch": 0.019270833333333334,
      "grad_norm": 0.9220440983772278,
      "learning_rate": 0.0002998297453213472,
      "loss": 4.0685,
      "step": 9250
    },
    {
      "epoch": 0.019291666666666665,
      "grad_norm": 0.843744695186615,
      "learning_rate": 0.0002998292754185341,
      "loss": 4.0763,
      "step": 9260
    },
    {
      "epoch": 0.0193125,
      "grad_norm": 0.8689762949943542,
      "learning_rate": 0.0002998288048685178,
      "loss": 4.0799,
      "step": 9270
    },
    {
      "epoch": 0.019333333333333334,
      "grad_norm": 0.9222022294998169,
      "learning_rate": 0.00029982833367130036,
      "loss": 4.103,
      "step": 9280
    },
    {
      "epoch": 0.019354166666666665,
      "grad_norm": 0.8696931004524231,
      "learning_rate": 0.00029982786182688385,
      "loss": 4.0024,
      "step": 9290
    },
    {
      "epoch": 0.019375,
      "grad_norm": 0.9493642449378967,
      "learning_rate": 0.00029982738933527026,
      "loss": 3.9488,
      "step": 9300
    },
    {
      "epoch": 0.019395833333333334,
      "grad_norm": 0.8894075751304626,
      "learning_rate": 0.0002998269161964617,
      "loss": 3.9632,
      "step": 9310
    },
    {
      "epoch": 0.019416666666666665,
      "grad_norm": 0.9133402109146118,
      "learning_rate": 0.00029982644241046004,
      "loss": 4.0253,
      "step": 9320
    },
    {
      "epoch": 0.0194375,
      "grad_norm": 0.9435531497001648,
      "learning_rate": 0.00029982596797726755,
      "loss": 4.0884,
      "step": 9330
    },
    {
      "epoch": 0.019458333333333334,
      "grad_norm": 0.8678200840950012,
      "learning_rate": 0.0002998254928968862,
      "loss": 4.1925,
      "step": 9340
    },
    {
      "epoch": 0.019479166666666665,
      "grad_norm": 0.8157002925872803,
      "learning_rate": 0.000299825017169318,
      "loss": 4.1566,
      "step": 9350
    },
    {
      "epoch": 0.0195,
      "grad_norm": 0.8052384853363037,
      "learning_rate": 0.000299824540794565,
      "loss": 4.3168,
      "step": 9360
    },
    {
      "epoch": 0.019520833333333334,
      "grad_norm": 0.8435333967208862,
      "learning_rate": 0.00029982406377262934,
      "loss": 3.9149,
      "step": 9370
    },
    {
      "epoch": 0.019541666666666666,
      "grad_norm": 0.7847732305526733,
      "learning_rate": 0.000299823586103513,
      "loss": 4.0877,
      "step": 9380
    },
    {
      "epoch": 0.0195625,
      "grad_norm": 0.94866544008255,
      "learning_rate": 0.0002998231077872181,
      "loss": 4.0232,
      "step": 9390
    },
    {
      "epoch": 0.019583333333333335,
      "grad_norm": 0.8169416785240173,
      "learning_rate": 0.00029982262882374664,
      "loss": 3.9902,
      "step": 9400
    },
    {
      "epoch": 0.019604166666666666,
      "grad_norm": 0.9127697944641113,
      "learning_rate": 0.00029982214921310074,
      "loss": 3.9247,
      "step": 9410
    },
    {
      "epoch": 0.019625,
      "grad_norm": 0.9711620807647705,
      "learning_rate": 0.0002998216689552825,
      "loss": 4.1867,
      "step": 9420
    },
    {
      "epoch": 0.019645833333333335,
      "grad_norm": 0.9964255094528198,
      "learning_rate": 0.0002998211880502939,
      "loss": 4.0062,
      "step": 9430
    },
    {
      "epoch": 0.019666666666666666,
      "grad_norm": 1.0919461250305176,
      "learning_rate": 0.00029982070649813713,
      "loss": 4.0073,
      "step": 9440
    },
    {
      "epoch": 0.0196875,
      "grad_norm": 0.8851948380470276,
      "learning_rate": 0.0002998202242988141,
      "loss": 3.8325,
      "step": 9450
    },
    {
      "epoch": 0.019708333333333335,
      "grad_norm": 1.0363069772720337,
      "learning_rate": 0.0002998197414523271,
      "loss": 4.0856,
      "step": 9460
    },
    {
      "epoch": 0.019729166666666666,
      "grad_norm": 0.8468578457832336,
      "learning_rate": 0.0002998192579586781,
      "loss": 4.161,
      "step": 9470
    },
    {
      "epoch": 0.01975,
      "grad_norm": 1.2036677598953247,
      "learning_rate": 0.00029981877381786925,
      "loss": 4.2491,
      "step": 9480
    },
    {
      "epoch": 0.019770833333333335,
      "grad_norm": 0.9143335819244385,
      "learning_rate": 0.00029981828902990253,
      "loss": 3.9455,
      "step": 9490
    },
    {
      "epoch": 0.019791666666666666,
      "grad_norm": 0.8497856259346008,
      "learning_rate": 0.0002998178035947801,
      "loss": 3.9328,
      "step": 9500
    },
    {
      "epoch": 0.0198125,
      "grad_norm": 0.9727890491485596,
      "learning_rate": 0.0002998173175125041,
      "loss": 4.0492,
      "step": 9510
    },
    {
      "epoch": 0.019833333333333335,
      "grad_norm": 0.8242268562316895,
      "learning_rate": 0.00029981683078307656,
      "loss": 4.1791,
      "step": 9520
    },
    {
      "epoch": 0.019854166666666666,
      "grad_norm": 0.8298456072807312,
      "learning_rate": 0.00029981634340649964,
      "loss": 3.8701,
      "step": 9530
    },
    {
      "epoch": 0.019875,
      "grad_norm": 1.0017644166946411,
      "learning_rate": 0.0002998158553827754,
      "loss": 3.8854,
      "step": 9540
    },
    {
      "epoch": 0.019895833333333335,
      "grad_norm": 0.7783777713775635,
      "learning_rate": 0.000299815366711906,
      "loss": 4.1866,
      "step": 9550
    },
    {
      "epoch": 0.019916666666666666,
      "grad_norm": 0.8830393552780151,
      "learning_rate": 0.0002998148773938935,
      "loss": 4.0029,
      "step": 9560
    },
    {
      "epoch": 0.0199375,
      "grad_norm": 0.9470157623291016,
      "learning_rate": 0.00029981438742874,
      "loss": 4.0531,
      "step": 9570
    },
    {
      "epoch": 0.019958333333333335,
      "grad_norm": 0.9863994717597961,
      "learning_rate": 0.00029981389681644767,
      "loss": 4.1668,
      "step": 9580
    },
    {
      "epoch": 0.019979166666666666,
      "grad_norm": 0.8077663779258728,
      "learning_rate": 0.0002998134055570186,
      "loss": 3.9715,
      "step": 9590
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8208444714546204,
      "learning_rate": 0.0002998129136504549,
      "loss": 4.0146,
      "step": 9600
    },
    {
      "epoch": 0.020020833333333335,
      "grad_norm": 0.8585996627807617,
      "learning_rate": 0.00029981242109675875,
      "loss": 4.0237,
      "step": 9610
    },
    {
      "epoch": 0.020041666666666666,
      "grad_norm": 0.9613497853279114,
      "learning_rate": 0.0002998119278959322,
      "loss": 4.0188,
      "step": 9620
    },
    {
      "epoch": 0.0200625,
      "grad_norm": 0.8470491170883179,
      "learning_rate": 0.0002998114340479775,
      "loss": 4.0296,
      "step": 9630
    },
    {
      "epoch": 0.020083333333333335,
      "grad_norm": 0.8715327978134155,
      "learning_rate": 0.0002998109395528966,
      "loss": 4.19,
      "step": 9640
    },
    {
      "epoch": 0.020104166666666666,
      "grad_norm": 1.0012080669403076,
      "learning_rate": 0.00029981044441069186,
      "loss": 4.0675,
      "step": 9650
    },
    {
      "epoch": 0.020125,
      "grad_norm": 0.8255970478057861,
      "learning_rate": 0.00029980994862136516,
      "loss": 4.0845,
      "step": 9660
    },
    {
      "epoch": 0.020145833333333335,
      "grad_norm": 0.908376157283783,
      "learning_rate": 0.0002998094521849189,
      "loss": 3.9606,
      "step": 9670
    },
    {
      "epoch": 0.020166666666666666,
      "grad_norm": 0.8726487755775452,
      "learning_rate": 0.00029980895510135503,
      "loss": 4.0282,
      "step": 9680
    },
    {
      "epoch": 0.0201875,
      "grad_norm": 0.8931153416633606,
      "learning_rate": 0.0002998084573706758,
      "loss": 4.0197,
      "step": 9690
    },
    {
      "epoch": 0.02020833333333333,
      "grad_norm": 0.7906998991966248,
      "learning_rate": 0.00029980795899288334,
      "loss": 3.8319,
      "step": 9700
    },
    {
      "epoch": 0.020229166666666666,
      "grad_norm": 0.8168278932571411,
      "learning_rate": 0.0002998074599679798,
      "loss": 3.7907,
      "step": 9710
    },
    {
      "epoch": 0.02025,
      "grad_norm": 0.8812684416770935,
      "learning_rate": 0.0002998069602959673,
      "loss": 4.0428,
      "step": 9720
    },
    {
      "epoch": 0.02027083333333333,
      "grad_norm": 0.9491397142410278,
      "learning_rate": 0.00029980645997684807,
      "loss": 3.9361,
      "step": 9730
    },
    {
      "epoch": 0.020291666666666666,
      "grad_norm": 0.995573878288269,
      "learning_rate": 0.0002998059590106242,
      "loss": 4.0512,
      "step": 9740
    },
    {
      "epoch": 0.0203125,
      "grad_norm": 0.9225786924362183,
      "learning_rate": 0.0002998054573972979,
      "loss": 4.0591,
      "step": 9750
    },
    {
      "epoch": 0.02033333333333333,
      "grad_norm": 0.8943817615509033,
      "learning_rate": 0.00029980495513687126,
      "loss": 3.8922,
      "step": 9760
    },
    {
      "epoch": 0.020354166666666666,
      "grad_norm": 1.1089351177215576,
      "learning_rate": 0.0002998044522293466,
      "loss": 4.0297,
      "step": 9770
    },
    {
      "epoch": 0.020375,
      "grad_norm": 0.7932626008987427,
      "learning_rate": 0.000299803948674726,
      "loss": 3.9693,
      "step": 9780
    },
    {
      "epoch": 0.020395833333333332,
      "grad_norm": 0.9082998633384705,
      "learning_rate": 0.0002998034444730116,
      "loss": 4.2084,
      "step": 9790
    },
    {
      "epoch": 0.020416666666666666,
      "grad_norm": 0.7732157707214355,
      "learning_rate": 0.0002998029396242056,
      "loss": 4.2553,
      "step": 9800
    },
    {
      "epoch": 0.0204375,
      "grad_norm": 0.9002898931503296,
      "learning_rate": 0.00029980243412831023,
      "loss": 4.104,
      "step": 9810
    },
    {
      "epoch": 0.020458333333333332,
      "grad_norm": 0.815901517868042,
      "learning_rate": 0.0002998019279853276,
      "loss": 4.0168,
      "step": 9820
    },
    {
      "epoch": 0.020479166666666666,
      "grad_norm": 0.8804150223731995,
      "learning_rate": 0.00029980142119526,
      "loss": 4.0835,
      "step": 9830
    },
    {
      "epoch": 0.0205,
      "grad_norm": 1.1327600479125977,
      "learning_rate": 0.0002998009137581095,
      "loss": 4.0576,
      "step": 9840
    },
    {
      "epoch": 0.020520833333333332,
      "grad_norm": 0.807758629322052,
      "learning_rate": 0.0002998004056738784,
      "loss": 4.0875,
      "step": 9850
    },
    {
      "epoch": 0.020541666666666666,
      "grad_norm": 0.8243554830551147,
      "learning_rate": 0.0002997998969425688,
      "loss": 4.1321,
      "step": 9860
    },
    {
      "epoch": 0.0205625,
      "grad_norm": 0.8303701877593994,
      "learning_rate": 0.00029979938756418296,
      "loss": 4.0612,
      "step": 9870
    },
    {
      "epoch": 0.020583333333333332,
      "grad_norm": 0.8470600843429565,
      "learning_rate": 0.00029979887753872305,
      "loss": 3.9121,
      "step": 9880
    },
    {
      "epoch": 0.020604166666666666,
      "grad_norm": 0.8359178304672241,
      "learning_rate": 0.0002997983668661913,
      "loss": 3.9522,
      "step": 9890
    },
    {
      "epoch": 0.020625,
      "grad_norm": 0.9217105507850647,
      "learning_rate": 0.0002997978555465899,
      "loss": 4.0739,
      "step": 9900
    },
    {
      "epoch": 0.020645833333333332,
      "grad_norm": 0.9166182279586792,
      "learning_rate": 0.000299797343579921,
      "loss": 4.0379,
      "step": 9910
    },
    {
      "epoch": 0.020666666666666667,
      "grad_norm": 0.9592489004135132,
      "learning_rate": 0.0002997968309661869,
      "loss": 4.0243,
      "step": 9920
    },
    {
      "epoch": 0.0206875,
      "grad_norm": 0.9903649091720581,
      "learning_rate": 0.00029979631770538984,
      "loss": 4.0429,
      "step": 9930
    },
    {
      "epoch": 0.020708333333333332,
      "grad_norm": 0.8367807269096375,
      "learning_rate": 0.0002997958037975319,
      "loss": 4.2466,
      "step": 9940
    },
    {
      "epoch": 0.020729166666666667,
      "grad_norm": 0.9227380752563477,
      "learning_rate": 0.0002997952892426154,
      "loss": 4.0022,
      "step": 9950
    },
    {
      "epoch": 0.02075,
      "grad_norm": 0.8208871483802795,
      "learning_rate": 0.0002997947740406426,
      "loss": 4.0196,
      "step": 9960
    },
    {
      "epoch": 0.020770833333333332,
      "grad_norm": 0.8958483934402466,
      "learning_rate": 0.00029979425819161564,
      "loss": 4.147,
      "step": 9970
    },
    {
      "epoch": 0.020791666666666667,
      "grad_norm": 0.8915866613388062,
      "learning_rate": 0.00029979374169553677,
      "loss": 4.0215,
      "step": 9980
    },
    {
      "epoch": 0.0208125,
      "grad_norm": 1.0059232711791992,
      "learning_rate": 0.0002997932245524082,
      "loss": 4.0795,
      "step": 9990
    },
    {
      "epoch": 0.020833333333333332,
      "grad_norm": 0.8215759992599487,
      "learning_rate": 0.00029979270676223224,
      "loss": 3.9671,
      "step": 10000
    },
    {
      "epoch": 0.020833333333333332,
      "eval_loss": 4.33560848236084,
      "eval_runtime": 9.8481,
      "eval_samples_per_second": 1.015,
      "eval_steps_per_second": 0.305,
      "step": 10000
    },
    {
      "epoch": 0.020854166666666667,
      "grad_norm": 0.9175835847854614,
      "learning_rate": 0.0002997921883250111,
      "loss": 3.9231,
      "step": 10010
    },
    {
      "epoch": 0.020875,
      "grad_norm": 0.8828879594802856,
      "learning_rate": 0.0002997916692407469,
      "loss": 4.173,
      "step": 10020
    },
    {
      "epoch": 0.020895833333333332,
      "grad_norm": 0.7833811044692993,
      "learning_rate": 0.0002997911495094421,
      "loss": 4.1142,
      "step": 10030
    },
    {
      "epoch": 0.020916666666666667,
      "grad_norm": 0.8361049294471741,
      "learning_rate": 0.0002997906291310987,
      "loss": 4.0808,
      "step": 10040
    },
    {
      "epoch": 0.0209375,
      "grad_norm": 0.9083168506622314,
      "learning_rate": 0.0002997901081057192,
      "loss": 4.0225,
      "step": 10050
    },
    {
      "epoch": 0.020958333333333332,
      "grad_norm": 0.9234095215797424,
      "learning_rate": 0.00029978958643330563,
      "loss": 3.9358,
      "step": 10060
    },
    {
      "epoch": 0.020979166666666667,
      "grad_norm": 0.9170847535133362,
      "learning_rate": 0.00029978906411386034,
      "loss": 3.9666,
      "step": 10070
    },
    {
      "epoch": 0.021,
      "grad_norm": 0.9088347554206848,
      "learning_rate": 0.00029978854114738563,
      "loss": 3.8923,
      "step": 10080
    },
    {
      "epoch": 0.021020833333333332,
      "grad_norm": 0.8774302005767822,
      "learning_rate": 0.0002997880175338837,
      "loss": 4.0738,
      "step": 10090
    },
    {
      "epoch": 0.021041666666666667,
      "grad_norm": 0.8774318695068359,
      "learning_rate": 0.0002997874932733568,
      "loss": 3.9997,
      "step": 10100
    },
    {
      "epoch": 0.0210625,
      "grad_norm": 0.9026405215263367,
      "learning_rate": 0.00029978696836580727,
      "loss": 4.0601,
      "step": 10110
    },
    {
      "epoch": 0.021083333333333332,
      "grad_norm": 0.8695791363716125,
      "learning_rate": 0.0002997864428112373,
      "loss": 4.0592,
      "step": 10120
    },
    {
      "epoch": 0.021104166666666667,
      "grad_norm": 0.8792867064476013,
      "learning_rate": 0.00029978591660964913,
      "loss": 4.082,
      "step": 10130
    },
    {
      "epoch": 0.021125,
      "grad_norm": 0.8485450744628906,
      "learning_rate": 0.00029978538976104517,
      "loss": 3.9627,
      "step": 10140
    },
    {
      "epoch": 0.021145833333333332,
      "grad_norm": 0.9313712120056152,
      "learning_rate": 0.00029978486226542756,
      "loss": 3.974,
      "step": 10150
    },
    {
      "epoch": 0.021166666666666667,
      "grad_norm": 0.8878106474876404,
      "learning_rate": 0.0002997843341227987,
      "loss": 4.0948,
      "step": 10160
    },
    {
      "epoch": 0.0211875,
      "grad_norm": 0.7925577759742737,
      "learning_rate": 0.00029978380533316075,
      "loss": 4.0406,
      "step": 10170
    },
    {
      "epoch": 0.021208333333333333,
      "grad_norm": 1.175937533378601,
      "learning_rate": 0.00029978327589651605,
      "loss": 4.038,
      "step": 10180
    },
    {
      "epoch": 0.021229166666666667,
      "grad_norm": 0.8927673697471619,
      "learning_rate": 0.00029978274581286693,
      "loss": 3.995,
      "step": 10190
    },
    {
      "epoch": 0.02125,
      "grad_norm": 0.9335274696350098,
      "learning_rate": 0.00029978221508221556,
      "loss": 4.0519,
      "step": 10200
    },
    {
      "epoch": 0.021270833333333333,
      "grad_norm": 0.9304651021957397,
      "learning_rate": 0.00029978168370456437,
      "loss": 3.9445,
      "step": 10210
    },
    {
      "epoch": 0.021291666666666667,
      "grad_norm": 0.9953484535217285,
      "learning_rate": 0.0002997811516799156,
      "loss": 3.8738,
      "step": 10220
    },
    {
      "epoch": 0.0213125,
      "grad_norm": 0.8957852721214294,
      "learning_rate": 0.0002997806190082715,
      "loss": 4.1393,
      "step": 10230
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 1.2486326694488525,
      "learning_rate": 0.00029978008568963446,
      "loss": 3.9038,
      "step": 10240
    },
    {
      "epoch": 0.021354166666666667,
      "grad_norm": 0.9966117143630981,
      "learning_rate": 0.0002997795517240067,
      "loss": 3.9363,
      "step": 10250
    },
    {
      "epoch": 0.021375,
      "grad_norm": 0.9372152090072632,
      "learning_rate": 0.0002997790171113906,
      "loss": 4.0399,
      "step": 10260
    },
    {
      "epoch": 0.021395833333333333,
      "grad_norm": 0.8523468375205994,
      "learning_rate": 0.0002997784818517884,
      "loss": 4.0605,
      "step": 10270
    },
    {
      "epoch": 0.021416666666666667,
      "grad_norm": 0.7862476706504822,
      "learning_rate": 0.00029977794594520247,
      "loss": 4.004,
      "step": 10280
    },
    {
      "epoch": 0.0214375,
      "grad_norm": 0.8762577176094055,
      "learning_rate": 0.00029977740939163505,
      "loss": 4.148,
      "step": 10290
    },
    {
      "epoch": 0.021458333333333333,
      "grad_norm": 0.9351198673248291,
      "learning_rate": 0.0002997768721910886,
      "loss": 4.0516,
      "step": 10300
    },
    {
      "epoch": 0.021479166666666667,
      "grad_norm": 0.8949923515319824,
      "learning_rate": 0.0002997763343435653,
      "loss": 4.0902,
      "step": 10310
    },
    {
      "epoch": 0.0215,
      "grad_norm": 0.9014841318130493,
      "learning_rate": 0.0002997757958490675,
      "loss": 3.921,
      "step": 10320
    },
    {
      "epoch": 0.021520833333333333,
      "grad_norm": 0.9985924363136292,
      "learning_rate": 0.0002997752567075975,
      "loss": 3.9606,
      "step": 10330
    },
    {
      "epoch": 0.021541666666666667,
      "grad_norm": 0.8761548399925232,
      "learning_rate": 0.0002997747169191577,
      "loss": 3.9699,
      "step": 10340
    },
    {
      "epoch": 0.0215625,
      "grad_norm": 0.9579183459281921,
      "learning_rate": 0.0002997741764837505,
      "loss": 4.066,
      "step": 10350
    },
    {
      "epoch": 0.021583333333333333,
      "grad_norm": 0.9612360000610352,
      "learning_rate": 0.0002997736354013781,
      "loss": 4.1511,
      "step": 10360
    },
    {
      "epoch": 0.021604166666666667,
      "grad_norm": 0.9254598617553711,
      "learning_rate": 0.00029977309367204286,
      "loss": 3.999,
      "step": 10370
    },
    {
      "epoch": 0.021625,
      "grad_norm": 0.8962486386299133,
      "learning_rate": 0.00029977255129574713,
      "loss": 3.983,
      "step": 10380
    },
    {
      "epoch": 0.021645833333333333,
      "grad_norm": 0.9430379867553711,
      "learning_rate": 0.0002997720082724933,
      "loss": 4.0404,
      "step": 10390
    },
    {
      "epoch": 0.021666666666666667,
      "grad_norm": 0.7899466753005981,
      "learning_rate": 0.0002997714646022836,
      "loss": 3.9925,
      "step": 10400
    },
    {
      "epoch": 0.0216875,
      "grad_norm": 0.8284606337547302,
      "learning_rate": 0.00029977092028512055,
      "loss": 4.0593,
      "step": 10410
    },
    {
      "epoch": 0.021708333333333333,
      "grad_norm": 1.0812290906906128,
      "learning_rate": 0.00029977037532100635,
      "loss": 3.9444,
      "step": 10420
    },
    {
      "epoch": 0.021729166666666667,
      "grad_norm": 0.9192953705787659,
      "learning_rate": 0.0002997698297099434,
      "loss": 3.9267,
      "step": 10430
    },
    {
      "epoch": 0.02175,
      "grad_norm": 0.9366044402122498,
      "learning_rate": 0.0002997692834519341,
      "loss": 4.0496,
      "step": 10440
    },
    {
      "epoch": 0.021770833333333333,
      "grad_norm": 0.8483167886734009,
      "learning_rate": 0.0002997687365469808,
      "loss": 3.9238,
      "step": 10450
    },
    {
      "epoch": 0.021791666666666668,
      "grad_norm": 0.8915597200393677,
      "learning_rate": 0.0002997681889950858,
      "loss": 4.2339,
      "step": 10460
    },
    {
      "epoch": 0.0218125,
      "grad_norm": 0.8934999108314514,
      "learning_rate": 0.00029976764079625156,
      "loss": 4.131,
      "step": 10470
    },
    {
      "epoch": 0.021833333333333333,
      "grad_norm": 0.8878239989280701,
      "learning_rate": 0.0002997670919504803,
      "loss": 3.9485,
      "step": 10480
    },
    {
      "epoch": 0.021854166666666668,
      "grad_norm": 0.8602654933929443,
      "learning_rate": 0.0002997665424577746,
      "loss": 3.9105,
      "step": 10490
    },
    {
      "epoch": 0.021875,
      "grad_norm": 0.9528221487998962,
      "learning_rate": 0.00029976599231813664,
      "loss": 4.2378,
      "step": 10500
    },
    {
      "epoch": 0.021895833333333333,
      "grad_norm": 0.9370319247245789,
      "learning_rate": 0.0002997654415315689,
      "loss": 4.2288,
      "step": 10510
    },
    {
      "epoch": 0.021916666666666668,
      "grad_norm": 0.7875895500183105,
      "learning_rate": 0.00029976489009807375,
      "loss": 4.0764,
      "step": 10520
    },
    {
      "epoch": 0.0219375,
      "grad_norm": 0.9264360070228577,
      "learning_rate": 0.0002997643380176535,
      "loss": 4.0363,
      "step": 10530
    },
    {
      "epoch": 0.021958333333333333,
      "grad_norm": 0.8552992939949036,
      "learning_rate": 0.0002997637852903107,
      "loss": 3.9913,
      "step": 10540
    },
    {
      "epoch": 0.021979166666666668,
      "grad_norm": 1.1128019094467163,
      "learning_rate": 0.0002997632319160475,
      "loss": 3.8398,
      "step": 10550
    },
    {
      "epoch": 0.022,
      "grad_norm": 0.8485172390937805,
      "learning_rate": 0.00029976267789486646,
      "loss": 4.1162,
      "step": 10560
    },
    {
      "epoch": 0.022020833333333333,
      "grad_norm": 0.9465807676315308,
      "learning_rate": 0.00029976212322676995,
      "loss": 3.9185,
      "step": 10570
    },
    {
      "epoch": 0.022041666666666668,
      "grad_norm": 1.2987678050994873,
      "learning_rate": 0.0002997615679117604,
      "loss": 4.2336,
      "step": 10580
    },
    {
      "epoch": 0.0220625,
      "grad_norm": 0.8820592761039734,
      "learning_rate": 0.00029976101194984005,
      "loss": 4.0848,
      "step": 10590
    },
    {
      "epoch": 0.022083333333333333,
      "grad_norm": 0.8876746892929077,
      "learning_rate": 0.0002997604553410114,
      "loss": 4.1007,
      "step": 10600
    },
    {
      "epoch": 0.022104166666666668,
      "grad_norm": 0.9467823505401611,
      "learning_rate": 0.00029975989808527696,
      "loss": 4.2496,
      "step": 10610
    },
    {
      "epoch": 0.022125,
      "grad_norm": 0.9303798079490662,
      "learning_rate": 0.000299759340182639,
      "loss": 4.0466,
      "step": 10620
    },
    {
      "epoch": 0.022145833333333333,
      "grad_norm": 0.8960623741149902,
      "learning_rate": 0.00029975878163309995,
      "loss": 4.0465,
      "step": 10630
    },
    {
      "epoch": 0.022166666666666668,
      "grad_norm": 0.9176632761955261,
      "learning_rate": 0.00029975822243666225,
      "loss": 3.9194,
      "step": 10640
    },
    {
      "epoch": 0.0221875,
      "grad_norm": 0.8917275071144104,
      "learning_rate": 0.00029975766259332835,
      "loss": 4.1391,
      "step": 10650
    },
    {
      "epoch": 0.022208333333333333,
      "grad_norm": 0.8651731014251709,
      "learning_rate": 0.0002997571021031006,
      "loss": 4.1422,
      "step": 10660
    },
    {
      "epoch": 0.022229166666666668,
      "grad_norm": 0.8034875392913818,
      "learning_rate": 0.00029975654096598146,
      "loss": 4.0413,
      "step": 10670
    },
    {
      "epoch": 0.02225,
      "grad_norm": 1.0791233777999878,
      "learning_rate": 0.00029975597918197326,
      "loss": 4.0712,
      "step": 10680
    },
    {
      "epoch": 0.022270833333333333,
      "grad_norm": 0.9171955585479736,
      "learning_rate": 0.0002997554167510786,
      "loss": 4.1109,
      "step": 10690
    },
    {
      "epoch": 0.022291666666666668,
      "grad_norm": 0.9943594336509705,
      "learning_rate": 0.00029975485367329975,
      "loss": 4.0721,
      "step": 10700
    },
    {
      "epoch": 0.0223125,
      "grad_norm": 0.8181750178337097,
      "learning_rate": 0.00029975428994863927,
      "loss": 4.1605,
      "step": 10710
    },
    {
      "epoch": 0.022333333333333334,
      "grad_norm": 1.0147671699523926,
      "learning_rate": 0.0002997537255770995,
      "loss": 4.0986,
      "step": 10720
    },
    {
      "epoch": 0.022354166666666668,
      "grad_norm": 0.7744315266609192,
      "learning_rate": 0.00029975316055868293,
      "loss": 4.0211,
      "step": 10730
    },
    {
      "epoch": 0.022375,
      "grad_norm": 0.9602259397506714,
      "learning_rate": 0.00029975259489339195,
      "loss": 3.9665,
      "step": 10740
    },
    {
      "epoch": 0.022395833333333334,
      "grad_norm": 1.1291271448135376,
      "learning_rate": 0.00029975202858122904,
      "loss": 4.1789,
      "step": 10750
    },
    {
      "epoch": 0.022416666666666668,
      "grad_norm": 0.8661361336708069,
      "learning_rate": 0.0002997514616221967,
      "loss": 4.0007,
      "step": 10760
    },
    {
      "epoch": 0.0224375,
      "grad_norm": 1.1890524625778198,
      "learning_rate": 0.0002997508940162973,
      "loss": 3.9188,
      "step": 10770
    },
    {
      "epoch": 0.022458333333333334,
      "grad_norm": 0.9199486374855042,
      "learning_rate": 0.0002997503257635333,
      "loss": 4.0073,
      "step": 10780
    },
    {
      "epoch": 0.022479166666666668,
      "grad_norm": 0.8084762692451477,
      "learning_rate": 0.00029974975686390714,
      "loss": 4.1919,
      "step": 10790
    },
    {
      "epoch": 0.0225,
      "grad_norm": 0.8930673599243164,
      "learning_rate": 0.0002997491873174213,
      "loss": 4.1507,
      "step": 10800
    },
    {
      "epoch": 0.022520833333333334,
      "grad_norm": 0.9139108061790466,
      "learning_rate": 0.0002997486171240783,
      "loss": 4.0313,
      "step": 10810
    },
    {
      "epoch": 0.022541666666666668,
      "grad_norm": 0.8556119203567505,
      "learning_rate": 0.0002997480462838805,
      "loss": 4.0711,
      "step": 10820
    },
    {
      "epoch": 0.0225625,
      "grad_norm": 0.8903327584266663,
      "learning_rate": 0.0002997474747968305,
      "loss": 4.0011,
      "step": 10830
    },
    {
      "epoch": 0.022583333333333334,
      "grad_norm": 0.9576094150543213,
      "learning_rate": 0.00029974690266293055,
      "loss": 4.009,
      "step": 10840
    },
    {
      "epoch": 0.022604166666666668,
      "grad_norm": 1.0656836032867432,
      "learning_rate": 0.0002997463298821834,
      "loss": 3.931,
      "step": 10850
    },
    {
      "epoch": 0.022625,
      "grad_norm": 1.2704850435256958,
      "learning_rate": 0.00029974575645459127,
      "loss": 3.8534,
      "step": 10860
    },
    {
      "epoch": 0.022645833333333334,
      "grad_norm": 0.8838678598403931,
      "learning_rate": 0.0002997451823801568,
      "loss": 4.135,
      "step": 10870
    },
    {
      "epoch": 0.02266666666666667,
      "grad_norm": 0.9709188342094421,
      "learning_rate": 0.00029974460765888237,
      "loss": 3.9732,
      "step": 10880
    },
    {
      "epoch": 0.0226875,
      "grad_norm": 0.9118921160697937,
      "learning_rate": 0.00029974403229077054,
      "loss": 4.0216,
      "step": 10890
    },
    {
      "epoch": 0.022708333333333334,
      "grad_norm": 1.0146132707595825,
      "learning_rate": 0.00029974345627582376,
      "loss": 3.9529,
      "step": 10900
    },
    {
      "epoch": 0.02272916666666667,
      "grad_norm": 0.9561675786972046,
      "learning_rate": 0.0002997428796140445,
      "loss": 4.0696,
      "step": 10910
    },
    {
      "epoch": 0.02275,
      "grad_norm": 0.880499541759491,
      "learning_rate": 0.0002997423023054353,
      "loss": 4.1694,
      "step": 10920
    },
    {
      "epoch": 0.022770833333333334,
      "grad_norm": 0.9527094960212708,
      "learning_rate": 0.0002997417243499986,
      "loss": 4.3075,
      "step": 10930
    },
    {
      "epoch": 0.022791666666666665,
      "grad_norm": 0.8859124183654785,
      "learning_rate": 0.000299741145747737,
      "loss": 4.2147,
      "step": 10940
    },
    {
      "epoch": 0.0228125,
      "grad_norm": 0.8555907011032104,
      "learning_rate": 0.00029974056649865284,
      "loss": 3.8823,
      "step": 10950
    },
    {
      "epoch": 0.022833333333333334,
      "grad_norm": 0.7757290005683899,
      "learning_rate": 0.0002997399866027487,
      "loss": 3.9952,
      "step": 10960
    },
    {
      "epoch": 0.022854166666666665,
      "grad_norm": 0.8428161144256592,
      "learning_rate": 0.0002997394060600271,
      "loss": 3.9607,
      "step": 10970
    },
    {
      "epoch": 0.022875,
      "grad_norm": 0.9961905479431152,
      "learning_rate": 0.00029973882487049057,
      "loss": 4.1028,
      "step": 10980
    },
    {
      "epoch": 0.022895833333333334,
      "grad_norm": 1.4699156284332275,
      "learning_rate": 0.0002997382430341416,
      "loss": 4.1332,
      "step": 10990
    },
    {
      "epoch": 0.022916666666666665,
      "grad_norm": 1.0499873161315918,
      "learning_rate": 0.0002997376605509826,
      "loss": 3.9795,
      "step": 11000
    },
    {
      "epoch": 0.022916666666666665,
      "eval_loss": 4.343177318572998,
      "eval_runtime": 9.1751,
      "eval_samples_per_second": 1.09,
      "eval_steps_per_second": 0.327,
      "step": 11000
    },
    {
      "epoch": 0.0229375,
      "grad_norm": 0.9371368885040283,
      "learning_rate": 0.0002997370774210163,
      "loss": 4.0407,
      "step": 11010
    },
    {
      "epoch": 0.022958333333333334,
      "grad_norm": 0.9600356817245483,
      "learning_rate": 0.000299736493644245,
      "loss": 3.9043,
      "step": 11020
    },
    {
      "epoch": 0.022979166666666665,
      "grad_norm": 0.7833398580551147,
      "learning_rate": 0.00029973590922067133,
      "loss": 3.9522,
      "step": 11030
    },
    {
      "epoch": 0.023,
      "grad_norm": 0.8882167935371399,
      "learning_rate": 0.00029973532415029783,
      "loss": 3.9925,
      "step": 11040
    },
    {
      "epoch": 0.023020833333333334,
      "grad_norm": 0.7728996872901917,
      "learning_rate": 0.000299734738433127,
      "loss": 4.0763,
      "step": 11050
    },
    {
      "epoch": 0.023041666666666665,
      "grad_norm": 0.9067636728286743,
      "learning_rate": 0.00029973415206916137,
      "loss": 3.9489,
      "step": 11060
    },
    {
      "epoch": 0.0230625,
      "grad_norm": 1.0445528030395508,
      "learning_rate": 0.00029973356505840344,
      "loss": 4.143,
      "step": 11070
    },
    {
      "epoch": 0.023083333333333334,
      "grad_norm": 0.9083755016326904,
      "learning_rate": 0.0002997329774008558,
      "loss": 4.0993,
      "step": 11080
    },
    {
      "epoch": 0.023104166666666665,
      "grad_norm": 0.9739083051681519,
      "learning_rate": 0.000299732389096521,
      "loss": 4.0222,
      "step": 11090
    },
    {
      "epoch": 0.023125,
      "grad_norm": 0.8349357843399048,
      "learning_rate": 0.00029973180014540145,
      "loss": 3.9285,
      "step": 11100
    },
    {
      "epoch": 0.023145833333333334,
      "grad_norm": 0.8716956973075867,
      "learning_rate": 0.0002997312105474999,
      "loss": 3.9409,
      "step": 11110
    },
    {
      "epoch": 0.023166666666666665,
      "grad_norm": 0.8104733824729919,
      "learning_rate": 0.0002997306203028187,
      "loss": 3.9957,
      "step": 11120
    },
    {
      "epoch": 0.0231875,
      "grad_norm": 0.9289116859436035,
      "learning_rate": 0.00029973002941136056,
      "loss": 3.8664,
      "step": 11130
    },
    {
      "epoch": 0.023208333333333334,
      "grad_norm": 0.9071303606033325,
      "learning_rate": 0.00029972943787312794,
      "loss": 4.0065,
      "step": 11140
    },
    {
      "epoch": 0.023229166666666665,
      "grad_norm": 0.9404611587524414,
      "learning_rate": 0.0002997288456881234,
      "loss": 3.9897,
      "step": 11150
    },
    {
      "epoch": 0.02325,
      "grad_norm": 0.7688071131706238,
      "learning_rate": 0.0002997282528563495,
      "loss": 4.1101,
      "step": 11160
    },
    {
      "epoch": 0.023270833333333334,
      "grad_norm": 0.995836615562439,
      "learning_rate": 0.0002997276593778089,
      "loss": 3.9776,
      "step": 11170
    },
    {
      "epoch": 0.023291666666666665,
      "grad_norm": 0.8275904655456543,
      "learning_rate": 0.00029972706525250393,
      "loss": 3.8802,
      "step": 11180
    },
    {
      "epoch": 0.0233125,
      "grad_norm": 1.0180919170379639,
      "learning_rate": 0.00029972647048043743,
      "loss": 4.0066,
      "step": 11190
    },
    {
      "epoch": 0.023333333333333334,
      "grad_norm": 0.8439503312110901,
      "learning_rate": 0.0002997258750616118,
      "loss": 4.0384,
      "step": 11200
    },
    {
      "epoch": 0.023354166666666665,
      "grad_norm": 0.9801731109619141,
      "learning_rate": 0.00029972527899602966,
      "loss": 4.179,
      "step": 11210
    },
    {
      "epoch": 0.023375,
      "grad_norm": 0.8554068803787231,
      "learning_rate": 0.00029972468228369354,
      "loss": 4.1592,
      "step": 11220
    },
    {
      "epoch": 0.023395833333333334,
      "grad_norm": 0.8108168840408325,
      "learning_rate": 0.0002997240849246061,
      "loss": 4.0526,
      "step": 11230
    },
    {
      "epoch": 0.023416666666666665,
      "grad_norm": 1.0166338682174683,
      "learning_rate": 0.00029972348691876985,
      "loss": 4.0115,
      "step": 11240
    },
    {
      "epoch": 0.0234375,
      "grad_norm": 0.8622210621833801,
      "learning_rate": 0.0002997228882661874,
      "loss": 4.0564,
      "step": 11250
    },
    {
      "epoch": 0.023458333333333335,
      "grad_norm": 0.9354560375213623,
      "learning_rate": 0.0002997222889668614,
      "loss": 4.0369,
      "step": 11260
    },
    {
      "epoch": 0.023479166666666666,
      "grad_norm": 0.9387855529785156,
      "learning_rate": 0.00029972168902079433,
      "loss": 3.9696,
      "step": 11270
    },
    {
      "epoch": 0.0235,
      "grad_norm": 0.8381744623184204,
      "learning_rate": 0.0002997210884279888,
      "loss": 4.0454,
      "step": 11280
    },
    {
      "epoch": 0.023520833333333335,
      "grad_norm": 0.9276353120803833,
      "learning_rate": 0.00029972048718844747,
      "loss": 4.1896,
      "step": 11290
    },
    {
      "epoch": 0.023541666666666666,
      "grad_norm": 0.9661759734153748,
      "learning_rate": 0.00029971988530217293,
      "loss": 4.0251,
      "step": 11300
    },
    {
      "epoch": 0.0235625,
      "grad_norm": 0.9178288578987122,
      "learning_rate": 0.00029971928276916767,
      "loss": 3.9935,
      "step": 11310
    },
    {
      "epoch": 0.023583333333333335,
      "grad_norm": 0.9038762450218201,
      "learning_rate": 0.00029971867958943446,
      "loss": 4.1352,
      "step": 11320
    },
    {
      "epoch": 0.023604166666666666,
      "grad_norm": 1.0172170400619507,
      "learning_rate": 0.00029971807576297573,
      "loss": 4.2188,
      "step": 11330
    },
    {
      "epoch": 0.023625,
      "grad_norm": 0.8191777467727661,
      "learning_rate": 0.00029971747128979426,
      "loss": 4.0965,
      "step": 11340
    },
    {
      "epoch": 0.023645833333333335,
      "grad_norm": 0.8614866733551025,
      "learning_rate": 0.0002997168661698925,
      "loss": 4.0379,
      "step": 11350
    },
    {
      "epoch": 0.023666666666666666,
      "grad_norm": 0.8880031704902649,
      "learning_rate": 0.00029971626040327316,
      "loss": 4.165,
      "step": 11360
    },
    {
      "epoch": 0.0236875,
      "grad_norm": 1.225572109222412,
      "learning_rate": 0.00029971565398993885,
      "loss": 3.8343,
      "step": 11370
    },
    {
      "epoch": 0.023708333333333335,
      "grad_norm": 0.8210449814796448,
      "learning_rate": 0.0002997150469298922,
      "loss": 3.978,
      "step": 11380
    },
    {
      "epoch": 0.023729166666666666,
      "grad_norm": 0.9902667999267578,
      "learning_rate": 0.00029971443922313575,
      "loss": 3.9446,
      "step": 11390
    },
    {
      "epoch": 0.02375,
      "grad_norm": 0.7885863780975342,
      "learning_rate": 0.0002997138308696722,
      "loss": 4.1039,
      "step": 11400
    },
    {
      "epoch": 0.023770833333333335,
      "grad_norm": 0.8365364074707031,
      "learning_rate": 0.00029971322186950417,
      "loss": 4.0357,
      "step": 11410
    },
    {
      "epoch": 0.023791666666666666,
      "grad_norm": 0.9556369185447693,
      "learning_rate": 0.0002997126122226343,
      "loss": 3.9189,
      "step": 11420
    },
    {
      "epoch": 0.0238125,
      "grad_norm": 0.9085677862167358,
      "learning_rate": 0.0002997120019290652,
      "loss": 4.0772,
      "step": 11430
    },
    {
      "epoch": 0.023833333333333335,
      "grad_norm": 0.9845913648605347,
      "learning_rate": 0.00029971139098879953,
      "loss": 3.8277,
      "step": 11440
    },
    {
      "epoch": 0.023854166666666666,
      "grad_norm": 0.8270093202590942,
      "learning_rate": 0.00029971077940183985,
      "loss": 4.232,
      "step": 11450
    },
    {
      "epoch": 0.023875,
      "grad_norm": 0.9064054489135742,
      "learning_rate": 0.0002997101671681889,
      "loss": 3.9641,
      "step": 11460
    },
    {
      "epoch": 0.023895833333333335,
      "grad_norm": 0.7581167817115784,
      "learning_rate": 0.0002997095542878493,
      "loss": 4.0586,
      "step": 11470
    },
    {
      "epoch": 0.023916666666666666,
      "grad_norm": 0.9204100370407104,
      "learning_rate": 0.0002997089407608237,
      "loss": 4.1889,
      "step": 11480
    },
    {
      "epoch": 0.0239375,
      "grad_norm": 0.9697321653366089,
      "learning_rate": 0.0002997083265871147,
      "loss": 3.9386,
      "step": 11490
    },
    {
      "epoch": 0.023958333333333335,
      "grad_norm": 0.8670743703842163,
      "learning_rate": 0.00029970771176672495,
      "loss": 4.0658,
      "step": 11500
    },
    {
      "epoch": 0.023979166666666666,
      "grad_norm": 0.8086011409759521,
      "learning_rate": 0.00029970709629965724,
      "loss": 4.0686,
      "step": 11510
    },
    {
      "epoch": 0.024,
      "grad_norm": 0.9494633078575134,
      "learning_rate": 0.0002997064801859141,
      "loss": 4.204,
      "step": 11520
    },
    {
      "epoch": 0.024020833333333335,
      "grad_norm": 0.9828088879585266,
      "learning_rate": 0.00029970586342549814,
      "loss": 3.9099,
      "step": 11530
    },
    {
      "epoch": 0.024041666666666666,
      "grad_norm": 0.8706547617912292,
      "learning_rate": 0.00029970524601841223,
      "loss": 4.1493,
      "step": 11540
    },
    {
      "epoch": 0.0240625,
      "grad_norm": 0.99277663230896,
      "learning_rate": 0.0002997046279646588,
      "loss": 4.0736,
      "step": 11550
    },
    {
      "epoch": 0.024083333333333335,
      "grad_norm": 0.8699033260345459,
      "learning_rate": 0.0002997040092642407,
      "loss": 3.8887,
      "step": 11560
    },
    {
      "epoch": 0.024104166666666666,
      "grad_norm": 1.0016510486602783,
      "learning_rate": 0.00029970338991716053,
      "loss": 4.1261,
      "step": 11570
    },
    {
      "epoch": 0.024125,
      "grad_norm": 0.8793927431106567,
      "learning_rate": 0.00029970276992342097,
      "loss": 3.9855,
      "step": 11580
    },
    {
      "epoch": 0.02414583333333333,
      "grad_norm": 1.1882140636444092,
      "learning_rate": 0.0002997021492830247,
      "loss": 4.0677,
      "step": 11590
    },
    {
      "epoch": 0.024166666666666666,
      "grad_norm": 0.9322487711906433,
      "learning_rate": 0.0002997015279959744,
      "loss": 4.1846,
      "step": 11600
    },
    {
      "epoch": 0.0241875,
      "grad_norm": 1.0617856979370117,
      "learning_rate": 0.00029970090606227276,
      "loss": 3.9028,
      "step": 11610
    },
    {
      "epoch": 0.02420833333333333,
      "grad_norm": 0.8267401456832886,
      "learning_rate": 0.0002997002834819225,
      "loss": 4.1305,
      "step": 11620
    },
    {
      "epoch": 0.024229166666666666,
      "grad_norm": 0.8641538619995117,
      "learning_rate": 0.0002996996602549262,
      "loss": 4.1329,
      "step": 11630
    },
    {
      "epoch": 0.02425,
      "grad_norm": 0.9014443755149841,
      "learning_rate": 0.00029969903638128666,
      "loss": 4.0151,
      "step": 11640
    },
    {
      "epoch": 0.024270833333333332,
      "grad_norm": 0.9461457133293152,
      "learning_rate": 0.0002996984118610065,
      "loss": 4.0554,
      "step": 11650
    },
    {
      "epoch": 0.024291666666666666,
      "grad_norm": 1.0932786464691162,
      "learning_rate": 0.0002996977866940885,
      "loss": 4.0661,
      "step": 11660
    },
    {
      "epoch": 0.0243125,
      "grad_norm": 0.9318457245826721,
      "learning_rate": 0.00029969716088053527,
      "loss": 3.8919,
      "step": 11670
    },
    {
      "epoch": 0.024333333333333332,
      "grad_norm": 0.7869840860366821,
      "learning_rate": 0.0002996965344203496,
      "loss": 4.0947,
      "step": 11680
    },
    {
      "epoch": 0.024354166666666666,
      "grad_norm": 0.8918207287788391,
      "learning_rate": 0.00029969590731353414,
      "loss": 4.201,
      "step": 11690
    },
    {
      "epoch": 0.024375,
      "grad_norm": 0.9626954793930054,
      "learning_rate": 0.00029969527956009165,
      "loss": 3.8744,
      "step": 11700
    },
    {
      "epoch": 0.024395833333333332,
      "grad_norm": 0.8035925030708313,
      "learning_rate": 0.00029969465116002475,
      "loss": 4.0591,
      "step": 11710
    },
    {
      "epoch": 0.024416666666666666,
      "grad_norm": 0.8319073915481567,
      "learning_rate": 0.00029969402211333626,
      "loss": 4.0101,
      "step": 11720
    },
    {
      "epoch": 0.0244375,
      "grad_norm": 0.834764838218689,
      "learning_rate": 0.00029969339242002884,
      "loss": 3.9293,
      "step": 11730
    },
    {
      "epoch": 0.024458333333333332,
      "grad_norm": 0.9337142705917358,
      "learning_rate": 0.0002996927620801052,
      "loss": 3.9905,
      "step": 11740
    },
    {
      "epoch": 0.024479166666666666,
      "grad_norm": 0.8090513348579407,
      "learning_rate": 0.0002996921310935681,
      "loss": 4.1999,
      "step": 11750
    },
    {
      "epoch": 0.0245,
      "grad_norm": 0.8323469161987305,
      "learning_rate": 0.00029969149946042017,
      "loss": 4.0175,
      "step": 11760
    },
    {
      "epoch": 0.024520833333333332,
      "grad_norm": 0.9457613825798035,
      "learning_rate": 0.00029969086718066427,
      "loss": 4.0886,
      "step": 11770
    },
    {
      "epoch": 0.024541666666666666,
      "grad_norm": 0.9197525978088379,
      "learning_rate": 0.0002996902342543031,
      "loss": 3.9411,
      "step": 11780
    },
    {
      "epoch": 0.0245625,
      "grad_norm": 0.9073978066444397,
      "learning_rate": 0.0002996896006813393,
      "loss": 4.2741,
      "step": 11790
    },
    {
      "epoch": 0.024583333333333332,
      "grad_norm": 0.8798359632492065,
      "learning_rate": 0.00029968896646177573,
      "loss": 4.034,
      "step": 11800
    },
    {
      "epoch": 0.024604166666666667,
      "grad_norm": 0.9270487427711487,
      "learning_rate": 0.0002996883315956151,
      "loss": 3.9394,
      "step": 11810
    },
    {
      "epoch": 0.024625,
      "grad_norm": 0.8634020686149597,
      "learning_rate": 0.00029968769608286006,
      "loss": 4.1361,
      "step": 11820
    },
    {
      "epoch": 0.024645833333333332,
      "grad_norm": 0.782271683216095,
      "learning_rate": 0.00029968705992351345,
      "loss": 4.2818,
      "step": 11830
    },
    {
      "epoch": 0.024666666666666667,
      "grad_norm": 0.8318779468536377,
      "learning_rate": 0.00029968642311757805,
      "loss": 4.0002,
      "step": 11840
    },
    {
      "epoch": 0.0246875,
      "grad_norm": 0.7912973165512085,
      "learning_rate": 0.0002996857856650565,
      "loss": 4.0727,
      "step": 11850
    },
    {
      "epoch": 0.024708333333333332,
      "grad_norm": 1.0303070545196533,
      "learning_rate": 0.00029968514756595165,
      "loss": 4.0927,
      "step": 11860
    },
    {
      "epoch": 0.024729166666666667,
      "grad_norm": 0.8014335632324219,
      "learning_rate": 0.0002996845088202661,
      "loss": 3.9301,
      "step": 11870
    },
    {
      "epoch": 0.02475,
      "grad_norm": 0.9272903800010681,
      "learning_rate": 0.0002996838694280028,
      "loss": 4.1477,
      "step": 11880
    },
    {
      "epoch": 0.024770833333333332,
      "grad_norm": 0.8557513952255249,
      "learning_rate": 0.0002996832293891644,
      "loss": 4.1443,
      "step": 11890
    },
    {
      "epoch": 0.024791666666666667,
      "grad_norm": 0.8178189396858215,
      "learning_rate": 0.0002996825887037538,
      "loss": 4.0479,
      "step": 11900
    },
    {
      "epoch": 0.0248125,
      "grad_norm": 0.8239704966545105,
      "learning_rate": 0.0002996819473717736,
      "loss": 4.0242,
      "step": 11910
    },
    {
      "epoch": 0.024833333333333332,
      "grad_norm": 0.8839130401611328,
      "learning_rate": 0.0002996813053932266,
      "loss": 3.9996,
      "step": 11920
    },
    {
      "epoch": 0.024854166666666667,
      "grad_norm": 0.9180129766464233,
      "learning_rate": 0.0002996806627681156,
      "loss": 4.1706,
      "step": 11930
    },
    {
      "epoch": 0.024875,
      "grad_norm": 0.9097622632980347,
      "learning_rate": 0.00029968001949644344,
      "loss": 3.9873,
      "step": 11940
    },
    {
      "epoch": 0.024895833333333332,
      "grad_norm": 0.8870061039924622,
      "learning_rate": 0.0002996793755782128,
      "loss": 4.1646,
      "step": 11950
    },
    {
      "epoch": 0.024916666666666667,
      "grad_norm": 0.7925917506217957,
      "learning_rate": 0.0002996787310134265,
      "loss": 3.9,
      "step": 11960
    },
    {
      "epoch": 0.0249375,
      "grad_norm": 0.8051598072052002,
      "learning_rate": 0.0002996780858020874,
      "loss": 3.9708,
      "step": 11970
    },
    {
      "epoch": 0.024958333333333332,
      "grad_norm": 0.7883305549621582,
      "learning_rate": 0.00029967743994419813,
      "loss": 4.0361,
      "step": 11980
    },
    {
      "epoch": 0.024979166666666667,
      "grad_norm": 0.8263134360313416,
      "learning_rate": 0.00029967679343976167,
      "loss": 3.9609,
      "step": 11990
    },
    {
      "epoch": 0.025,
      "grad_norm": 0.9787063598632812,
      "learning_rate": 0.0002996761462887806,
      "loss": 3.9739,
      "step": 12000
    },
    {
      "epoch": 0.025,
      "eval_loss": 4.355993747711182,
      "eval_runtime": 9.4117,
      "eval_samples_per_second": 1.063,
      "eval_steps_per_second": 0.319,
      "step": 12000
    },
    {
      "epoch": 0.025020833333333332,
      "grad_norm": 0.9648151397705078,
      "learning_rate": 0.0002996754984912579,
      "loss": 4.0873,
      "step": 12010
    },
    {
      "epoch": 0.025041666666666667,
      "grad_norm": 0.9900327920913696,
      "learning_rate": 0.00029967485004719625,
      "loss": 4.1845,
      "step": 12020
    },
    {
      "epoch": 0.0250625,
      "grad_norm": 0.7829849720001221,
      "learning_rate": 0.0002996742009565985,
      "loss": 4.098,
      "step": 12030
    },
    {
      "epoch": 0.025083333333333332,
      "grad_norm": 0.7555475831031799,
      "learning_rate": 0.00029967355121946745,
      "loss": 4.1276,
      "step": 12040
    },
    {
      "epoch": 0.025104166666666667,
      "grad_norm": 1.2551724910736084,
      "learning_rate": 0.0002996729008358059,
      "loss": 4.1739,
      "step": 12050
    },
    {
      "epoch": 0.025125,
      "grad_norm": 0.8260138034820557,
      "learning_rate": 0.0002996722498056167,
      "loss": 4.132,
      "step": 12060
    },
    {
      "epoch": 0.025145833333333333,
      "grad_norm": 0.8505834937095642,
      "learning_rate": 0.0002996715981289026,
      "loss": 4.1513,
      "step": 12070
    },
    {
      "epoch": 0.025166666666666667,
      "grad_norm": 0.8663877248764038,
      "learning_rate": 0.0002996709458056664,
      "loss": 4.0009,
      "step": 12080
    },
    {
      "epoch": 0.0251875,
      "grad_norm": 0.9046712517738342,
      "learning_rate": 0.000299670292835911,
      "loss": 3.9447,
      "step": 12090
    },
    {
      "epoch": 0.025208333333333333,
      "grad_norm": 0.8156468272209167,
      "learning_rate": 0.00029966963921963915,
      "loss": 3.9951,
      "step": 12100
    },
    {
      "epoch": 0.025229166666666667,
      "grad_norm": 0.8045362830162048,
      "learning_rate": 0.00029966898495685377,
      "loss": 3.9991,
      "step": 12110
    },
    {
      "epoch": 0.02525,
      "grad_norm": 0.8384324908256531,
      "learning_rate": 0.00029966833004755754,
      "loss": 4.0331,
      "step": 12120
    },
    {
      "epoch": 0.025270833333333333,
      "grad_norm": 0.8372187614440918,
      "learning_rate": 0.0002996676744917534,
      "loss": 4.073,
      "step": 12130
    },
    {
      "epoch": 0.025291666666666667,
      "grad_norm": 0.8713473677635193,
      "learning_rate": 0.00029966701828944417,
      "loss": 4.0687,
      "step": 12140
    },
    {
      "epoch": 0.0253125,
      "grad_norm": 0.8944408297538757,
      "learning_rate": 0.0002996663614406326,
      "loss": 4.1542,
      "step": 12150
    },
    {
      "epoch": 0.025333333333333333,
      "grad_norm": 0.8797274231910706,
      "learning_rate": 0.0002996657039453216,
      "loss": 3.9635,
      "step": 12160
    },
    {
      "epoch": 0.025354166666666667,
      "grad_norm": 0.8559905886650085,
      "learning_rate": 0.00029966504580351404,
      "loss": 4.1181,
      "step": 12170
    },
    {
      "epoch": 0.025375,
      "grad_norm": 1.1843395233154297,
      "learning_rate": 0.00029966438701521273,
      "loss": 4.0031,
      "step": 12180
    },
    {
      "epoch": 0.025395833333333333,
      "grad_norm": 0.9130030274391174,
      "learning_rate": 0.00029966372758042053,
      "loss": 4.0628,
      "step": 12190
    },
    {
      "epoch": 0.025416666666666667,
      "grad_norm": 0.7298511266708374,
      "learning_rate": 0.0002996630674991402,
      "loss": 4.0176,
      "step": 12200
    },
    {
      "epoch": 0.0254375,
      "grad_norm": 0.8563189506530762,
      "learning_rate": 0.0002996624067713747,
      "loss": 4.0227,
      "step": 12210
    },
    {
      "epoch": 0.025458333333333333,
      "grad_norm": 0.9190595746040344,
      "learning_rate": 0.00029966174539712684,
      "loss": 4.0652,
      "step": 12220
    },
    {
      "epoch": 0.025479166666666667,
      "grad_norm": 0.7569317817687988,
      "learning_rate": 0.0002996610833763995,
      "loss": 4.0059,
      "step": 12230
    },
    {
      "epoch": 0.0255,
      "grad_norm": 0.8048116564750671,
      "learning_rate": 0.00029966042070919544,
      "loss": 3.9274,
      "step": 12240
    },
    {
      "epoch": 0.025520833333333333,
      "grad_norm": 0.9239625334739685,
      "learning_rate": 0.0002996597573955177,
      "loss": 4.0971,
      "step": 12250
    },
    {
      "epoch": 0.025541666666666667,
      "grad_norm": 1.0842387676239014,
      "learning_rate": 0.000299659093435369,
      "loss": 4.0068,
      "step": 12260
    },
    {
      "epoch": 0.0255625,
      "grad_norm": 0.8540835976600647,
      "learning_rate": 0.00029965842882875225,
      "loss": 4.0468,
      "step": 12270
    },
    {
      "epoch": 0.025583333333333333,
      "grad_norm": 0.8760429620742798,
      "learning_rate": 0.0002996577635756703,
      "loss": 4.0911,
      "step": 12280
    },
    {
      "epoch": 0.025604166666666667,
      "grad_norm": 0.8791810870170593,
      "learning_rate": 0.00029965709767612613,
      "loss": 3.9895,
      "step": 12290
    },
    {
      "epoch": 0.025625,
      "grad_norm": 1.0496407747268677,
      "learning_rate": 0.00029965643113012247,
      "loss": 4.0144,
      "step": 12300
    },
    {
      "epoch": 0.025645833333333333,
      "grad_norm": 0.9198064208030701,
      "learning_rate": 0.00029965576393766233,
      "loss": 4.0595,
      "step": 12310
    },
    {
      "epoch": 0.025666666666666667,
      "grad_norm": 1.3422293663024902,
      "learning_rate": 0.00029965509609874844,
      "loss": 3.9287,
      "step": 12320
    },
    {
      "epoch": 0.0256875,
      "grad_norm": 0.8336278200149536,
      "learning_rate": 0.00029965442761338383,
      "loss": 4.069,
      "step": 12330
    },
    {
      "epoch": 0.025708333333333333,
      "grad_norm": 0.8513005971908569,
      "learning_rate": 0.0002996537584815713,
      "loss": 4.1971,
      "step": 12340
    },
    {
      "epoch": 0.025729166666666668,
      "grad_norm": 0.8377391695976257,
      "learning_rate": 0.0002996530887033138,
      "loss": 4.0051,
      "step": 12350
    },
    {
      "epoch": 0.02575,
      "grad_norm": 0.8428595662117004,
      "learning_rate": 0.0002996524182786142,
      "loss": 3.9223,
      "step": 12360
    },
    {
      "epoch": 0.025770833333333333,
      "grad_norm": 0.8020024299621582,
      "learning_rate": 0.00029965174720747537,
      "loss": 3.9248,
      "step": 12370
    },
    {
      "epoch": 0.025791666666666668,
      "grad_norm": 0.8445428013801575,
      "learning_rate": 0.0002996510754899002,
      "loss": 4.1044,
      "step": 12380
    },
    {
      "epoch": 0.0258125,
      "grad_norm": 0.8422583341598511,
      "learning_rate": 0.00029965040312589166,
      "loss": 4.0739,
      "step": 12390
    },
    {
      "epoch": 0.025833333333333333,
      "grad_norm": 0.77658611536026,
      "learning_rate": 0.0002996497301154526,
      "loss": 4.0383,
      "step": 12400
    },
    {
      "epoch": 0.025854166666666668,
      "grad_norm": 0.8723292946815491,
      "learning_rate": 0.00029964905645858594,
      "loss": 3.942,
      "step": 12410
    },
    {
      "epoch": 0.025875,
      "grad_norm": 0.8531607389450073,
      "learning_rate": 0.0002996483821552946,
      "loss": 4.1756,
      "step": 12420
    },
    {
      "epoch": 0.025895833333333333,
      "grad_norm": 0.865697979927063,
      "learning_rate": 0.0002996477072055815,
      "loss": 4.0767,
      "step": 12430
    },
    {
      "epoch": 0.025916666666666668,
      "grad_norm": 0.7985309362411499,
      "learning_rate": 0.00029964703160944954,
      "loss": 4.0182,
      "step": 12440
    },
    {
      "epoch": 0.0259375,
      "grad_norm": 0.9476754665374756,
      "learning_rate": 0.0002996463553669016,
      "loss": 4.0276,
      "step": 12450
    },
    {
      "epoch": 0.025958333333333333,
      "grad_norm": 0.8182475566864014,
      "learning_rate": 0.00029964567847794063,
      "loss": 4.037,
      "step": 12460
    },
    {
      "epoch": 0.025979166666666668,
      "grad_norm": 0.7820776700973511,
      "learning_rate": 0.0002996450009425696,
      "loss": 4.1314,
      "step": 12470
    },
    {
      "epoch": 0.026,
      "grad_norm": 0.953820526599884,
      "learning_rate": 0.0002996443227607914,
      "loss": 4.0649,
      "step": 12480
    },
    {
      "epoch": 0.026020833333333333,
      "grad_norm": 0.9297104477882385,
      "learning_rate": 0.00029964364393260894,
      "loss": 3.9231,
      "step": 12490
    },
    {
      "epoch": 0.026041666666666668,
      "grad_norm": 0.8150413036346436,
      "learning_rate": 0.0002996429644580252,
      "loss": 4.0518,
      "step": 12500
    },
    {
      "epoch": 0.0260625,
      "grad_norm": 0.9100131392478943,
      "learning_rate": 0.00029964228433704303,
      "loss": 4.112,
      "step": 12510
    },
    {
      "epoch": 0.026083333333333333,
      "grad_norm": 0.8346758484840393,
      "learning_rate": 0.00029964160356966545,
      "loss": 4.0265,
      "step": 12520
    },
    {
      "epoch": 0.026104166666666668,
      "grad_norm": 1.0204684734344482,
      "learning_rate": 0.00029964092215589537,
      "loss": 4.0501,
      "step": 12530
    },
    {
      "epoch": 0.026125,
      "grad_norm": 0.8823035955429077,
      "learning_rate": 0.00029964024009573577,
      "loss": 4.1322,
      "step": 12540
    },
    {
      "epoch": 0.026145833333333333,
      "grad_norm": 1.1147531270980835,
      "learning_rate": 0.00029963955738918953,
      "loss": 4.002,
      "step": 12550
    },
    {
      "epoch": 0.026166666666666668,
      "grad_norm": 0.8762080669403076,
      "learning_rate": 0.0002996388740362597,
      "loss": 4.1656,
      "step": 12560
    },
    {
      "epoch": 0.0261875,
      "grad_norm": 0.8316856026649475,
      "learning_rate": 0.0002996381900369491,
      "loss": 4.1048,
      "step": 12570
    },
    {
      "epoch": 0.026208333333333333,
      "grad_norm": 0.9266704320907593,
      "learning_rate": 0.00029963750539126075,
      "loss": 4.2185,
      "step": 12580
    },
    {
      "epoch": 0.026229166666666668,
      "grad_norm": 0.9004167318344116,
      "learning_rate": 0.00029963682009919763,
      "loss": 4.0116,
      "step": 12590
    },
    {
      "epoch": 0.02625,
      "grad_norm": 0.8255387544631958,
      "learning_rate": 0.0002996361341607627,
      "loss": 3.9482,
      "step": 12600
    },
    {
      "epoch": 0.026270833333333334,
      "grad_norm": 0.8466336131095886,
      "learning_rate": 0.00029963544757595885,
      "loss": 3.9322,
      "step": 12610
    },
    {
      "epoch": 0.026291666666666668,
      "grad_norm": 0.8526718616485596,
      "learning_rate": 0.0002996347603447891,
      "loss": 4.0327,
      "step": 12620
    },
    {
      "epoch": 0.0263125,
      "grad_norm": 0.9007949829101562,
      "learning_rate": 0.00029963407246725644,
      "loss": 4.0894,
      "step": 12630
    },
    {
      "epoch": 0.026333333333333334,
      "grad_norm": 0.810897707939148,
      "learning_rate": 0.0002996333839433638,
      "loss": 3.9678,
      "step": 12640
    },
    {
      "epoch": 0.026354166666666668,
      "grad_norm": 0.9200378656387329,
      "learning_rate": 0.0002996326947731142,
      "loss": 3.911,
      "step": 12650
    },
    {
      "epoch": 0.026375,
      "grad_norm": 0.9246525764465332,
      "learning_rate": 0.00029963200495651055,
      "loss": 3.8677,
      "step": 12660
    },
    {
      "epoch": 0.026395833333333334,
      "grad_norm": 0.8256850242614746,
      "learning_rate": 0.0002996313144935559,
      "loss": 3.9736,
      "step": 12670
    },
    {
      "epoch": 0.026416666666666668,
      "grad_norm": 0.8702117204666138,
      "learning_rate": 0.0002996306233842532,
      "loss": 3.9605,
      "step": 12680
    },
    {
      "epoch": 0.0264375,
      "grad_norm": 0.8772563934326172,
      "learning_rate": 0.0002996299316286054,
      "loss": 4.2239,
      "step": 12690
    },
    {
      "epoch": 0.026458333333333334,
      "grad_norm": 0.9275411367416382,
      "learning_rate": 0.0002996292392266155,
      "loss": 3.9043,
      "step": 12700
    },
    {
      "epoch": 0.026479166666666668,
      "grad_norm": 0.9481557607650757,
      "learning_rate": 0.0002996285461782866,
      "loss": 4.0144,
      "step": 12710
    },
    {
      "epoch": 0.0265,
      "grad_norm": 0.978755533695221,
      "learning_rate": 0.00029962785248362157,
      "loss": 3.953,
      "step": 12720
    },
    {
      "epoch": 0.026520833333333334,
      "grad_norm": 0.8623465299606323,
      "learning_rate": 0.0002996271581426234,
      "loss": 4.0704,
      "step": 12730
    },
    {
      "epoch": 0.02654166666666667,
      "grad_norm": 0.8921887278556824,
      "learning_rate": 0.0002996264631552952,
      "loss": 3.8152,
      "step": 12740
    },
    {
      "epoch": 0.0265625,
      "grad_norm": 0.839424192905426,
      "learning_rate": 0.0002996257675216399,
      "loss": 4.1187,
      "step": 12750
    },
    {
      "epoch": 0.026583333333333334,
      "grad_norm": 0.8677070140838623,
      "learning_rate": 0.00029962507124166044,
      "loss": 4.1257,
      "step": 12760
    },
    {
      "epoch": 0.02660416666666667,
      "grad_norm": 1.0243782997131348,
      "learning_rate": 0.00029962437431536,
      "loss": 4.018,
      "step": 12770
    },
    {
      "epoch": 0.026625,
      "grad_norm": 0.789656937122345,
      "learning_rate": 0.00029962367674274144,
      "loss": 4.0919,
      "step": 12780
    },
    {
      "epoch": 0.026645833333333334,
      "grad_norm": 0.9391693472862244,
      "learning_rate": 0.00029962297852380776,
      "loss": 3.9415,
      "step": 12790
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 0.8821779489517212,
      "learning_rate": 0.0002996222796585621,
      "loss": 4.0768,
      "step": 12800
    },
    {
      "epoch": 0.0266875,
      "grad_norm": 0.8409366607666016,
      "learning_rate": 0.0002996215801470074,
      "loss": 4.0558,
      "step": 12810
    },
    {
      "epoch": 0.026708333333333334,
      "grad_norm": 0.8120698928833008,
      "learning_rate": 0.0002996208799891467,
      "loss": 4.193,
      "step": 12820
    },
    {
      "epoch": 0.026729166666666665,
      "grad_norm": 0.8941954970359802,
      "learning_rate": 0.00029962017918498305,
      "loss": 3.9991,
      "step": 12830
    },
    {
      "epoch": 0.02675,
      "grad_norm": 0.8437336683273315,
      "learning_rate": 0.0002996194777345194,
      "loss": 4.0258,
      "step": 12840
    },
    {
      "epoch": 0.026770833333333334,
      "grad_norm": 0.9636651277542114,
      "learning_rate": 0.0002996187756377589,
      "loss": 4.0927,
      "step": 12850
    },
    {
      "epoch": 0.026791666666666665,
      "grad_norm": 0.8670513033866882,
      "learning_rate": 0.00029961807289470446,
      "loss": 3.9893,
      "step": 12860
    },
    {
      "epoch": 0.0268125,
      "grad_norm": 0.8243114352226257,
      "learning_rate": 0.00029961736950535916,
      "loss": 4.0284,
      "step": 12870
    },
    {
      "epoch": 0.026833333333333334,
      "grad_norm": 0.867907702922821,
      "learning_rate": 0.0002996166654697261,
      "loss": 4.0451,
      "step": 12880
    },
    {
      "epoch": 0.026854166666666665,
      "grad_norm": 0.9168021082878113,
      "learning_rate": 0.00029961596078780824,
      "loss": 3.9235,
      "step": 12890
    },
    {
      "epoch": 0.026875,
      "grad_norm": 0.9834937453269958,
      "learning_rate": 0.00029961525545960864,
      "loss": 4.0184,
      "step": 12900
    },
    {
      "epoch": 0.026895833333333334,
      "grad_norm": 0.9485666155815125,
      "learning_rate": 0.0002996145494851303,
      "loss": 4.1428,
      "step": 12910
    },
    {
      "epoch": 0.026916666666666665,
      "grad_norm": 0.9374496936798096,
      "learning_rate": 0.00029961384286437644,
      "loss": 4.0228,
      "step": 12920
    },
    {
      "epoch": 0.0269375,
      "grad_norm": 1.150719165802002,
      "learning_rate": 0.0002996131355973499,
      "loss": 4.0496,
      "step": 12930
    },
    {
      "epoch": 0.026958333333333334,
      "grad_norm": 0.8332419991493225,
      "learning_rate": 0.00029961242768405396,
      "loss": 4.3133,
      "step": 12940
    },
    {
      "epoch": 0.026979166666666665,
      "grad_norm": 1.0052791833877563,
      "learning_rate": 0.00029961171912449143,
      "loss": 4.0232,
      "step": 12950
    },
    {
      "epoch": 0.027,
      "grad_norm": 0.8669558167457581,
      "learning_rate": 0.0002996110099186655,
      "loss": 4.0503,
      "step": 12960
    },
    {
      "epoch": 0.027020833333333334,
      "grad_norm": 0.8199687600135803,
      "learning_rate": 0.00029961030006657934,
      "loss": 3.9457,
      "step": 12970
    },
    {
      "epoch": 0.027041666666666665,
      "grad_norm": 0.7889499664306641,
      "learning_rate": 0.0002996095895682358,
      "loss": 4.09,
      "step": 12980
    },
    {
      "epoch": 0.0270625,
      "grad_norm": 0.8110848665237427,
      "learning_rate": 0.0002996088784236381,
      "loss": 4.0489,
      "step": 12990
    },
    {
      "epoch": 0.027083333333333334,
      "grad_norm": 0.8707507848739624,
      "learning_rate": 0.00029960816663278925,
      "loss": 4.0854,
      "step": 13000
    },
    {
      "epoch": 0.027083333333333334,
      "eval_loss": 4.359851837158203,
      "eval_runtime": 9.5293,
      "eval_samples_per_second": 1.049,
      "eval_steps_per_second": 0.315,
      "step": 13000
    },
    {
      "epoch": 0.027104166666666665,
      "grad_norm": 0.8259526491165161,
      "learning_rate": 0.0002996074541956923,
      "loss": 3.9867,
      "step": 13010
    },
    {
      "epoch": 0.027125,
      "grad_norm": 0.8513361811637878,
      "learning_rate": 0.0002996067411123504,
      "loss": 4.2101,
      "step": 13020
    },
    {
      "epoch": 0.027145833333333334,
      "grad_norm": 0.8666677474975586,
      "learning_rate": 0.00029960602738276663,
      "loss": 4.1288,
      "step": 13030
    },
    {
      "epoch": 0.027166666666666665,
      "grad_norm": 0.8560096621513367,
      "learning_rate": 0.00029960531300694403,
      "loss": 4.0676,
      "step": 13040
    },
    {
      "epoch": 0.0271875,
      "grad_norm": 0.8779157996177673,
      "learning_rate": 0.00029960459798488565,
      "loss": 4.3977,
      "step": 13050
    },
    {
      "epoch": 0.027208333333333334,
      "grad_norm": 0.8502326011657715,
      "learning_rate": 0.0002996038823165947,
      "loss": 4.1232,
      "step": 13060
    },
    {
      "epoch": 0.027229166666666665,
      "grad_norm": 0.8127399682998657,
      "learning_rate": 0.00029960316600207413,
      "loss": 3.9757,
      "step": 13070
    },
    {
      "epoch": 0.02725,
      "grad_norm": 0.9204973578453064,
      "learning_rate": 0.0002996024490413271,
      "loss": 3.9006,
      "step": 13080
    },
    {
      "epoch": 0.027270833333333334,
      "grad_norm": 0.7315559387207031,
      "learning_rate": 0.00029960173143435675,
      "loss": 4.122,
      "step": 13090
    },
    {
      "epoch": 0.027291666666666665,
      "grad_norm": 0.7884310483932495,
      "learning_rate": 0.0002996010131811661,
      "loss": 3.988,
      "step": 13100
    },
    {
      "epoch": 0.0273125,
      "grad_norm": 0.7562890648841858,
      "learning_rate": 0.0002996002942817583,
      "loss": 4.0558,
      "step": 13110
    },
    {
      "epoch": 0.027333333333333334,
      "grad_norm": 0.8700065016746521,
      "learning_rate": 0.00029959957473613645,
      "loss": 4.1028,
      "step": 13120
    },
    {
      "epoch": 0.027354166666666666,
      "grad_norm": 0.9044538736343384,
      "learning_rate": 0.00029959885454430363,
      "loss": 4.0376,
      "step": 13130
    },
    {
      "epoch": 0.027375,
      "grad_norm": 1.1886190176010132,
      "learning_rate": 0.000299598133706263,
      "loss": 4.0132,
      "step": 13140
    },
    {
      "epoch": 0.027395833333333335,
      "grad_norm": 0.822162926197052,
      "learning_rate": 0.00029959741222201767,
      "loss": 4.038,
      "step": 13150
    },
    {
      "epoch": 0.027416666666666666,
      "grad_norm": 0.7957779765129089,
      "learning_rate": 0.0002995966900915707,
      "loss": 3.956,
      "step": 13160
    },
    {
      "epoch": 0.0274375,
      "grad_norm": 0.8780480623245239,
      "learning_rate": 0.0002995959673149252,
      "loss": 4.3233,
      "step": 13170
    },
    {
      "epoch": 0.027458333333333335,
      "grad_norm": 0.8577442169189453,
      "learning_rate": 0.0002995952438920844,
      "loss": 4.1567,
      "step": 13180
    },
    {
      "epoch": 0.027479166666666666,
      "grad_norm": 0.7436883449554443,
      "learning_rate": 0.0002995945198230514,
      "loss": 4.0913,
      "step": 13190
    },
    {
      "epoch": 0.0275,
      "grad_norm": 0.875278890132904,
      "learning_rate": 0.0002995937951078292,
      "loss": 4.0634,
      "step": 13200
    },
    {
      "epoch": 0.027520833333333335,
      "grad_norm": 0.8415312170982361,
      "learning_rate": 0.00029959306974642106,
      "loss": 4.0181,
      "step": 13210
    },
    {
      "epoch": 0.027541666666666666,
      "grad_norm": 0.8785003423690796,
      "learning_rate": 0.00029959234373883004,
      "loss": 3.9336,
      "step": 13220
    },
    {
      "epoch": 0.0275625,
      "grad_norm": 0.8308568596839905,
      "learning_rate": 0.00029959161708505936,
      "loss": 4.2094,
      "step": 13230
    },
    {
      "epoch": 0.027583333333333335,
      "grad_norm": 0.818951427936554,
      "learning_rate": 0.00029959088978511204,
      "loss": 4.0752,
      "step": 13240
    },
    {
      "epoch": 0.027604166666666666,
      "grad_norm": 0.955394983291626,
      "learning_rate": 0.00029959016183899134,
      "loss": 3.9359,
      "step": 13250
    },
    {
      "epoch": 0.027625,
      "grad_norm": 0.8723248839378357,
      "learning_rate": 0.00029958943324670035,
      "loss": 3.9903,
      "step": 13260
    },
    {
      "epoch": 0.027645833333333335,
      "grad_norm": 0.7435494065284729,
      "learning_rate": 0.00029958870400824216,
      "loss": 4.0909,
      "step": 13270
    },
    {
      "epoch": 0.027666666666666666,
      "grad_norm": 0.9011809229850769,
      "learning_rate": 0.00029958797412362,
      "loss": 4.1353,
      "step": 13280
    },
    {
      "epoch": 0.0276875,
      "grad_norm": 0.7393107414245605,
      "learning_rate": 0.0002995872435928371,
      "loss": 4.0422,
      "step": 13290
    },
    {
      "epoch": 0.027708333333333335,
      "grad_norm": 0.8635237812995911,
      "learning_rate": 0.00029958651241589646,
      "loss": 3.9878,
      "step": 13300
    },
    {
      "epoch": 0.027729166666666666,
      "grad_norm": 0.9227210879325867,
      "learning_rate": 0.0002995857805928012,
      "loss": 3.8942,
      "step": 13310
    },
    {
      "epoch": 0.02775,
      "grad_norm": 0.8019893765449524,
      "learning_rate": 0.00029958504812355473,
      "loss": 3.9775,
      "step": 13320
    },
    {
      "epoch": 0.027770833333333335,
      "grad_norm": 0.8776654005050659,
      "learning_rate": 0.00029958431500815995,
      "loss": 4.0897,
      "step": 13330
    },
    {
      "epoch": 0.027791666666666666,
      "grad_norm": 0.8234403729438782,
      "learning_rate": 0.0002995835812466202,
      "loss": 4.1636,
      "step": 13340
    },
    {
      "epoch": 0.0278125,
      "grad_norm": 0.8834239840507507,
      "learning_rate": 0.0002995828468389386,
      "loss": 4.1159,
      "step": 13350
    },
    {
      "epoch": 0.027833333333333335,
      "grad_norm": 0.8409972190856934,
      "learning_rate": 0.0002995821117851183,
      "loss": 4.1387,
      "step": 13360
    },
    {
      "epoch": 0.027854166666666666,
      "grad_norm": 0.8174935579299927,
      "learning_rate": 0.00029958137608516246,
      "loss": 4.1037,
      "step": 13370
    },
    {
      "epoch": 0.027875,
      "grad_norm": 1.0774798393249512,
      "learning_rate": 0.00029958063973907424,
      "loss": 3.8952,
      "step": 13380
    },
    {
      "epoch": 0.027895833333333335,
      "grad_norm": 1.0032036304473877,
      "learning_rate": 0.00029957990274685694,
      "loss": 4.0937,
      "step": 13390
    },
    {
      "epoch": 0.027916666666666666,
      "grad_norm": 0.8382406830787659,
      "learning_rate": 0.0002995791651085136,
      "loss": 4.1684,
      "step": 13400
    },
    {
      "epoch": 0.0279375,
      "grad_norm": 0.7782190442085266,
      "learning_rate": 0.00029957842682404757,
      "loss": 4.0188,
      "step": 13410
    },
    {
      "epoch": 0.027958333333333335,
      "grad_norm": 0.8803874850273132,
      "learning_rate": 0.0002995776878934619,
      "loss": 4.0396,
      "step": 13420
    },
    {
      "epoch": 0.027979166666666666,
      "grad_norm": 0.827543318271637,
      "learning_rate": 0.0002995769483167598,
      "loss": 4.2623,
      "step": 13430
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.861603856086731,
      "learning_rate": 0.0002995762080939445,
      "loss": 3.97,
      "step": 13440
    },
    {
      "epoch": 0.02802083333333333,
      "grad_norm": 0.9303983449935913,
      "learning_rate": 0.0002995754672250192,
      "loss": 4.1121,
      "step": 13450
    },
    {
      "epoch": 0.028041666666666666,
      "grad_norm": 0.9568511247634888,
      "learning_rate": 0.0002995747257099871,
      "loss": 3.9798,
      "step": 13460
    },
    {
      "epoch": 0.0280625,
      "grad_norm": 0.8132941126823425,
      "learning_rate": 0.00029957398354885133,
      "loss": 4.019,
      "step": 13470
    },
    {
      "epoch": 0.02808333333333333,
      "grad_norm": 0.9443039894104004,
      "learning_rate": 0.0002995732407416152,
      "loss": 4.1122,
      "step": 13480
    },
    {
      "epoch": 0.028104166666666666,
      "grad_norm": 0.9273906350135803,
      "learning_rate": 0.0002995724972882819,
      "loss": 4.0012,
      "step": 13490
    },
    {
      "epoch": 0.028125,
      "grad_norm": 0.7813358306884766,
      "learning_rate": 0.0002995717531888546,
      "loss": 3.9752,
      "step": 13500
    },
    {
      "epoch": 0.02814583333333333,
      "grad_norm": 0.9638699293136597,
      "learning_rate": 0.0002995710084433365,
      "loss": 4.0382,
      "step": 13510
    },
    {
      "epoch": 0.028166666666666666,
      "grad_norm": 1.0133676528930664,
      "learning_rate": 0.0002995702630517309,
      "loss": 4.0428,
      "step": 13520
    },
    {
      "epoch": 0.0281875,
      "grad_norm": 1.0262118577957153,
      "learning_rate": 0.0002995695170140409,
      "loss": 4.3586,
      "step": 13530
    },
    {
      "epoch": 0.028208333333333332,
      "grad_norm": 0.92856365442276,
      "learning_rate": 0.00029956877033026984,
      "loss": 3.9101,
      "step": 13540
    },
    {
      "epoch": 0.028229166666666666,
      "grad_norm": 0.8816470503807068,
      "learning_rate": 0.0002995680230004209,
      "loss": 4.1489,
      "step": 13550
    },
    {
      "epoch": 0.02825,
      "grad_norm": 1.0170079469680786,
      "learning_rate": 0.0002995672750244973,
      "loss": 4.1837,
      "step": 13560
    },
    {
      "epoch": 0.028270833333333332,
      "grad_norm": 0.9074510931968689,
      "learning_rate": 0.00029956652640250223,
      "loss": 4.1081,
      "step": 13570
    },
    {
      "epoch": 0.028291666666666666,
      "grad_norm": 0.8010416030883789,
      "learning_rate": 0.000299565777134439,
      "loss": 4.072,
      "step": 13580
    },
    {
      "epoch": 0.0283125,
      "grad_norm": 0.7508525252342224,
      "learning_rate": 0.0002995650272203108,
      "loss": 4.0573,
      "step": 13590
    },
    {
      "epoch": 0.028333333333333332,
      "grad_norm": 0.9767383933067322,
      "learning_rate": 0.0002995642766601209,
      "loss": 4.0596,
      "step": 13600
    },
    {
      "epoch": 0.028354166666666666,
      "grad_norm": 0.9028267860412598,
      "learning_rate": 0.00029956352545387256,
      "loss": 3.9044,
      "step": 13610
    },
    {
      "epoch": 0.028375,
      "grad_norm": 0.987820565700531,
      "learning_rate": 0.000299562773601569,
      "loss": 3.8103,
      "step": 13620
    },
    {
      "epoch": 0.028395833333333332,
      "grad_norm": 0.7659754753112793,
      "learning_rate": 0.0002995620211032134,
      "loss": 3.9897,
      "step": 13630
    },
    {
      "epoch": 0.028416666666666666,
      "grad_norm": 0.8494104146957397,
      "learning_rate": 0.00029956126795880906,
      "loss": 3.9812,
      "step": 13640
    },
    {
      "epoch": 0.0284375,
      "grad_norm": 0.8383607268333435,
      "learning_rate": 0.00029956051416835924,
      "loss": 4.2454,
      "step": 13650
    },
    {
      "epoch": 0.028458333333333332,
      "grad_norm": 0.9371084570884705,
      "learning_rate": 0.00029955975973186723,
      "loss": 3.9576,
      "step": 13660
    },
    {
      "epoch": 0.028479166666666667,
      "grad_norm": 0.9145421385765076,
      "learning_rate": 0.0002995590046493363,
      "loss": 4.195,
      "step": 13670
    },
    {
      "epoch": 0.0285,
      "grad_norm": 0.9933358430862427,
      "learning_rate": 0.0002995582489207696,
      "loss": 4.0705,
      "step": 13680
    },
    {
      "epoch": 0.028520833333333332,
      "grad_norm": 0.7886926531791687,
      "learning_rate": 0.0002995574925461705,
      "loss": 4.1436,
      "step": 13690
    },
    {
      "epoch": 0.028541666666666667,
      "grad_norm": 0.8565403819084167,
      "learning_rate": 0.0002995567355255422,
      "loss": 3.9428,
      "step": 13700
    },
    {
      "epoch": 0.0285625,
      "grad_norm": 0.9245144128799438,
      "learning_rate": 0.00029955597785888806,
      "loss": 4.0552,
      "step": 13710
    },
    {
      "epoch": 0.028583333333333332,
      "grad_norm": 0.9167112708091736,
      "learning_rate": 0.00029955521954621125,
      "loss": 3.9909,
      "step": 13720
    },
    {
      "epoch": 0.028604166666666667,
      "grad_norm": 0.8368225693702698,
      "learning_rate": 0.00029955446058751507,
      "loss": 4.1241,
      "step": 13730
    },
    {
      "epoch": 0.028625,
      "grad_norm": 0.9742733836174011,
      "learning_rate": 0.0002995537009828028,
      "loss": 3.9613,
      "step": 13740
    },
    {
      "epoch": 0.028645833333333332,
      "grad_norm": 0.7571779489517212,
      "learning_rate": 0.0002995529407320778,
      "loss": 3.9219,
      "step": 13750
    },
    {
      "epoch": 0.028666666666666667,
      "grad_norm": 0.821368932723999,
      "learning_rate": 0.0002995521798353433,
      "loss": 4.2434,
      "step": 13760
    },
    {
      "epoch": 0.0286875,
      "grad_norm": 0.88266521692276,
      "learning_rate": 0.0002995514182926026,
      "loss": 4.0037,
      "step": 13770
    },
    {
      "epoch": 0.028708333333333332,
      "grad_norm": 0.959341287612915,
      "learning_rate": 0.0002995506561038589,
      "loss": 4.0222,
      "step": 13780
    },
    {
      "epoch": 0.028729166666666667,
      "grad_norm": 0.7965496182441711,
      "learning_rate": 0.00029954989326911555,
      "loss": 4.0164,
      "step": 13790
    },
    {
      "epoch": 0.02875,
      "grad_norm": 0.8554810881614685,
      "learning_rate": 0.00029954912978837593,
      "loss": 3.9433,
      "step": 13800
    },
    {
      "epoch": 0.028770833333333332,
      "grad_norm": 0.9147219061851501,
      "learning_rate": 0.00029954836566164323,
      "loss": 4.1305,
      "step": 13810
    },
    {
      "epoch": 0.028791666666666667,
      "grad_norm": 0.9397408366203308,
      "learning_rate": 0.00029954760088892076,
      "loss": 3.913,
      "step": 13820
    },
    {
      "epoch": 0.0288125,
      "grad_norm": 0.9073673486709595,
      "learning_rate": 0.0002995468354702119,
      "loss": 4.0855,
      "step": 13830
    },
    {
      "epoch": 0.028833333333333332,
      "grad_norm": 0.7644234895706177,
      "learning_rate": 0.0002995460694055199,
      "loss": 4.0826,
      "step": 13840
    },
    {
      "epoch": 0.028854166666666667,
      "grad_norm": 0.8978095650672913,
      "learning_rate": 0.00029954530269484805,
      "loss": 4.147,
      "step": 13850
    },
    {
      "epoch": 0.028875,
      "grad_norm": 0.7489539384841919,
      "learning_rate": 0.00029954453533819966,
      "loss": 4.0548,
      "step": 13860
    },
    {
      "epoch": 0.028895833333333332,
      "grad_norm": 0.9819786548614502,
      "learning_rate": 0.0002995437673355781,
      "loss": 4.1459,
      "step": 13870
    },
    {
      "epoch": 0.028916666666666667,
      "grad_norm": 0.935992956161499,
      "learning_rate": 0.0002995429986869867,
      "loss": 4.1125,
      "step": 13880
    },
    {
      "epoch": 0.0289375,
      "grad_norm": 1.3112685680389404,
      "learning_rate": 0.0002995422293924287,
      "loss": 4.027,
      "step": 13890
    },
    {
      "epoch": 0.028958333333333332,
      "grad_norm": 0.8548194766044617,
      "learning_rate": 0.0002995414594519074,
      "loss": 3.9184,
      "step": 13900
    },
    {
      "epoch": 0.028979166666666667,
      "grad_norm": 0.8113975524902344,
      "learning_rate": 0.0002995406888654263,
      "loss": 4.0994,
      "step": 13910
    },
    {
      "epoch": 0.029,
      "grad_norm": 0.9581493139266968,
      "learning_rate": 0.00029953991763298856,
      "loss": 4.0694,
      "step": 13920
    },
    {
      "epoch": 0.029020833333333333,
      "grad_norm": 0.7941803932189941,
      "learning_rate": 0.00029953914575459755,
      "loss": 4.1715,
      "step": 13930
    },
    {
      "epoch": 0.029041666666666667,
      "grad_norm": 0.9321348667144775,
      "learning_rate": 0.00029953837323025667,
      "loss": 4.0293,
      "step": 13940
    },
    {
      "epoch": 0.0290625,
      "grad_norm": 1.9892157316207886,
      "learning_rate": 0.00029953760005996916,
      "loss": 3.8948,
      "step": 13950
    },
    {
      "epoch": 0.029083333333333333,
      "grad_norm": 1.0032389163970947,
      "learning_rate": 0.0002995368262437384,
      "loss": 4.0357,
      "step": 13960
    },
    {
      "epoch": 0.029104166666666667,
      "grad_norm": 0.8386779427528381,
      "learning_rate": 0.00029953605178156784,
      "loss": 4.1822,
      "step": 13970
    },
    {
      "epoch": 0.029125,
      "grad_norm": 0.7913174629211426,
      "learning_rate": 0.00029953527667346064,
      "loss": 4.188,
      "step": 13980
    },
    {
      "epoch": 0.029145833333333333,
      "grad_norm": 1.1361711025238037,
      "learning_rate": 0.00029953450091942026,
      "loss": 4.2595,
      "step": 13990
    },
    {
      "epoch": 0.029166666666666667,
      "grad_norm": 0.8619164228439331,
      "learning_rate": 0.00029953372451945,
      "loss": 3.9751,
      "step": 14000
    },
    {
      "epoch": 0.029166666666666667,
      "eval_loss": 4.356916427612305,
      "eval_runtime": 9.3544,
      "eval_samples_per_second": 1.069,
      "eval_steps_per_second": 0.321,
      "step": 14000
    },
    {
      "epoch": 0.0291875,
      "grad_norm": 0.7936063408851624,
      "learning_rate": 0.00029953294747355326,
      "loss": 4.091,
      "step": 14010
    },
    {
      "epoch": 0.029208333333333333,
      "grad_norm": 1.0108964443206787,
      "learning_rate": 0.00029953216978173335,
      "loss": 4.0172,
      "step": 14020
    },
    {
      "epoch": 0.029229166666666667,
      "grad_norm": 0.9538745880126953,
      "learning_rate": 0.0002995313914439937,
      "loss": 4.1773,
      "step": 14030
    },
    {
      "epoch": 0.02925,
      "grad_norm": 0.856364369392395,
      "learning_rate": 0.00029953061246033765,
      "loss": 3.9308,
      "step": 14040
    },
    {
      "epoch": 0.029270833333333333,
      "grad_norm": 0.8447313904762268,
      "learning_rate": 0.0002995298328307685,
      "loss": 4.0601,
      "step": 14050
    },
    {
      "epoch": 0.029291666666666667,
      "grad_norm": 0.8464942574501038,
      "learning_rate": 0.0002995290525552897,
      "loss": 4.0141,
      "step": 14060
    },
    {
      "epoch": 0.0293125,
      "grad_norm": 0.9490212202072144,
      "learning_rate": 0.0002995282716339045,
      "loss": 4.1654,
      "step": 14070
    },
    {
      "epoch": 0.029333333333333333,
      "grad_norm": 0.8684578537940979,
      "learning_rate": 0.0002995274900666164,
      "loss": 4.1965,
      "step": 14080
    },
    {
      "epoch": 0.029354166666666667,
      "grad_norm": 0.998436450958252,
      "learning_rate": 0.00029952670785342875,
      "loss": 3.9991,
      "step": 14090
    },
    {
      "epoch": 0.029375,
      "grad_norm": 0.7740040421485901,
      "learning_rate": 0.0002995259249943449,
      "loss": 4.2114,
      "step": 14100
    },
    {
      "epoch": 0.029395833333333333,
      "grad_norm": 1.4362983703613281,
      "learning_rate": 0.0002995251414893682,
      "loss": 3.9309,
      "step": 14110
    },
    {
      "epoch": 0.029416666666666667,
      "grad_norm": 0.8584771156311035,
      "learning_rate": 0.0002995243573385021,
      "loss": 4.0263,
      "step": 14120
    },
    {
      "epoch": 0.0294375,
      "grad_norm": 0.8559417724609375,
      "learning_rate": 0.00029952357254175,
      "loss": 4.1697,
      "step": 14130
    },
    {
      "epoch": 0.029458333333333333,
      "grad_norm": 0.9709491729736328,
      "learning_rate": 0.0002995227870991152,
      "loss": 4.2842,
      "step": 14140
    },
    {
      "epoch": 0.029479166666666667,
      "grad_norm": 0.8047007322311401,
      "learning_rate": 0.00029952200101060114,
      "loss": 3.9945,
      "step": 14150
    },
    {
      "epoch": 0.0295,
      "grad_norm": 0.8429526090621948,
      "learning_rate": 0.00029952121427621127,
      "loss": 4.2002,
      "step": 14160
    },
    {
      "epoch": 0.029520833333333333,
      "grad_norm": 0.946507453918457,
      "learning_rate": 0.0002995204268959489,
      "loss": 4.1771,
      "step": 14170
    },
    {
      "epoch": 0.029541666666666667,
      "grad_norm": 0.8206014037132263,
      "learning_rate": 0.00029951963886981744,
      "loss": 3.8681,
      "step": 14180
    },
    {
      "epoch": 0.0295625,
      "grad_norm": 0.8725135922431946,
      "learning_rate": 0.0002995188501978204,
      "loss": 4.0012,
      "step": 14190
    },
    {
      "epoch": 0.029583333333333333,
      "grad_norm": 0.8647250533103943,
      "learning_rate": 0.0002995180608799611,
      "loss": 3.835,
      "step": 14200
    },
    {
      "epoch": 0.029604166666666668,
      "grad_norm": 0.8583681583404541,
      "learning_rate": 0.0002995172709162429,
      "loss": 4.0018,
      "step": 14210
    },
    {
      "epoch": 0.029625,
      "grad_norm": 0.9821990728378296,
      "learning_rate": 0.0002995164803066693,
      "loss": 4.0503,
      "step": 14220
    },
    {
      "epoch": 0.029645833333333333,
      "grad_norm": 0.8250752091407776,
      "learning_rate": 0.0002995156890512437,
      "loss": 4.0846,
      "step": 14230
    },
    {
      "epoch": 0.029666666666666668,
      "grad_norm": 0.9520192742347717,
      "learning_rate": 0.0002995148971499695,
      "loss": 3.9514,
      "step": 14240
    },
    {
      "epoch": 0.0296875,
      "grad_norm": 1.0640666484832764,
      "learning_rate": 0.00029951410460285016,
      "loss": 4.094,
      "step": 14250
    },
    {
      "epoch": 0.029708333333333333,
      "grad_norm": 0.8637073040008545,
      "learning_rate": 0.00029951331140988904,
      "loss": 4.1746,
      "step": 14260
    },
    {
      "epoch": 0.029729166666666668,
      "grad_norm": 0.7906662821769714,
      "learning_rate": 0.0002995125175710896,
      "loss": 4.187,
      "step": 14270
    },
    {
      "epoch": 0.02975,
      "grad_norm": 0.8535051941871643,
      "learning_rate": 0.00029951172308645527,
      "loss": 4.2243,
      "step": 14280
    },
    {
      "epoch": 0.029770833333333333,
      "grad_norm": 0.8398330807685852,
      "learning_rate": 0.00029951092795598946,
      "loss": 3.992,
      "step": 14290
    },
    {
      "epoch": 0.029791666666666668,
      "grad_norm": 0.8448793292045593,
      "learning_rate": 0.00029951013217969564,
      "loss": 4.1865,
      "step": 14300
    },
    {
      "epoch": 0.0298125,
      "grad_norm": 0.991813600063324,
      "learning_rate": 0.00029950933575757717,
      "loss": 4.1371,
      "step": 14310
    },
    {
      "epoch": 0.029833333333333333,
      "grad_norm": 0.939232349395752,
      "learning_rate": 0.00029950853868963764,
      "loss": 4.1055,
      "step": 14320
    },
    {
      "epoch": 0.029854166666666668,
      "grad_norm": 0.9091331958770752,
      "learning_rate": 0.00029950774097588033,
      "loss": 3.8969,
      "step": 14330
    },
    {
      "epoch": 0.029875,
      "grad_norm": 0.8256743550300598,
      "learning_rate": 0.0002995069426163088,
      "loss": 4.0185,
      "step": 14340
    },
    {
      "epoch": 0.029895833333333333,
      "grad_norm": 0.9156287312507629,
      "learning_rate": 0.00029950614361092643,
      "loss": 4.046,
      "step": 14350
    },
    {
      "epoch": 0.029916666666666668,
      "grad_norm": 0.9120573401451111,
      "learning_rate": 0.00029950534395973676,
      "loss": 4.1613,
      "step": 14360
    },
    {
      "epoch": 0.0299375,
      "grad_norm": 0.8116564154624939,
      "learning_rate": 0.0002995045436627431,
      "loss": 4.1115,
      "step": 14370
    },
    {
      "epoch": 0.029958333333333333,
      "grad_norm": 0.8502389192581177,
      "learning_rate": 0.0002995037427199491,
      "loss": 4.1647,
      "step": 14380
    },
    {
      "epoch": 0.029979166666666668,
      "grad_norm": 0.8279502987861633,
      "learning_rate": 0.00029950294113135795,
      "loss": 3.976,
      "step": 14390
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7861356735229492,
      "learning_rate": 0.00029950213889697334,
      "loss": 4.0995,
      "step": 14400
    },
    {
      "epoch": 0.030020833333333333,
      "grad_norm": 0.8641905784606934,
      "learning_rate": 0.0002995013360167987,
      "loss": 4.0781,
      "step": 14410
    },
    {
      "epoch": 0.030041666666666668,
      "grad_norm": 0.9762683510780334,
      "learning_rate": 0.00029950053249083746,
      "loss": 3.9164,
      "step": 14420
    },
    {
      "epoch": 0.0300625,
      "grad_norm": 0.8936527371406555,
      "learning_rate": 0.0002994997283190931,
      "loss": 4.0197,
      "step": 14430
    },
    {
      "epoch": 0.030083333333333333,
      "grad_norm": 0.9123913645744324,
      "learning_rate": 0.0002994989235015691,
      "loss": 4.2142,
      "step": 14440
    },
    {
      "epoch": 0.030104166666666668,
      "grad_norm": 0.7833881378173828,
      "learning_rate": 0.00029949811803826887,
      "loss": 4.1087,
      "step": 14450
    },
    {
      "epoch": 0.030125,
      "grad_norm": 0.9175639152526855,
      "learning_rate": 0.000299497311929196,
      "loss": 4.0483,
      "step": 14460
    },
    {
      "epoch": 0.030145833333333334,
      "grad_norm": 1.0885392427444458,
      "learning_rate": 0.0002994965051743539,
      "loss": 4.1156,
      "step": 14470
    },
    {
      "epoch": 0.030166666666666668,
      "grad_norm": 0.7812568545341492,
      "learning_rate": 0.00029949569777374606,
      "loss": 4.2049,
      "step": 14480
    },
    {
      "epoch": 0.0301875,
      "grad_norm": 0.7951915264129639,
      "learning_rate": 0.00029949488972737595,
      "loss": 4.2044,
      "step": 14490
    },
    {
      "epoch": 0.030208333333333334,
      "grad_norm": 0.889025866985321,
      "learning_rate": 0.0002994940810352472,
      "loss": 4.0133,
      "step": 14500
    },
    {
      "epoch": 0.030229166666666668,
      "grad_norm": 0.8385442495346069,
      "learning_rate": 0.0002994932716973631,
      "loss": 3.9657,
      "step": 14510
    },
    {
      "epoch": 0.03025,
      "grad_norm": 0.8191893100738525,
      "learning_rate": 0.00029949246171372725,
      "loss": 3.9902,
      "step": 14520
    },
    {
      "epoch": 0.030270833333333334,
      "grad_norm": 0.8516495227813721,
      "learning_rate": 0.00029949165108434316,
      "loss": 3.8266,
      "step": 14530
    },
    {
      "epoch": 0.030291666666666668,
      "grad_norm": 0.8472347259521484,
      "learning_rate": 0.00029949083980921427,
      "loss": 4.1477,
      "step": 14540
    },
    {
      "epoch": 0.0303125,
      "grad_norm": 0.7125795483589172,
      "learning_rate": 0.0002994900278883441,
      "loss": 3.9867,
      "step": 14550
    },
    {
      "epoch": 0.030333333333333334,
      "grad_norm": 0.7736186385154724,
      "learning_rate": 0.00029948921532173625,
      "loss": 3.9828,
      "step": 14560
    },
    {
      "epoch": 0.030354166666666668,
      "grad_norm": 0.9110493659973145,
      "learning_rate": 0.0002994884021093942,
      "loss": 4.0417,
      "step": 14570
    },
    {
      "epoch": 0.030375,
      "grad_norm": 0.823752224445343,
      "learning_rate": 0.0002994875882513214,
      "loss": 4.0839,
      "step": 14580
    },
    {
      "epoch": 0.030395833333333334,
      "grad_norm": 0.8900298476219177,
      "learning_rate": 0.0002994867737475213,
      "loss": 4.0366,
      "step": 14590
    },
    {
      "epoch": 0.030416666666666668,
      "grad_norm": 0.8623661994934082,
      "learning_rate": 0.0002994859585979976,
      "loss": 4.2338,
      "step": 14600
    },
    {
      "epoch": 0.0304375,
      "grad_norm": 0.9114215970039368,
      "learning_rate": 0.00029948514280275367,
      "loss": 3.738,
      "step": 14610
    },
    {
      "epoch": 0.030458333333333334,
      "grad_norm": 0.794955849647522,
      "learning_rate": 0.00029948432636179315,
      "loss": 4.1121,
      "step": 14620
    },
    {
      "epoch": 0.03047916666666667,
      "grad_norm": 0.9092820286750793,
      "learning_rate": 0.00029948350927511944,
      "loss": 4.1745,
      "step": 14630
    },
    {
      "epoch": 0.0305,
      "grad_norm": 0.8599286079406738,
      "learning_rate": 0.0002994826915427362,
      "loss": 4.2106,
      "step": 14640
    },
    {
      "epoch": 0.030520833333333334,
      "grad_norm": 0.9800681471824646,
      "learning_rate": 0.0002994818731646469,
      "loss": 4.0644,
      "step": 14650
    },
    {
      "epoch": 0.03054166666666667,
      "grad_norm": 0.8235310912132263,
      "learning_rate": 0.0002994810541408551,
      "loss": 4.0764,
      "step": 14660
    },
    {
      "epoch": 0.0305625,
      "grad_norm": 0.8471696972846985,
      "learning_rate": 0.0002994802344713643,
      "loss": 4.0903,
      "step": 14670
    },
    {
      "epoch": 0.030583333333333334,
      "grad_norm": 0.900359570980072,
      "learning_rate": 0.00029947941415617795,
      "loss": 4.0169,
      "step": 14680
    },
    {
      "epoch": 0.030604166666666665,
      "grad_norm": 0.8637657165527344,
      "learning_rate": 0.00029947859319529984,
      "loss": 4.077,
      "step": 14690
    },
    {
      "epoch": 0.030625,
      "grad_norm": 0.86497563123703,
      "learning_rate": 0.00029947777158873326,
      "loss": 4.0702,
      "step": 14700
    },
    {
      "epoch": 0.030645833333333334,
      "grad_norm": 0.7919631004333496,
      "learning_rate": 0.00029947694933648195,
      "loss": 4.0094,
      "step": 14710
    },
    {
      "epoch": 0.030666666666666665,
      "grad_norm": 0.927245557308197,
      "learning_rate": 0.00029947612643854937,
      "loss": 4.1117,
      "step": 14720
    },
    {
      "epoch": 0.0306875,
      "grad_norm": 1.019700050354004,
      "learning_rate": 0.0002994753028949391,
      "loss": 4.1263,
      "step": 14730
    },
    {
      "epoch": 0.030708333333333334,
      "grad_norm": 0.8786669373512268,
      "learning_rate": 0.0002994744787056547,
      "loss": 4.0432,
      "step": 14740
    },
    {
      "epoch": 0.030729166666666665,
      "grad_norm": 0.8385117650032043,
      "learning_rate": 0.0002994736538706997,
      "loss": 4.0987,
      "step": 14750
    },
    {
      "epoch": 0.03075,
      "grad_norm": 0.746900737285614,
      "learning_rate": 0.0002994728283900776,
      "loss": 4.0355,
      "step": 14760
    },
    {
      "epoch": 0.030770833333333334,
      "grad_norm": 0.8696882724761963,
      "learning_rate": 0.0002994720022637922,
      "loss": 4.2424,
      "step": 14770
    },
    {
      "epoch": 0.030791666666666665,
      "grad_norm": 0.8687977194786072,
      "learning_rate": 0.0002994711754918468,
      "loss": 3.9462,
      "step": 14780
    },
    {
      "epoch": 0.0308125,
      "grad_norm": 0.9078602194786072,
      "learning_rate": 0.00029947034807424513,
      "loss": 4.013,
      "step": 14790
    },
    {
      "epoch": 0.030833333333333334,
      "grad_norm": 1.294808268547058,
      "learning_rate": 0.0002994695200109907,
      "loss": 3.987,
      "step": 14800
    },
    {
      "epoch": 0.030854166666666665,
      "grad_norm": 0.9757322072982788,
      "learning_rate": 0.00029946869130208713,
      "loss": 4.1635,
      "step": 14810
    },
    {
      "epoch": 0.030875,
      "grad_norm": 0.768364667892456,
      "learning_rate": 0.00029946786194753796,
      "loss": 4.0322,
      "step": 14820
    },
    {
      "epoch": 0.030895833333333334,
      "grad_norm": 0.7371079921722412,
      "learning_rate": 0.0002994670319473468,
      "loss": 4.0079,
      "step": 14830
    },
    {
      "epoch": 0.030916666666666665,
      "grad_norm": 0.8342958092689514,
      "learning_rate": 0.00029946620130151725,
      "loss": 4.0807,
      "step": 14840
    },
    {
      "epoch": 0.0309375,
      "grad_norm": 0.9092526435852051,
      "learning_rate": 0.0002994653700100528,
      "loss": 4.1937,
      "step": 14850
    },
    {
      "epoch": 0.030958333333333334,
      "grad_norm": 0.9627977013587952,
      "learning_rate": 0.00029946453807295717,
      "loss": 4.1064,
      "step": 14860
    },
    {
      "epoch": 0.030979166666666665,
      "grad_norm": 0.8539911508560181,
      "learning_rate": 0.00029946370549023386,
      "loss": 4.1365,
      "step": 14870
    },
    {
      "epoch": 0.031,
      "grad_norm": 0.872199296951294,
      "learning_rate": 0.00029946287226188654,
      "loss": 4.0328,
      "step": 14880
    },
    {
      "epoch": 0.031020833333333334,
      "grad_norm": 0.9470723867416382,
      "learning_rate": 0.00029946203838791883,
      "loss": 4.0389,
      "step": 14890
    },
    {
      "epoch": 0.031041666666666665,
      "grad_norm": 0.9475892186164856,
      "learning_rate": 0.0002994612038683342,
      "loss": 4.1021,
      "step": 14900
    },
    {
      "epoch": 0.0310625,
      "grad_norm": 0.881456732749939,
      "learning_rate": 0.0002994603687031363,
      "loss": 3.895,
      "step": 14910
    },
    {
      "epoch": 0.031083333333333334,
      "grad_norm": 0.8027737140655518,
      "learning_rate": 0.0002994595328923288,
      "loss": 4.1018,
      "step": 14920
    },
    {
      "epoch": 0.031104166666666665,
      "grad_norm": 0.9134830236434937,
      "learning_rate": 0.00029945869643591534,
      "loss": 4.0712,
      "step": 14930
    },
    {
      "epoch": 0.031125,
      "grad_norm": 0.9590940475463867,
      "learning_rate": 0.00029945785933389944,
      "loss": 4.144,
      "step": 14940
    },
    {
      "epoch": 0.031145833333333334,
      "grad_norm": 0.8448448777198792,
      "learning_rate": 0.0002994570215862847,
      "loss": 3.9476,
      "step": 14950
    },
    {
      "epoch": 0.031166666666666665,
      "grad_norm": 0.8625873327255249,
      "learning_rate": 0.00029945618319307483,
      "loss": 4.2291,
      "step": 14960
    },
    {
      "epoch": 0.0311875,
      "grad_norm": 0.8199671506881714,
      "learning_rate": 0.00029945534415427334,
      "loss": 4.2394,
      "step": 14970
    },
    {
      "epoch": 0.031208333333333334,
      "grad_norm": 0.9125764966011047,
      "learning_rate": 0.000299454504469884,
      "loss": 3.9974,
      "step": 14980
    },
    {
      "epoch": 0.031229166666666665,
      "grad_norm": 1.252485752105713,
      "learning_rate": 0.0002994536641399103,
      "loss": 3.9833,
      "step": 14990
    },
    {
      "epoch": 0.03125,
      "grad_norm": 0.8720163702964783,
      "learning_rate": 0.000299452823164356,
      "loss": 4.178,
      "step": 15000
    },
    {
      "epoch": 0.03125,
      "eval_loss": 4.33093786239624,
      "eval_runtime": 9.0611,
      "eval_samples_per_second": 1.104,
      "eval_steps_per_second": 0.331,
      "step": 15000
    },
    {
      "epoch": 0.03127083333333333,
      "grad_norm": 0.878359317779541,
      "learning_rate": 0.00029945198154322463,
      "loss": 4.1393,
      "step": 15010
    },
    {
      "epoch": 0.03129166666666667,
      "grad_norm": 0.8419456481933594,
      "learning_rate": 0.00029945113927651985,
      "loss": 4.1687,
      "step": 15020
    },
    {
      "epoch": 0.0313125,
      "grad_norm": 0.9828937649726868,
      "learning_rate": 0.00029945029636424525,
      "loss": 3.9624,
      "step": 15030
    },
    {
      "epoch": 0.03133333333333333,
      "grad_norm": 0.8137750029563904,
      "learning_rate": 0.0002994494528064046,
      "loss": 3.9851,
      "step": 15040
    },
    {
      "epoch": 0.03135416666666667,
      "grad_norm": 0.8770872354507446,
      "learning_rate": 0.0002994486086030015,
      "loss": 4.0027,
      "step": 15050
    },
    {
      "epoch": 0.031375,
      "grad_norm": 0.760393500328064,
      "learning_rate": 0.0002994477637540395,
      "loss": 4.015,
      "step": 15060
    },
    {
      "epoch": 0.03139583333333333,
      "grad_norm": 1.043774962425232,
      "learning_rate": 0.00029944691825952227,
      "loss": 4.0337,
      "step": 15070
    },
    {
      "epoch": 0.03141666666666667,
      "grad_norm": 0.8033528327941895,
      "learning_rate": 0.0002994460721194536,
      "loss": 4.0333,
      "step": 15080
    },
    {
      "epoch": 0.0314375,
      "grad_norm": 0.9265820980072021,
      "learning_rate": 0.00029944522533383706,
      "loss": 3.9952,
      "step": 15090
    },
    {
      "epoch": 0.03145833333333333,
      "grad_norm": 0.82586669921875,
      "learning_rate": 0.0002994443779026762,
      "loss": 4.0545,
      "step": 15100
    },
    {
      "epoch": 0.03147916666666667,
      "grad_norm": 0.910287082195282,
      "learning_rate": 0.0002994435298259749,
      "loss": 3.9704,
      "step": 15110
    },
    {
      "epoch": 0.0315,
      "grad_norm": 0.7352041602134705,
      "learning_rate": 0.00029944268110373664,
      "loss": 4.0829,
      "step": 15120
    },
    {
      "epoch": 0.03152083333333333,
      "grad_norm": 0.7913026213645935,
      "learning_rate": 0.00029944183173596516,
      "loss": 4.0073,
      "step": 15130
    },
    {
      "epoch": 0.03154166666666667,
      "grad_norm": 0.8794562220573425,
      "learning_rate": 0.00029944098172266415,
      "loss": 4.0265,
      "step": 15140
    },
    {
      "epoch": 0.0315625,
      "grad_norm": 0.8485791087150574,
      "learning_rate": 0.00029944013106383724,
      "loss": 4.0441,
      "step": 15150
    },
    {
      "epoch": 0.03158333333333333,
      "grad_norm": 0.7684953212738037,
      "learning_rate": 0.00029943927975948807,
      "loss": 4.1521,
      "step": 15160
    },
    {
      "epoch": 0.03160416666666667,
      "grad_norm": 0.8206188678741455,
      "learning_rate": 0.00029943842780962037,
      "loss": 4.1218,
      "step": 15170
    },
    {
      "epoch": 0.031625,
      "grad_norm": 0.7914516925811768,
      "learning_rate": 0.00029943757521423784,
      "loss": 3.9008,
      "step": 15180
    },
    {
      "epoch": 0.03164583333333333,
      "grad_norm": 0.8451589345932007,
      "learning_rate": 0.00029943672197334416,
      "loss": 3.9649,
      "step": 15190
    },
    {
      "epoch": 0.03166666666666667,
      "grad_norm": 0.8165528774261475,
      "learning_rate": 0.00029943586808694295,
      "loss": 4.1614,
      "step": 15200
    },
    {
      "epoch": 0.0316875,
      "grad_norm": 0.9129602909088135,
      "learning_rate": 0.000299435013555038,
      "loss": 4.1485,
      "step": 15210
    },
    {
      "epoch": 0.03170833333333333,
      "grad_norm": 0.9809873700141907,
      "learning_rate": 0.00029943415837763285,
      "loss": 4.0221,
      "step": 15220
    },
    {
      "epoch": 0.03172916666666667,
      "grad_norm": 0.8489075899124146,
      "learning_rate": 0.0002994333025547313,
      "loss": 4.275,
      "step": 15230
    },
    {
      "epoch": 0.03175,
      "grad_norm": 0.8379136919975281,
      "learning_rate": 0.0002994324460863371,
      "loss": 4.1557,
      "step": 15240
    },
    {
      "epoch": 0.03177083333333333,
      "grad_norm": 0.903752863407135,
      "learning_rate": 0.00029943158897245383,
      "loss": 4.0205,
      "step": 15250
    },
    {
      "epoch": 0.03179166666666667,
      "grad_norm": 0.9514161348342896,
      "learning_rate": 0.0002994307312130853,
      "loss": 4.0831,
      "step": 15260
    },
    {
      "epoch": 0.0318125,
      "grad_norm": 0.8124263286590576,
      "learning_rate": 0.0002994298728082351,
      "loss": 4.1813,
      "step": 15270
    },
    {
      "epoch": 0.03183333333333333,
      "grad_norm": 0.8268098831176758,
      "learning_rate": 0.00029942901375790707,
      "loss": 4.0504,
      "step": 15280
    },
    {
      "epoch": 0.03185416666666667,
      "grad_norm": 0.9709042906761169,
      "learning_rate": 0.0002994281540621048,
      "loss": 4.0775,
      "step": 15290
    },
    {
      "epoch": 0.031875,
      "grad_norm": 0.8725966215133667,
      "learning_rate": 0.00029942729372083206,
      "loss": 4.1487,
      "step": 15300
    },
    {
      "epoch": 0.03189583333333333,
      "grad_norm": 0.9131580591201782,
      "learning_rate": 0.0002994264327340925,
      "loss": 4.1491,
      "step": 15310
    },
    {
      "epoch": 0.03191666666666667,
      "grad_norm": 0.8566455841064453,
      "learning_rate": 0.00029942557110189,
      "loss": 3.8982,
      "step": 15320
    },
    {
      "epoch": 0.0319375,
      "grad_norm": 0.8703935742378235,
      "learning_rate": 0.0002994247088242281,
      "loss": 4.0579,
      "step": 15330
    },
    {
      "epoch": 0.03195833333333333,
      "grad_norm": 0.8805674314498901,
      "learning_rate": 0.00029942384590111066,
      "loss": 4.113,
      "step": 15340
    },
    {
      "epoch": 0.03197916666666667,
      "grad_norm": 0.8759633898735046,
      "learning_rate": 0.0002994229823325413,
      "loss": 4.1328,
      "step": 15350
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.7107021808624268,
      "learning_rate": 0.00029942211811852384,
      "loss": 4.1089,
      "step": 15360
    },
    {
      "epoch": 0.03202083333333333,
      "grad_norm": 0.7688440084457397,
      "learning_rate": 0.00029942125325906196,
      "loss": 4.0989,
      "step": 15370
    },
    {
      "epoch": 0.03204166666666667,
      "grad_norm": 0.7890715003013611,
      "learning_rate": 0.0002994203877541594,
      "loss": 4.0704,
      "step": 15380
    },
    {
      "epoch": 0.0320625,
      "grad_norm": 0.9604535698890686,
      "learning_rate": 0.0002994195216038199,
      "loss": 3.9661,
      "step": 15390
    },
    {
      "epoch": 0.03208333333333333,
      "grad_norm": 0.9563435912132263,
      "learning_rate": 0.0002994186548080473,
      "loss": 4.0421,
      "step": 15400
    },
    {
      "epoch": 0.03210416666666667,
      "grad_norm": 0.7535944581031799,
      "learning_rate": 0.0002994177873668451,
      "loss": 4.1313,
      "step": 15410
    },
    {
      "epoch": 0.032125,
      "grad_norm": 0.8137538433074951,
      "learning_rate": 0.00029941691928021737,
      "loss": 4.1078,
      "step": 15420
    },
    {
      "epoch": 0.03214583333333333,
      "grad_norm": 0.7604168653488159,
      "learning_rate": 0.0002994160505481676,
      "loss": 4.2108,
      "step": 15430
    },
    {
      "epoch": 0.03216666666666667,
      "grad_norm": 0.8974458575248718,
      "learning_rate": 0.0002994151811706996,
      "loss": 4.0118,
      "step": 15440
    },
    {
      "epoch": 0.0321875,
      "grad_norm": 0.8392168879508972,
      "learning_rate": 0.0002994143111478172,
      "loss": 4.1775,
      "step": 15450
    },
    {
      "epoch": 0.03220833333333333,
      "grad_norm": 0.7376740574836731,
      "learning_rate": 0.00029941344047952417,
      "loss": 4.3068,
      "step": 15460
    },
    {
      "epoch": 0.03222916666666667,
      "grad_norm": 0.7751104235649109,
      "learning_rate": 0.0002994125691658242,
      "loss": 3.8922,
      "step": 15470
    },
    {
      "epoch": 0.03225,
      "grad_norm": 0.8617166876792908,
      "learning_rate": 0.00029941169720672104,
      "loss": 3.9637,
      "step": 15480
    },
    {
      "epoch": 0.03227083333333333,
      "grad_norm": 0.8667832016944885,
      "learning_rate": 0.0002994108246022185,
      "loss": 3.9956,
      "step": 15490
    },
    {
      "epoch": 0.03229166666666667,
      "grad_norm": 0.8785979747772217,
      "learning_rate": 0.0002994099513523204,
      "loss": 3.9887,
      "step": 15500
    },
    {
      "epoch": 0.0323125,
      "grad_norm": 0.9857479333877563,
      "learning_rate": 0.0002994090774570303,
      "loss": 4.0639,
      "step": 15510
    },
    {
      "epoch": 0.03233333333333333,
      "grad_norm": 0.8522710204124451,
      "learning_rate": 0.0002994082029163522,
      "loss": 4.1742,
      "step": 15520
    },
    {
      "epoch": 0.03235416666666667,
      "grad_norm": 0.8661463856697083,
      "learning_rate": 0.00029940732773028986,
      "loss": 4.031,
      "step": 15530
    },
    {
      "epoch": 0.032375,
      "grad_norm": 0.7796003222465515,
      "learning_rate": 0.00029940645189884696,
      "loss": 4.0595,
      "step": 15540
    },
    {
      "epoch": 0.03239583333333333,
      "grad_norm": 0.8311572670936584,
      "learning_rate": 0.0002994055754220273,
      "loss": 3.9215,
      "step": 15550
    },
    {
      "epoch": 0.03241666666666667,
      "grad_norm": 0.8599438667297363,
      "learning_rate": 0.00029940469829983475,
      "loss": 4.0982,
      "step": 15560
    },
    {
      "epoch": 0.0324375,
      "grad_norm": 0.9948984384536743,
      "learning_rate": 0.000299403820532273,
      "loss": 4.0887,
      "step": 15570
    },
    {
      "epoch": 0.03245833333333333,
      "grad_norm": 0.8569654822349548,
      "learning_rate": 0.0002994029421193459,
      "loss": 3.904,
      "step": 15580
    },
    {
      "epoch": 0.03247916666666667,
      "grad_norm": 0.8488124012947083,
      "learning_rate": 0.00029940206306105723,
      "loss": 4.0056,
      "step": 15590
    },
    {
      "epoch": 0.0325,
      "grad_norm": 0.7372636198997498,
      "learning_rate": 0.00029940118335741077,
      "loss": 4.1109,
      "step": 15600
    },
    {
      "epoch": 0.03252083333333333,
      "grad_norm": 0.7716682553291321,
      "learning_rate": 0.0002994003030084103,
      "loss": 4.0849,
      "step": 15610
    },
    {
      "epoch": 0.03254166666666667,
      "grad_norm": 1.0652674436569214,
      "learning_rate": 0.0002993994220140597,
      "loss": 4.3322,
      "step": 15620
    },
    {
      "epoch": 0.0325625,
      "grad_norm": 0.89274662733078,
      "learning_rate": 0.00029939854037436275,
      "loss": 4.2091,
      "step": 15630
    },
    {
      "epoch": 0.03258333333333333,
      "grad_norm": 0.843664824962616,
      "learning_rate": 0.00029939765808932324,
      "loss": 4.0918,
      "step": 15640
    },
    {
      "epoch": 0.03260416666666666,
      "grad_norm": 0.7798587083816528,
      "learning_rate": 0.00029939677515894496,
      "loss": 4.2316,
      "step": 15650
    },
    {
      "epoch": 0.032625,
      "grad_norm": 0.908891499042511,
      "learning_rate": 0.00029939589158323177,
      "loss": 4.0584,
      "step": 15660
    },
    {
      "epoch": 0.03264583333333333,
      "grad_norm": 0.800485372543335,
      "learning_rate": 0.00029939500736218745,
      "loss": 3.8963,
      "step": 15670
    },
    {
      "epoch": 0.03266666666666666,
      "grad_norm": 0.8182084560394287,
      "learning_rate": 0.0002993941224958158,
      "loss": 3.8216,
      "step": 15680
    },
    {
      "epoch": 0.0326875,
      "grad_norm": 0.8195801973342896,
      "learning_rate": 0.0002993932369841207,
      "loss": 4.0306,
      "step": 15690
    },
    {
      "epoch": 0.03270833333333333,
      "grad_norm": 0.8744678497314453,
      "learning_rate": 0.000299392350827106,
      "loss": 3.8719,
      "step": 15700
    },
    {
      "epoch": 0.03272916666666666,
      "grad_norm": 0.8203961849212646,
      "learning_rate": 0.00029939146402477545,
      "loss": 4.2014,
      "step": 15710
    },
    {
      "epoch": 0.03275,
      "grad_norm": 0.8917534351348877,
      "learning_rate": 0.0002993905765771329,
      "loss": 4.1067,
      "step": 15720
    },
    {
      "epoch": 0.03277083333333333,
      "grad_norm": 0.8452229499816895,
      "learning_rate": 0.00029938968848418216,
      "loss": 4.2494,
      "step": 15730
    },
    {
      "epoch": 0.03279166666666666,
      "grad_norm": 0.8527575731277466,
      "learning_rate": 0.00029938879974592713,
      "loss": 4.0757,
      "step": 15740
    },
    {
      "epoch": 0.0328125,
      "grad_norm": 0.8027780055999756,
      "learning_rate": 0.0002993879103623716,
      "loss": 3.9564,
      "step": 15750
    },
    {
      "epoch": 0.03283333333333333,
      "grad_norm": 0.8674333691596985,
      "learning_rate": 0.00029938702033351945,
      "loss": 4.0269,
      "step": 15760
    },
    {
      "epoch": 0.03285416666666666,
      "grad_norm": 0.9531248211860657,
      "learning_rate": 0.0002993861296593745,
      "loss": 4.0679,
      "step": 15770
    },
    {
      "epoch": 0.032875,
      "grad_norm": 0.7846377491950989,
      "learning_rate": 0.0002993852383399406,
      "loss": 4.1212,
      "step": 15780
    },
    {
      "epoch": 0.03289583333333333,
      "grad_norm": 0.893591582775116,
      "learning_rate": 0.00029938434637522156,
      "loss": 4.0796,
      "step": 15790
    },
    {
      "epoch": 0.032916666666666664,
      "grad_norm": 0.8073575496673584,
      "learning_rate": 0.0002993834537652213,
      "loss": 3.9846,
      "step": 15800
    },
    {
      "epoch": 0.0329375,
      "grad_norm": 0.8872947692871094,
      "learning_rate": 0.0002993825605099437,
      "loss": 4.0895,
      "step": 15810
    },
    {
      "epoch": 0.03295833333333333,
      "grad_norm": 0.8714396953582764,
      "learning_rate": 0.0002993816666093925,
      "loss": 4.1946,
      "step": 15820
    },
    {
      "epoch": 0.032979166666666664,
      "grad_norm": 0.8361475467681885,
      "learning_rate": 0.0002993807720635717,
      "loss": 4.0983,
      "step": 15830
    },
    {
      "epoch": 0.033,
      "grad_norm": 0.8470453023910522,
      "learning_rate": 0.000299379876872485,
      "loss": 4.0223,
      "step": 15840
    },
    {
      "epoch": 0.03302083333333333,
      "grad_norm": 0.8411586880683899,
      "learning_rate": 0.00029937898103613643,
      "loss": 4.0823,
      "step": 15850
    },
    {
      "epoch": 0.033041666666666664,
      "grad_norm": 1.0533279180526733,
      "learning_rate": 0.0002993780845545298,
      "loss": 3.9746,
      "step": 15860
    },
    {
      "epoch": 0.0330625,
      "grad_norm": 0.8105953931808472,
      "learning_rate": 0.00029937718742766896,
      "loss": 3.9854,
      "step": 15870
    },
    {
      "epoch": 0.03308333333333333,
      "grad_norm": 0.8612307906150818,
      "learning_rate": 0.00029937628965555775,
      "loss": 4.2088,
      "step": 15880
    },
    {
      "epoch": 0.033104166666666664,
      "grad_norm": 0.8461914658546448,
      "learning_rate": 0.0002993753912382001,
      "loss": 4.0537,
      "step": 15890
    },
    {
      "epoch": 0.033125,
      "grad_norm": 0.8008294701576233,
      "learning_rate": 0.00029937449217559996,
      "loss": 4.0422,
      "step": 15900
    },
    {
      "epoch": 0.03314583333333333,
      "grad_norm": 0.7430229783058167,
      "learning_rate": 0.00029937359246776107,
      "loss": 4.0021,
      "step": 15910
    },
    {
      "epoch": 0.033166666666666664,
      "grad_norm": 0.775693953037262,
      "learning_rate": 0.0002993726921146874,
      "loss": 4.1492,
      "step": 15920
    },
    {
      "epoch": 0.0331875,
      "grad_norm": 0.8002509474754333,
      "learning_rate": 0.00029937179111638284,
      "loss": 4.126,
      "step": 15930
    },
    {
      "epoch": 0.03320833333333333,
      "grad_norm": 0.7978214025497437,
      "learning_rate": 0.0002993708894728513,
      "loss": 4.007,
      "step": 15940
    },
    {
      "epoch": 0.033229166666666664,
      "grad_norm": 0.9126216769218445,
      "learning_rate": 0.0002993699871840966,
      "loss": 4.1246,
      "step": 15950
    },
    {
      "epoch": 0.03325,
      "grad_norm": 0.9049301147460938,
      "learning_rate": 0.00029936908425012273,
      "loss": 4.0706,
      "step": 15960
    },
    {
      "epoch": 0.03327083333333333,
      "grad_norm": 0.8548170924186707,
      "learning_rate": 0.00029936818067093345,
      "loss": 4.0023,
      "step": 15970
    },
    {
      "epoch": 0.033291666666666664,
      "grad_norm": 0.8215303421020508,
      "learning_rate": 0.0002993672764465328,
      "loss": 4.0278,
      "step": 15980
    },
    {
      "epoch": 0.0333125,
      "grad_norm": 0.8506315350532532,
      "learning_rate": 0.00029936637157692463,
      "loss": 4.1399,
      "step": 15990
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 0.9001700282096863,
      "learning_rate": 0.0002993654660621129,
      "loss": 3.9919,
      "step": 16000
    },
    {
      "epoch": 0.03333333333333333,
      "eval_loss": 4.3315629959106445,
      "eval_runtime": 8.8322,
      "eval_samples_per_second": 1.132,
      "eval_steps_per_second": 0.34,
      "step": 16000
    },
    {
      "epoch": 0.033354166666666664,
      "grad_norm": 0.9198235869407654,
      "learning_rate": 0.00029936455990210145,
      "loss": 3.9796,
      "step": 16010
    },
    {
      "epoch": 0.033375,
      "grad_norm": 0.9833637475967407,
      "learning_rate": 0.00029936365309689425,
      "loss": 3.9212,
      "step": 16020
    },
    {
      "epoch": 0.03339583333333333,
      "grad_norm": 0.8164150714874268,
      "learning_rate": 0.00029936274564649513,
      "loss": 3.9538,
      "step": 16030
    },
    {
      "epoch": 0.033416666666666664,
      "grad_norm": 0.9178228974342346,
      "learning_rate": 0.0002993618375509081,
      "loss": 3.8791,
      "step": 16040
    },
    {
      "epoch": 0.0334375,
      "grad_norm": 0.7732407450675964,
      "learning_rate": 0.00029936092881013707,
      "loss": 4.0548,
      "step": 16050
    },
    {
      "epoch": 0.03345833333333333,
      "grad_norm": 0.7776960134506226,
      "learning_rate": 0.0002993600194241859,
      "loss": 4.071,
      "step": 16060
    },
    {
      "epoch": 0.033479166666666664,
      "grad_norm": 0.8848630785942078,
      "learning_rate": 0.00029935910939305865,
      "loss": 3.9908,
      "step": 16070
    },
    {
      "epoch": 0.0335,
      "grad_norm": 0.7808995246887207,
      "learning_rate": 0.0002993581987167591,
      "loss": 3.7747,
      "step": 16080
    },
    {
      "epoch": 0.03352083333333333,
      "grad_norm": 0.8991162776947021,
      "learning_rate": 0.0002993572873952913,
      "loss": 4.072,
      "step": 16090
    },
    {
      "epoch": 0.033541666666666664,
      "grad_norm": 0.8174862861633301,
      "learning_rate": 0.0002993563754286591,
      "loss": 4.1168,
      "step": 16100
    },
    {
      "epoch": 0.0335625,
      "grad_norm": 0.916215717792511,
      "learning_rate": 0.0002993554628168665,
      "loss": 3.989,
      "step": 16110
    },
    {
      "epoch": 0.03358333333333333,
      "grad_norm": 0.8327673673629761,
      "learning_rate": 0.00029935454955991737,
      "loss": 3.8921,
      "step": 16120
    },
    {
      "epoch": 0.033604166666666664,
      "grad_norm": 0.8554166555404663,
      "learning_rate": 0.0002993536356578158,
      "loss": 4.0543,
      "step": 16130
    },
    {
      "epoch": 0.033625,
      "grad_norm": 1.07235848903656,
      "learning_rate": 0.00029935272111056554,
      "loss": 3.9233,
      "step": 16140
    },
    {
      "epoch": 0.03364583333333333,
      "grad_norm": 0.828044593334198,
      "learning_rate": 0.00029935180591817074,
      "loss": 4.189,
      "step": 16150
    },
    {
      "epoch": 0.033666666666666664,
      "grad_norm": 1.0246752500534058,
      "learning_rate": 0.00029935089008063516,
      "loss": 3.7772,
      "step": 16160
    },
    {
      "epoch": 0.0336875,
      "grad_norm": 1.3070342540740967,
      "learning_rate": 0.0002993499735979629,
      "loss": 4.0821,
      "step": 16170
    },
    {
      "epoch": 0.03370833333333333,
      "grad_norm": 0.8444189429283142,
      "learning_rate": 0.00029934905647015784,
      "loss": 3.9954,
      "step": 16180
    },
    {
      "epoch": 0.033729166666666664,
      "grad_norm": 0.8488497734069824,
      "learning_rate": 0.000299348138697224,
      "loss": 3.9739,
      "step": 16190
    },
    {
      "epoch": 0.03375,
      "grad_norm": 0.8595477342605591,
      "learning_rate": 0.00029934722027916534,
      "loss": 3.7662,
      "step": 16200
    },
    {
      "epoch": 0.03377083333333333,
      "grad_norm": 0.7659378051757812,
      "learning_rate": 0.0002993463012159858,
      "loss": 4.0534,
      "step": 16210
    },
    {
      "epoch": 0.033791666666666664,
      "grad_norm": 0.924866795539856,
      "learning_rate": 0.00029934538150768933,
      "loss": 4.0921,
      "step": 16220
    },
    {
      "epoch": 0.0338125,
      "grad_norm": 0.9497525691986084,
      "learning_rate": 0.0002993444611542799,
      "loss": 4.0723,
      "step": 16230
    },
    {
      "epoch": 0.03383333333333333,
      "grad_norm": 0.8364046216011047,
      "learning_rate": 0.0002993435401557616,
      "loss": 4.0529,
      "step": 16240
    },
    {
      "epoch": 0.033854166666666664,
      "grad_norm": 0.9190325736999512,
      "learning_rate": 0.00029934261851213823,
      "loss": 4.0683,
      "step": 16250
    },
    {
      "epoch": 0.033875,
      "grad_norm": 1.1025983095169067,
      "learning_rate": 0.0002993416962234139,
      "loss": 4.1098,
      "step": 16260
    },
    {
      "epoch": 0.03389583333333333,
      "grad_norm": 0.886742889881134,
      "learning_rate": 0.00029934077328959256,
      "loss": 4.0909,
      "step": 16270
    },
    {
      "epoch": 0.033916666666666664,
      "grad_norm": 0.9103668928146362,
      "learning_rate": 0.0002993398497106782,
      "loss": 4.1457,
      "step": 16280
    },
    {
      "epoch": 0.0339375,
      "grad_norm": 0.8327091932296753,
      "learning_rate": 0.0002993389254866748,
      "loss": 4.0765,
      "step": 16290
    },
    {
      "epoch": 0.03395833333333333,
      "grad_norm": 0.9820424914360046,
      "learning_rate": 0.0002993380006175863,
      "loss": 4.0279,
      "step": 16300
    },
    {
      "epoch": 0.033979166666666664,
      "grad_norm": 0.90031898021698,
      "learning_rate": 0.0002993370751034168,
      "loss": 4.2943,
      "step": 16310
    },
    {
      "epoch": 0.034,
      "grad_norm": 0.8743019700050354,
      "learning_rate": 0.00029933614894417024,
      "loss": 3.9105,
      "step": 16320
    },
    {
      "epoch": 0.034020833333333333,
      "grad_norm": 0.8995828032493591,
      "learning_rate": 0.00029933522213985064,
      "loss": 3.9209,
      "step": 16330
    },
    {
      "epoch": 0.034041666666666665,
      "grad_norm": 0.8196219801902771,
      "learning_rate": 0.000299334294690462,
      "loss": 4.0775,
      "step": 16340
    },
    {
      "epoch": 0.0340625,
      "grad_norm": 0.8875076174736023,
      "learning_rate": 0.00029933336659600826,
      "loss": 4.052,
      "step": 16350
    },
    {
      "epoch": 0.034083333333333334,
      "grad_norm": 0.8845887184143066,
      "learning_rate": 0.00029933243785649355,
      "loss": 4.0091,
      "step": 16360
    },
    {
      "epoch": 0.034104166666666665,
      "grad_norm": 0.9027897715568542,
      "learning_rate": 0.00029933150847192175,
      "loss": 4.087,
      "step": 16370
    },
    {
      "epoch": 0.034125,
      "grad_norm": 0.9315267205238342,
      "learning_rate": 0.000299330578442297,
      "loss": 3.9661,
      "step": 16380
    },
    {
      "epoch": 0.034145833333333334,
      "grad_norm": 0.7526669502258301,
      "learning_rate": 0.00029932964776762327,
      "loss": 4.1032,
      "step": 16390
    },
    {
      "epoch": 0.034166666666666665,
      "grad_norm": 0.7556225061416626,
      "learning_rate": 0.0002993287164479045,
      "loss": 3.9778,
      "step": 16400
    },
    {
      "epoch": 0.0341875,
      "grad_norm": 0.8363755345344543,
      "learning_rate": 0.0002993277844831449,
      "loss": 4.0933,
      "step": 16410
    },
    {
      "epoch": 0.034208333333333334,
      "grad_norm": 0.8591242432594299,
      "learning_rate": 0.00029932685187334827,
      "loss": 4.0136,
      "step": 16420
    },
    {
      "epoch": 0.034229166666666665,
      "grad_norm": 0.8140270709991455,
      "learning_rate": 0.0002993259186185188,
      "loss": 4.0605,
      "step": 16430
    },
    {
      "epoch": 0.03425,
      "grad_norm": 0.8638515472412109,
      "learning_rate": 0.0002993249847186604,
      "loss": 4.1236,
      "step": 16440
    },
    {
      "epoch": 0.034270833333333334,
      "grad_norm": 0.9182011485099792,
      "learning_rate": 0.00029932405017377725,
      "loss": 4.0033,
      "step": 16450
    },
    {
      "epoch": 0.034291666666666665,
      "grad_norm": 0.741743266582489,
      "learning_rate": 0.0002993231149838733,
      "loss": 3.9522,
      "step": 16460
    },
    {
      "epoch": 0.0343125,
      "grad_norm": 0.7912690043449402,
      "learning_rate": 0.0002993221791489526,
      "loss": 4.0326,
      "step": 16470
    },
    {
      "epoch": 0.034333333333333334,
      "grad_norm": 0.8383122682571411,
      "learning_rate": 0.0002993212426690191,
      "loss": 3.8846,
      "step": 16480
    },
    {
      "epoch": 0.034354166666666665,
      "grad_norm": 0.8124603033065796,
      "learning_rate": 0.0002993203055440771,
      "loss": 4.1269,
      "step": 16490
    },
    {
      "epoch": 0.034375,
      "grad_norm": 0.8415465354919434,
      "learning_rate": 0.00029931936777413036,
      "loss": 4.1155,
      "step": 16500
    },
    {
      "epoch": 0.034395833333333334,
      "grad_norm": 0.8443299531936646,
      "learning_rate": 0.0002993184293591831,
      "loss": 4.1101,
      "step": 16510
    },
    {
      "epoch": 0.034416666666666665,
      "grad_norm": 0.7773112654685974,
      "learning_rate": 0.0002993174902992393,
      "loss": 4.093,
      "step": 16520
    },
    {
      "epoch": 0.0344375,
      "grad_norm": 0.9969574213027954,
      "learning_rate": 0.0002993165505943031,
      "loss": 3.892,
      "step": 16530
    },
    {
      "epoch": 0.034458333333333334,
      "grad_norm": 0.885007917881012,
      "learning_rate": 0.0002993156102443785,
      "loss": 4.0801,
      "step": 16540
    },
    {
      "epoch": 0.034479166666666665,
      "grad_norm": 0.9501005411148071,
      "learning_rate": 0.0002993146692494695,
      "loss": 4.0472,
      "step": 16550
    },
    {
      "epoch": 0.0345,
      "grad_norm": 1.0263216495513916,
      "learning_rate": 0.0002993137276095803,
      "loss": 4.0818,
      "step": 16560
    },
    {
      "epoch": 0.034520833333333334,
      "grad_norm": 0.8649660348892212,
      "learning_rate": 0.00029931278532471485,
      "loss": 4.3089,
      "step": 16570
    },
    {
      "epoch": 0.034541666666666665,
      "grad_norm": 0.9227863550186157,
      "learning_rate": 0.0002993118423948773,
      "loss": 4.0961,
      "step": 16580
    },
    {
      "epoch": 0.0345625,
      "grad_norm": 0.9151936769485474,
      "learning_rate": 0.0002993108988200717,
      "loss": 4.2533,
      "step": 16590
    },
    {
      "epoch": 0.034583333333333334,
      "grad_norm": 0.8485237956047058,
      "learning_rate": 0.0002993099546003021,
      "loss": 3.999,
      "step": 16600
    },
    {
      "epoch": 0.034604166666666665,
      "grad_norm": 0.9053081274032593,
      "learning_rate": 0.0002993090097355726,
      "loss": 4.198,
      "step": 16610
    },
    {
      "epoch": 0.034625,
      "grad_norm": 0.9125163555145264,
      "learning_rate": 0.0002993080642258873,
      "loss": 3.8507,
      "step": 16620
    },
    {
      "epoch": 0.034645833333333334,
      "grad_norm": 0.8891355395317078,
      "learning_rate": 0.0002993071180712502,
      "loss": 4.0648,
      "step": 16630
    },
    {
      "epoch": 0.034666666666666665,
      "grad_norm": 0.8034995198249817,
      "learning_rate": 0.0002993061712716655,
      "loss": 3.8943,
      "step": 16640
    },
    {
      "epoch": 0.0346875,
      "grad_norm": 0.8404164910316467,
      "learning_rate": 0.00029930522382713725,
      "loss": 4.125,
      "step": 16650
    },
    {
      "epoch": 0.034708333333333334,
      "grad_norm": 0.8723776936531067,
      "learning_rate": 0.00029930427573766953,
      "loss": 4.1484,
      "step": 16660
    },
    {
      "epoch": 0.034729166666666665,
      "grad_norm": 0.9118918180465698,
      "learning_rate": 0.00029930332700326643,
      "loss": 3.9387,
      "step": 16670
    },
    {
      "epoch": 0.03475,
      "grad_norm": 0.8488430380821228,
      "learning_rate": 0.000299302377623932,
      "loss": 4.0746,
      "step": 16680
    },
    {
      "epoch": 0.034770833333333334,
      "grad_norm": 0.7929940223693848,
      "learning_rate": 0.0002993014275996705,
      "loss": 4.0733,
      "step": 16690
    },
    {
      "epoch": 0.034791666666666665,
      "grad_norm": 0.8379742503166199,
      "learning_rate": 0.00029930047693048584,
      "loss": 3.9553,
      "step": 16700
    },
    {
      "epoch": 0.0348125,
      "grad_norm": 0.781258761882782,
      "learning_rate": 0.0002992995256163823,
      "loss": 4.011,
      "step": 16710
    },
    {
      "epoch": 0.034833333333333334,
      "grad_norm": 0.8825591802597046,
      "learning_rate": 0.00029929857365736383,
      "loss": 4.0178,
      "step": 16720
    },
    {
      "epoch": 0.034854166666666665,
      "grad_norm": 0.7728365659713745,
      "learning_rate": 0.00029929762105343466,
      "loss": 4.0435,
      "step": 16730
    },
    {
      "epoch": 0.034875,
      "grad_norm": 0.9625519514083862,
      "learning_rate": 0.0002992966678045988,
      "loss": 4.0808,
      "step": 16740
    },
    {
      "epoch": 0.034895833333333334,
      "grad_norm": 1.0772294998168945,
      "learning_rate": 0.00029929571391086054,
      "loss": 4.0629,
      "step": 16750
    },
    {
      "epoch": 0.034916666666666665,
      "grad_norm": 0.9131920337677002,
      "learning_rate": 0.00029929475937222376,
      "loss": 4.1774,
      "step": 16760
    },
    {
      "epoch": 0.0349375,
      "grad_norm": 0.8400788903236389,
      "learning_rate": 0.0002992938041886928,
      "loss": 3.8498,
      "step": 16770
    },
    {
      "epoch": 0.034958333333333334,
      "grad_norm": 0.8904976844787598,
      "learning_rate": 0.0002992928483602717,
      "loss": 4.0129,
      "step": 16780
    },
    {
      "epoch": 0.034979166666666665,
      "grad_norm": 0.8708992600440979,
      "learning_rate": 0.0002992918918869646,
      "loss": 4.006,
      "step": 16790
    },
    {
      "epoch": 0.035,
      "grad_norm": 0.7637060284614563,
      "learning_rate": 0.0002992909347687756,
      "loss": 4.0009,
      "step": 16800
    },
    {
      "epoch": 0.035020833333333334,
      "grad_norm": 0.9666843414306641,
      "learning_rate": 0.0002992899770057088,
      "loss": 3.9724,
      "step": 16810
    },
    {
      "epoch": 0.035041666666666665,
      "grad_norm": 0.8615291714668274,
      "learning_rate": 0.00029928901859776845,
      "loss": 4.169,
      "step": 16820
    },
    {
      "epoch": 0.0350625,
      "grad_norm": 0.875882089138031,
      "learning_rate": 0.00029928805954495863,
      "loss": 3.9065,
      "step": 16830
    },
    {
      "epoch": 0.035083333333333334,
      "grad_norm": 0.7698918581008911,
      "learning_rate": 0.00029928709984728346,
      "loss": 3.881,
      "step": 16840
    },
    {
      "epoch": 0.035104166666666665,
      "grad_norm": 0.8980772495269775,
      "learning_rate": 0.00029928613950474717,
      "loss": 4.0857,
      "step": 16850
    },
    {
      "epoch": 0.035125,
      "grad_norm": 0.8362685441970825,
      "learning_rate": 0.0002992851785173538,
      "loss": 4.0175,
      "step": 16860
    },
    {
      "epoch": 0.035145833333333334,
      "grad_norm": 0.8589380979537964,
      "learning_rate": 0.00029928421688510756,
      "loss": 4.1152,
      "step": 16870
    },
    {
      "epoch": 0.035166666666666666,
      "grad_norm": 0.8299537301063538,
      "learning_rate": 0.00029928325460801264,
      "loss": 4.0223,
      "step": 16880
    },
    {
      "epoch": 0.0351875,
      "grad_norm": 0.7935989499092102,
      "learning_rate": 0.0002992822916860731,
      "loss": 3.9743,
      "step": 16890
    },
    {
      "epoch": 0.035208333333333335,
      "grad_norm": 0.8624267578125,
      "learning_rate": 0.0002992813281192931,
      "loss": 4.1329,
      "step": 16900
    },
    {
      "epoch": 0.035229166666666666,
      "grad_norm": 0.8893835544586182,
      "learning_rate": 0.0002992803639076769,
      "loss": 4.0249,
      "step": 16910
    },
    {
      "epoch": 0.03525,
      "grad_norm": 0.8192248940467834,
      "learning_rate": 0.00029927939905122864,
      "loss": 4.0329,
      "step": 16920
    },
    {
      "epoch": 0.035270833333333335,
      "grad_norm": 0.9476098418235779,
      "learning_rate": 0.00029927843354995244,
      "loss": 4.2627,
      "step": 16930
    },
    {
      "epoch": 0.035291666666666666,
      "grad_norm": 0.7768537402153015,
      "learning_rate": 0.0002992774674038525,
      "loss": 4.0038,
      "step": 16940
    },
    {
      "epoch": 0.0353125,
      "grad_norm": 0.829410970211029,
      "learning_rate": 0.000299276500612933,
      "loss": 4.1452,
      "step": 16950
    },
    {
      "epoch": 0.035333333333333335,
      "grad_norm": 0.8985475897789001,
      "learning_rate": 0.00029927553317719814,
      "loss": 3.9532,
      "step": 16960
    },
    {
      "epoch": 0.035354166666666666,
      "grad_norm": 0.9217942357063293,
      "learning_rate": 0.000299274565096652,
      "loss": 4.1556,
      "step": 16970
    },
    {
      "epoch": 0.035375,
      "grad_norm": 0.8565150499343872,
      "learning_rate": 0.0002992735963712988,
      "loss": 4.236,
      "step": 16980
    },
    {
      "epoch": 0.035395833333333335,
      "grad_norm": 0.8029810786247253,
      "learning_rate": 0.00029927262700114285,
      "loss": 4.2272,
      "step": 16990
    },
    {
      "epoch": 0.035416666666666666,
      "grad_norm": 0.8682880401611328,
      "learning_rate": 0.0002992716569861882,
      "loss": 4.1456,
      "step": 17000
    },
    {
      "epoch": 0.035416666666666666,
      "eval_loss": 4.325911045074463,
      "eval_runtime": 10.5687,
      "eval_samples_per_second": 0.946,
      "eval_steps_per_second": 0.284,
      "step": 17000
    },
    {
      "epoch": 0.0354375,
      "grad_norm": 0.862125039100647,
      "learning_rate": 0.00029927068632643907,
      "loss": 3.9567,
      "step": 17010
    },
    {
      "epoch": 0.035458333333333335,
      "grad_norm": 0.9618183970451355,
      "learning_rate": 0.0002992697150218996,
      "loss": 4.1078,
      "step": 17020
    },
    {
      "epoch": 0.035479166666666666,
      "grad_norm": 0.9096365571022034,
      "learning_rate": 0.0002992687430725741,
      "loss": 4.0195,
      "step": 17030
    },
    {
      "epoch": 0.0355,
      "grad_norm": 1.1312155723571777,
      "learning_rate": 0.0002992677704784667,
      "loss": 4.3551,
      "step": 17040
    },
    {
      "epoch": 0.035520833333333335,
      "grad_norm": 0.9860330820083618,
      "learning_rate": 0.00029926679723958166,
      "loss": 3.8919,
      "step": 17050
    },
    {
      "epoch": 0.035541666666666666,
      "grad_norm": 0.9555772542953491,
      "learning_rate": 0.0002992658233559231,
      "loss": 4.2192,
      "step": 17060
    },
    {
      "epoch": 0.0355625,
      "grad_norm": 0.8637245893478394,
      "learning_rate": 0.0002992648488274953,
      "loss": 4.1481,
      "step": 17070
    },
    {
      "epoch": 0.035583333333333335,
      "grad_norm": 1.1291141510009766,
      "learning_rate": 0.00029926387365430246,
      "loss": 3.9657,
      "step": 17080
    },
    {
      "epoch": 0.035604166666666666,
      "grad_norm": 0.8090156316757202,
      "learning_rate": 0.0002992628978363487,
      "loss": 4.1061,
      "step": 17090
    },
    {
      "epoch": 0.035625,
      "grad_norm": 0.8619391918182373,
      "learning_rate": 0.0002992619213736383,
      "loss": 4.119,
      "step": 17100
    },
    {
      "epoch": 0.035645833333333335,
      "grad_norm": 0.8947673439979553,
      "learning_rate": 0.0002992609442661755,
      "loss": 4.128,
      "step": 17110
    },
    {
      "epoch": 0.035666666666666666,
      "grad_norm": 0.812449038028717,
      "learning_rate": 0.0002992599665139645,
      "loss": 4.0285,
      "step": 17120
    },
    {
      "epoch": 0.0356875,
      "grad_norm": 0.8342782855033875,
      "learning_rate": 0.0002992589881170096,
      "loss": 4.0616,
      "step": 17130
    },
    {
      "epoch": 0.035708333333333335,
      "grad_norm": 0.9633160829544067,
      "learning_rate": 0.0002992580090753149,
      "loss": 4.079,
      "step": 17140
    },
    {
      "epoch": 0.035729166666666666,
      "grad_norm": 0.696545422077179,
      "learning_rate": 0.00029925702938888465,
      "loss": 4.1578,
      "step": 17150
    },
    {
      "epoch": 0.03575,
      "grad_norm": 0.845102071762085,
      "learning_rate": 0.00029925604905772313,
      "loss": 4.0031,
      "step": 17160
    },
    {
      "epoch": 0.035770833333333335,
      "grad_norm": 0.8604733943939209,
      "learning_rate": 0.0002992550680818345,
      "loss": 3.9297,
      "step": 17170
    },
    {
      "epoch": 0.035791666666666666,
      "grad_norm": 0.8403083682060242,
      "learning_rate": 0.00029925408646122316,
      "loss": 3.9781,
      "step": 17180
    },
    {
      "epoch": 0.0358125,
      "grad_norm": 0.8128111362457275,
      "learning_rate": 0.0002992531041958932,
      "loss": 4.0022,
      "step": 17190
    },
    {
      "epoch": 0.035833333333333335,
      "grad_norm": 0.8753374814987183,
      "learning_rate": 0.0002992521212858489,
      "loss": 4.0949,
      "step": 17200
    },
    {
      "epoch": 0.035854166666666666,
      "grad_norm": 0.8012135028839111,
      "learning_rate": 0.00029925113773109454,
      "loss": 4.0268,
      "step": 17210
    },
    {
      "epoch": 0.035875,
      "grad_norm": 0.9229749441146851,
      "learning_rate": 0.00029925015353163433,
      "loss": 3.9247,
      "step": 17220
    },
    {
      "epoch": 0.035895833333333335,
      "grad_norm": 0.8255541324615479,
      "learning_rate": 0.0002992491686874725,
      "loss": 3.9456,
      "step": 17230
    },
    {
      "epoch": 0.035916666666666666,
      "grad_norm": 0.8966618180274963,
      "learning_rate": 0.0002992481831986134,
      "loss": 4.0809,
      "step": 17240
    },
    {
      "epoch": 0.0359375,
      "grad_norm": 0.7697514295578003,
      "learning_rate": 0.0002992471970650612,
      "loss": 4.0766,
      "step": 17250
    },
    {
      "epoch": 0.035958333333333335,
      "grad_norm": 0.9949625730514526,
      "learning_rate": 0.00029924621028682016,
      "loss": 3.9723,
      "step": 17260
    },
    {
      "epoch": 0.035979166666666666,
      "grad_norm": 0.8245081901550293,
      "learning_rate": 0.00029924522286389456,
      "loss": 4.172,
      "step": 17270
    },
    {
      "epoch": 0.036,
      "grad_norm": 0.9166048765182495,
      "learning_rate": 0.0002992442347962887,
      "loss": 4.0882,
      "step": 17280
    },
    {
      "epoch": 0.036020833333333335,
      "grad_norm": 0.8413297533988953,
      "learning_rate": 0.00029924324608400683,
      "loss": 4.1594,
      "step": 17290
    },
    {
      "epoch": 0.036041666666666666,
      "grad_norm": 0.8478891253471375,
      "learning_rate": 0.0002992422567270532,
      "loss": 4.2285,
      "step": 17300
    },
    {
      "epoch": 0.0360625,
      "grad_norm": 0.8254544138908386,
      "learning_rate": 0.0002992412667254321,
      "loss": 4.0286,
      "step": 17310
    },
    {
      "epoch": 0.036083333333333335,
      "grad_norm": 0.9407104849815369,
      "learning_rate": 0.0002992402760791478,
      "loss": 3.9764,
      "step": 17320
    },
    {
      "epoch": 0.036104166666666666,
      "grad_norm": 0.7729441523551941,
      "learning_rate": 0.0002992392847882046,
      "loss": 4.192,
      "step": 17330
    },
    {
      "epoch": 0.036125,
      "grad_norm": 0.7948728203773499,
      "learning_rate": 0.00029923829285260676,
      "loss": 4.0012,
      "step": 17340
    },
    {
      "epoch": 0.036145833333333335,
      "grad_norm": 0.8187624216079712,
      "learning_rate": 0.0002992373002723585,
      "loss": 4.0948,
      "step": 17350
    },
    {
      "epoch": 0.036166666666666666,
      "grad_norm": 0.8051158785820007,
      "learning_rate": 0.0002992363070474642,
      "loss": 4.0792,
      "step": 17360
    },
    {
      "epoch": 0.0361875,
      "grad_norm": 0.8741142749786377,
      "learning_rate": 0.00029923531317792816,
      "loss": 4.0455,
      "step": 17370
    },
    {
      "epoch": 0.036208333333333335,
      "grad_norm": 0.923941433429718,
      "learning_rate": 0.0002992343186637547,
      "loss": 4.1369,
      "step": 17380
    },
    {
      "epoch": 0.036229166666666666,
      "grad_norm": 0.7342715263366699,
      "learning_rate": 0.0002992333235049479,
      "loss": 4.0837,
      "step": 17390
    },
    {
      "epoch": 0.03625,
      "grad_norm": 0.9889044165611267,
      "learning_rate": 0.0002992323277015123,
      "loss": 3.9174,
      "step": 17400
    },
    {
      "epoch": 0.036270833333333335,
      "grad_norm": 0.8009507060050964,
      "learning_rate": 0.00029923133125345214,
      "loss": 4.1974,
      "step": 17410
    },
    {
      "epoch": 0.036291666666666667,
      "grad_norm": 0.9379335641860962,
      "learning_rate": 0.00029923033416077164,
      "loss": 4.003,
      "step": 17420
    },
    {
      "epoch": 0.0363125,
      "grad_norm": 0.7982138991355896,
      "learning_rate": 0.0002992293364234752,
      "loss": 4.0089,
      "step": 17430
    },
    {
      "epoch": 0.036333333333333336,
      "grad_norm": 0.8073444962501526,
      "learning_rate": 0.00029922833804156714,
      "loss": 4.0755,
      "step": 17440
    },
    {
      "epoch": 0.03635416666666667,
      "grad_norm": 0.9774671196937561,
      "learning_rate": 0.00029922733901505165,
      "loss": 4.0084,
      "step": 17450
    },
    {
      "epoch": 0.036375,
      "grad_norm": 0.9018422365188599,
      "learning_rate": 0.00029922633934393315,
      "loss": 4.1354,
      "step": 17460
    },
    {
      "epoch": 0.036395833333333336,
      "grad_norm": 0.9321247935295105,
      "learning_rate": 0.00029922533902821595,
      "loss": 4.1484,
      "step": 17470
    },
    {
      "epoch": 0.03641666666666667,
      "grad_norm": 0.8886778950691223,
      "learning_rate": 0.0002992243380679043,
      "loss": 3.9415,
      "step": 17480
    },
    {
      "epoch": 0.0364375,
      "grad_norm": 0.831596851348877,
      "learning_rate": 0.0002992233364630026,
      "loss": 4.2244,
      "step": 17490
    },
    {
      "epoch": 0.036458333333333336,
      "grad_norm": 0.8984707593917847,
      "learning_rate": 0.0002992223342135152,
      "loss": 4.1016,
      "step": 17500
    },
    {
      "epoch": 0.03647916666666667,
      "grad_norm": 0.9435588121414185,
      "learning_rate": 0.00029922133131944634,
      "loss": 4.0101,
      "step": 17510
    },
    {
      "epoch": 0.0365,
      "grad_norm": 1.0250800848007202,
      "learning_rate": 0.0002992203277808004,
      "loss": 3.8668,
      "step": 17520
    },
    {
      "epoch": 0.036520833333333336,
      "grad_norm": 0.8414269685745239,
      "learning_rate": 0.0002992193235975817,
      "loss": 3.9304,
      "step": 17530
    },
    {
      "epoch": 0.03654166666666667,
      "grad_norm": 0.7908039093017578,
      "learning_rate": 0.0002992183187697946,
      "loss": 3.9574,
      "step": 17540
    },
    {
      "epoch": 0.0365625,
      "grad_norm": 0.9662392139434814,
      "learning_rate": 0.00029921731329744344,
      "loss": 4.1924,
      "step": 17550
    },
    {
      "epoch": 0.036583333333333336,
      "grad_norm": 0.7853904962539673,
      "learning_rate": 0.0002992163071805325,
      "loss": 4.092,
      "step": 17560
    },
    {
      "epoch": 0.03660416666666667,
      "grad_norm": 0.8106274604797363,
      "learning_rate": 0.0002992153004190662,
      "loss": 4.0854,
      "step": 17570
    },
    {
      "epoch": 0.036625,
      "grad_norm": 0.9367853403091431,
      "learning_rate": 0.0002992142930130489,
      "loss": 4.1014,
      "step": 17580
    },
    {
      "epoch": 0.036645833333333336,
      "grad_norm": 0.9035178422927856,
      "learning_rate": 0.000299213284962485,
      "loss": 3.9992,
      "step": 17590
    },
    {
      "epoch": 0.03666666666666667,
      "grad_norm": 0.8327311277389526,
      "learning_rate": 0.0002992122762673786,
      "loss": 4.0078,
      "step": 17600
    },
    {
      "epoch": 0.0366875,
      "grad_norm": 0.8424521684646606,
      "learning_rate": 0.00029921126692773433,
      "loss": 3.8943,
      "step": 17610
    },
    {
      "epoch": 0.036708333333333336,
      "grad_norm": 0.8831633925437927,
      "learning_rate": 0.0002992102569435564,
      "loss": 4.1153,
      "step": 17620
    },
    {
      "epoch": 0.03672916666666667,
      "grad_norm": 0.7973224520683289,
      "learning_rate": 0.00029920924631484926,
      "loss": 4.0758,
      "step": 17630
    },
    {
      "epoch": 0.03675,
      "grad_norm": 0.9161110520362854,
      "learning_rate": 0.00029920823504161716,
      "loss": 4.1701,
      "step": 17640
    },
    {
      "epoch": 0.036770833333333336,
      "grad_norm": 0.8322612643241882,
      "learning_rate": 0.0002992072231238646,
      "loss": 4.1645,
      "step": 17650
    },
    {
      "epoch": 0.03679166666666667,
      "grad_norm": 0.8155104517936707,
      "learning_rate": 0.00029920621056159593,
      "loss": 3.8653,
      "step": 17660
    },
    {
      "epoch": 0.0368125,
      "grad_norm": 0.7626095414161682,
      "learning_rate": 0.00029920519735481547,
      "loss": 4.1585,
      "step": 17670
    },
    {
      "epoch": 0.036833333333333336,
      "grad_norm": 0.862581729888916,
      "learning_rate": 0.0002992041835035276,
      "loss": 4.0399,
      "step": 17680
    },
    {
      "epoch": 0.03685416666666667,
      "grad_norm": 0.9299867749214172,
      "learning_rate": 0.0002992031690077367,
      "loss": 4.0202,
      "step": 17690
    },
    {
      "epoch": 0.036875,
      "grad_norm": 0.8643673062324524,
      "learning_rate": 0.0002992021538674472,
      "loss": 4.1596,
      "step": 17700
    },
    {
      "epoch": 0.036895833333333336,
      "grad_norm": 1.0663188695907593,
      "learning_rate": 0.00029920113808266344,
      "loss": 3.9553,
      "step": 17710
    },
    {
      "epoch": 0.03691666666666667,
      "grad_norm": 0.7960526347160339,
      "learning_rate": 0.00029920012165338984,
      "loss": 4.0284,
      "step": 17720
    },
    {
      "epoch": 0.0369375,
      "grad_norm": 0.9164923429489136,
      "learning_rate": 0.00029919910457963076,
      "loss": 4.1748,
      "step": 17730
    },
    {
      "epoch": 0.036958333333333336,
      "grad_norm": 0.8116590976715088,
      "learning_rate": 0.0002991980868613906,
      "loss": 4.0241,
      "step": 17740
    },
    {
      "epoch": 0.03697916666666667,
      "grad_norm": 0.8403971195220947,
      "learning_rate": 0.00029919706849867376,
      "loss": 4.0968,
      "step": 17750
    },
    {
      "epoch": 0.037,
      "grad_norm": 0.8196402788162231,
      "learning_rate": 0.0002991960494914846,
      "loss": 4.1031,
      "step": 17760
    },
    {
      "epoch": 0.037020833333333336,
      "grad_norm": 0.8030466437339783,
      "learning_rate": 0.00029919502983982764,
      "loss": 4.0138,
      "step": 17770
    },
    {
      "epoch": 0.03704166666666667,
      "grad_norm": 0.7459415793418884,
      "learning_rate": 0.00029919400954370716,
      "loss": 4.1023,
      "step": 17780
    },
    {
      "epoch": 0.0370625,
      "grad_norm": 0.8701621294021606,
      "learning_rate": 0.00029919298860312763,
      "loss": 4.032,
      "step": 17790
    },
    {
      "epoch": 0.037083333333333336,
      "grad_norm": 0.8480597138404846,
      "learning_rate": 0.00029919196701809345,
      "loss": 3.9828,
      "step": 17800
    },
    {
      "epoch": 0.03710416666666667,
      "grad_norm": 1.05820631980896,
      "learning_rate": 0.000299190944788609,
      "loss": 3.9067,
      "step": 17810
    },
    {
      "epoch": 0.037125,
      "grad_norm": 1.13596510887146,
      "learning_rate": 0.00029918992191467876,
      "loss": 4.155,
      "step": 17820
    },
    {
      "epoch": 0.037145833333333336,
      "grad_norm": 0.7410834431648254,
      "learning_rate": 0.0002991888983963071,
      "loss": 4.1258,
      "step": 17830
    },
    {
      "epoch": 0.03716666666666667,
      "grad_norm": 0.9526194334030151,
      "learning_rate": 0.00029918787423349844,
      "loss": 4.1948,
      "step": 17840
    },
    {
      "epoch": 0.0371875,
      "grad_norm": 0.7553843855857849,
      "learning_rate": 0.00029918684942625726,
      "loss": 3.9481,
      "step": 17850
    },
    {
      "epoch": 0.037208333333333336,
      "grad_norm": 1.279346227645874,
      "learning_rate": 0.0002991858239745879,
      "loss": 3.977,
      "step": 17860
    },
    {
      "epoch": 0.03722916666666667,
      "grad_norm": 0.9270862340927124,
      "learning_rate": 0.00029918479787849475,
      "loss": 4.0444,
      "step": 17870
    },
    {
      "epoch": 0.03725,
      "grad_norm": 1.1202037334442139,
      "learning_rate": 0.0002991837711379825,
      "loss": 3.9636,
      "step": 17880
    },
    {
      "epoch": 0.037270833333333336,
      "grad_norm": 1.1282846927642822,
      "learning_rate": 0.0002991827437530553,
      "loss": 3.9992,
      "step": 17890
    },
    {
      "epoch": 0.03729166666666667,
      "grad_norm": 0.9895198941230774,
      "learning_rate": 0.0002991817157237177,
      "loss": 3.9932,
      "step": 17900
    },
    {
      "epoch": 0.0373125,
      "grad_norm": 0.8551687002182007,
      "learning_rate": 0.0002991806870499741,
      "loss": 3.8968,
      "step": 17910
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 0.8136470913887024,
      "learning_rate": 0.0002991796577318291,
      "loss": 4.143,
      "step": 17920
    },
    {
      "epoch": 0.03735416666666667,
      "grad_norm": 0.8662888407707214,
      "learning_rate": 0.00029917862776928695,
      "loss": 3.9867,
      "step": 17930
    },
    {
      "epoch": 0.037375,
      "grad_norm": 0.7878057360649109,
      "learning_rate": 0.0002991775971623522,
      "loss": 4.0166,
      "step": 17940
    },
    {
      "epoch": 0.037395833333333336,
      "grad_norm": 0.8428813219070435,
      "learning_rate": 0.00029917656591102926,
      "loss": 3.9418,
      "step": 17950
    },
    {
      "epoch": 0.03741666666666667,
      "grad_norm": 0.9037641882896423,
      "learning_rate": 0.00029917553401532257,
      "loss": 3.9226,
      "step": 17960
    },
    {
      "epoch": 0.0374375,
      "grad_norm": 0.8467386960983276,
      "learning_rate": 0.0002991745014752367,
      "loss": 4.1006,
      "step": 17970
    },
    {
      "epoch": 0.03745833333333334,
      "grad_norm": 0.8506113290786743,
      "learning_rate": 0.00029917346829077597,
      "loss": 3.8726,
      "step": 17980
    },
    {
      "epoch": 0.03747916666666667,
      "grad_norm": 0.9531418681144714,
      "learning_rate": 0.000299172434461945,
      "loss": 4.0024,
      "step": 17990
    },
    {
      "epoch": 0.0375,
      "grad_norm": 0.7978168725967407,
      "learning_rate": 0.00029917139998874805,
      "loss": 4.0668,
      "step": 18000
    },
    {
      "epoch": 0.0375,
      "eval_loss": 4.329977989196777,
      "eval_runtime": 11.2845,
      "eval_samples_per_second": 0.886,
      "eval_steps_per_second": 0.266,
      "step": 18000
    },
    {
      "epoch": 0.03752083333333334,
      "grad_norm": 0.89188551902771,
      "learning_rate": 0.0002991703648711897,
      "loss": 4.0169,
      "step": 18010
    },
    {
      "epoch": 0.03754166666666667,
      "grad_norm": 0.8431882858276367,
      "learning_rate": 0.0002991693291092745,
      "loss": 3.9835,
      "step": 18020
    },
    {
      "epoch": 0.0375625,
      "grad_norm": 0.762832760810852,
      "learning_rate": 0.00029916829270300674,
      "loss": 4.0664,
      "step": 18030
    },
    {
      "epoch": 0.03758333333333334,
      "grad_norm": 0.9033599495887756,
      "learning_rate": 0.0002991672556523911,
      "loss": 4.2116,
      "step": 18040
    },
    {
      "epoch": 0.03760416666666667,
      "grad_norm": 0.9286917448043823,
      "learning_rate": 0.0002991662179574319,
      "loss": 4.0503,
      "step": 18050
    },
    {
      "epoch": 0.037625,
      "grad_norm": 0.7415966987609863,
      "learning_rate": 0.00029916517961813373,
      "loss": 4.1049,
      "step": 18060
    },
    {
      "epoch": 0.03764583333333334,
      "grad_norm": 0.8961454033851624,
      "learning_rate": 0.000299164140634501,
      "loss": 4.0114,
      "step": 18070
    },
    {
      "epoch": 0.03766666666666667,
      "grad_norm": 0.8220148682594299,
      "learning_rate": 0.0002991631010065382,
      "loss": 4.0936,
      "step": 18080
    },
    {
      "epoch": 0.0376875,
      "grad_norm": 0.9560121893882751,
      "learning_rate": 0.0002991620607342499,
      "loss": 3.9289,
      "step": 18090
    },
    {
      "epoch": 0.03770833333333334,
      "grad_norm": 0.8255181908607483,
      "learning_rate": 0.0002991610198176405,
      "loss": 4.0217,
      "step": 18100
    },
    {
      "epoch": 0.03772916666666667,
      "grad_norm": 0.7874506115913391,
      "learning_rate": 0.0002991599782567146,
      "loss": 4.0854,
      "step": 18110
    },
    {
      "epoch": 0.03775,
      "grad_norm": 0.7824701070785522,
      "learning_rate": 0.0002991589360514765,
      "loss": 4.1276,
      "step": 18120
    },
    {
      "epoch": 0.03777083333333333,
      "grad_norm": 0.8541786670684814,
      "learning_rate": 0.00029915789320193097,
      "loss": 4.2043,
      "step": 18130
    },
    {
      "epoch": 0.03779166666666667,
      "grad_norm": 0.794258713722229,
      "learning_rate": 0.00029915684970808234,
      "loss": 4.0339,
      "step": 18140
    },
    {
      "epoch": 0.0378125,
      "grad_norm": 0.9189763069152832,
      "learning_rate": 0.00029915580556993514,
      "loss": 3.9248,
      "step": 18150
    },
    {
      "epoch": 0.03783333333333333,
      "grad_norm": 0.7932783961296082,
      "learning_rate": 0.0002991547607874939,
      "loss": 4.2718,
      "step": 18160
    },
    {
      "epoch": 0.03785416666666667,
      "grad_norm": 0.8350664973258972,
      "learning_rate": 0.00029915371536076317,
      "loss": 4.044,
      "step": 18170
    },
    {
      "epoch": 0.037875,
      "grad_norm": 0.8246133327484131,
      "learning_rate": 0.0002991526692897474,
      "loss": 4.0622,
      "step": 18180
    },
    {
      "epoch": 0.03789583333333333,
      "grad_norm": 0.8944045305252075,
      "learning_rate": 0.00029915162257445114,
      "loss": 3.9538,
      "step": 18190
    },
    {
      "epoch": 0.03791666666666667,
      "grad_norm": 0.9330810904502869,
      "learning_rate": 0.0002991505752148789,
      "loss": 3.8877,
      "step": 18200
    },
    {
      "epoch": 0.0379375,
      "grad_norm": 0.8224648237228394,
      "learning_rate": 0.0002991495272110352,
      "loss": 3.8945,
      "step": 18210
    },
    {
      "epoch": 0.03795833333333333,
      "grad_norm": 0.8624475002288818,
      "learning_rate": 0.00029914847856292464,
      "loss": 4.0377,
      "step": 18220
    },
    {
      "epoch": 0.03797916666666667,
      "grad_norm": 0.8436950445175171,
      "learning_rate": 0.00029914742927055166,
      "loss": 4.0767,
      "step": 18230
    },
    {
      "epoch": 0.038,
      "grad_norm": 0.7826711535453796,
      "learning_rate": 0.0002991463793339208,
      "loss": 4.112,
      "step": 18240
    },
    {
      "epoch": 0.03802083333333333,
      "grad_norm": 0.7982813119888306,
      "learning_rate": 0.00029914532875303663,
      "loss": 4.0583,
      "step": 18250
    },
    {
      "epoch": 0.03804166666666667,
      "grad_norm": 0.7626778483390808,
      "learning_rate": 0.0002991442775279037,
      "loss": 4.0081,
      "step": 18260
    },
    {
      "epoch": 0.0380625,
      "grad_norm": 0.7969287633895874,
      "learning_rate": 0.0002991432256585265,
      "loss": 3.9837,
      "step": 18270
    },
    {
      "epoch": 0.03808333333333333,
      "grad_norm": 0.8490894436836243,
      "learning_rate": 0.0002991421731449096,
      "loss": 4.113,
      "step": 18280
    },
    {
      "epoch": 0.03810416666666667,
      "grad_norm": 0.8685401082038879,
      "learning_rate": 0.00029914111998705756,
      "loss": 4.1729,
      "step": 18290
    },
    {
      "epoch": 0.038125,
      "grad_norm": 0.8926373720169067,
      "learning_rate": 0.0002991400661849749,
      "loss": 4.1568,
      "step": 18300
    },
    {
      "epoch": 0.03814583333333333,
      "grad_norm": 0.8474584817886353,
      "learning_rate": 0.0002991390117386662,
      "loss": 4.0374,
      "step": 18310
    },
    {
      "epoch": 0.03816666666666667,
      "grad_norm": 0.7464219927787781,
      "learning_rate": 0.000299137956648136,
      "loss": 4.0927,
      "step": 18320
    },
    {
      "epoch": 0.0381875,
      "grad_norm": 1.1224325895309448,
      "learning_rate": 0.00029913690091338884,
      "loss": 3.888,
      "step": 18330
    },
    {
      "epoch": 0.03820833333333333,
      "grad_norm": 0.8654627203941345,
      "learning_rate": 0.0002991358445344294,
      "loss": 3.978,
      "step": 18340
    },
    {
      "epoch": 0.03822916666666667,
      "grad_norm": 0.805236279964447,
      "learning_rate": 0.000299134787511262,
      "loss": 4.2926,
      "step": 18350
    },
    {
      "epoch": 0.03825,
      "grad_norm": 0.8852526545524597,
      "learning_rate": 0.0002991337298438914,
      "loss": 4.0587,
      "step": 18360
    },
    {
      "epoch": 0.03827083333333333,
      "grad_norm": 0.8394462466239929,
      "learning_rate": 0.0002991326715323222,
      "loss": 4.1973,
      "step": 18370
    },
    {
      "epoch": 0.03829166666666667,
      "grad_norm": 0.9310835003852844,
      "learning_rate": 0.00029913161257655877,
      "loss": 4.086,
      "step": 18380
    },
    {
      "epoch": 0.0383125,
      "grad_norm": 0.8572797775268555,
      "learning_rate": 0.00029913055297660585,
      "loss": 4.0869,
      "step": 18390
    },
    {
      "epoch": 0.03833333333333333,
      "grad_norm": 0.8255114555358887,
      "learning_rate": 0.000299129492732468,
      "loss": 3.9834,
      "step": 18400
    },
    {
      "epoch": 0.03835416666666667,
      "grad_norm": 0.7923405766487122,
      "learning_rate": 0.00029912843184414975,
      "loss": 4.1786,
      "step": 18410
    },
    {
      "epoch": 0.038375,
      "grad_norm": 0.9362053871154785,
      "learning_rate": 0.00029912737031165563,
      "loss": 4.081,
      "step": 18420
    },
    {
      "epoch": 0.03839583333333333,
      "grad_norm": 0.7293967008590698,
      "learning_rate": 0.00029912630813499043,
      "loss": 4.0674,
      "step": 18430
    },
    {
      "epoch": 0.03841666666666667,
      "grad_norm": 0.9222938418388367,
      "learning_rate": 0.00029912524531415855,
      "loss": 4.2324,
      "step": 18440
    },
    {
      "epoch": 0.0384375,
      "grad_norm": 1.0506500005722046,
      "learning_rate": 0.00029912418184916464,
      "loss": 4.1515,
      "step": 18450
    },
    {
      "epoch": 0.03845833333333333,
      "grad_norm": 0.9396284222602844,
      "learning_rate": 0.00029912311774001326,
      "loss": 4.1479,
      "step": 18460
    },
    {
      "epoch": 0.03847916666666667,
      "grad_norm": 0.898797333240509,
      "learning_rate": 0.00029912205298670907,
      "loss": 4.115,
      "step": 18470
    },
    {
      "epoch": 0.0385,
      "grad_norm": 0.8962081074714661,
      "learning_rate": 0.0002991209875892566,
      "loss": 4.1352,
      "step": 18480
    },
    {
      "epoch": 0.03852083333333333,
      "grad_norm": 0.9243101477622986,
      "learning_rate": 0.0002991199215476606,
      "loss": 3.8898,
      "step": 18490
    },
    {
      "epoch": 0.03854166666666667,
      "grad_norm": 0.8865892291069031,
      "learning_rate": 0.00029911885486192546,
      "loss": 4.1713,
      "step": 18500
    },
    {
      "epoch": 0.0385625,
      "grad_norm": 0.7877585887908936,
      "learning_rate": 0.0002991177875320559,
      "loss": 4.0824,
      "step": 18510
    },
    {
      "epoch": 0.03858333333333333,
      "grad_norm": 0.9386928677558899,
      "learning_rate": 0.00029911671955805657,
      "loss": 4.0002,
      "step": 18520
    },
    {
      "epoch": 0.03860416666666667,
      "grad_norm": 0.7505200505256653,
      "learning_rate": 0.000299115650939932,
      "loss": 4.0505,
      "step": 18530
    },
    {
      "epoch": 0.038625,
      "grad_norm": 0.9526666402816772,
      "learning_rate": 0.0002991145816776869,
      "loss": 3.9049,
      "step": 18540
    },
    {
      "epoch": 0.03864583333333333,
      "grad_norm": 1.0136090517044067,
      "learning_rate": 0.0002991135117713257,
      "loss": 4.0518,
      "step": 18550
    },
    {
      "epoch": 0.03866666666666667,
      "grad_norm": 0.9006969332695007,
      "learning_rate": 0.0002991124412208533,
      "loss": 3.955,
      "step": 18560
    },
    {
      "epoch": 0.0386875,
      "grad_norm": 0.9038065671920776,
      "learning_rate": 0.00029911137002627407,
      "loss": 4.1199,
      "step": 18570
    },
    {
      "epoch": 0.03870833333333333,
      "grad_norm": 0.8486124873161316,
      "learning_rate": 0.0002991102981875928,
      "loss": 4.0811,
      "step": 18580
    },
    {
      "epoch": 0.03872916666666667,
      "grad_norm": 1.0298998355865479,
      "learning_rate": 0.00029910922570481404,
      "loss": 3.9936,
      "step": 18590
    },
    {
      "epoch": 0.03875,
      "grad_norm": 1.0010906457901,
      "learning_rate": 0.00029910815257794244,
      "loss": 4.1464,
      "step": 18600
    },
    {
      "epoch": 0.03877083333333333,
      "grad_norm": 0.7848183512687683,
      "learning_rate": 0.00029910707880698265,
      "loss": 4.0499,
      "step": 18610
    },
    {
      "epoch": 0.03879166666666667,
      "grad_norm": 0.8498455286026001,
      "learning_rate": 0.00029910600439193933,
      "loss": 4.0583,
      "step": 18620
    },
    {
      "epoch": 0.0388125,
      "grad_norm": 0.9235027432441711,
      "learning_rate": 0.00029910492933281704,
      "loss": 3.9502,
      "step": 18630
    },
    {
      "epoch": 0.03883333333333333,
      "grad_norm": 0.7915307283401489,
      "learning_rate": 0.0002991038536296205,
      "loss": 3.9124,
      "step": 18640
    },
    {
      "epoch": 0.03885416666666667,
      "grad_norm": 0.9006110429763794,
      "learning_rate": 0.00029910277728235435,
      "loss": 4.0343,
      "step": 18650
    },
    {
      "epoch": 0.038875,
      "grad_norm": 0.8040832281112671,
      "learning_rate": 0.0002991017002910232,
      "loss": 4.0883,
      "step": 18660
    },
    {
      "epoch": 0.03889583333333333,
      "grad_norm": 0.8139463067054749,
      "learning_rate": 0.0002991006226556317,
      "loss": 3.9423,
      "step": 18670
    },
    {
      "epoch": 0.03891666666666667,
      "grad_norm": 0.9146645069122314,
      "learning_rate": 0.0002990995443761846,
      "loss": 4.0034,
      "step": 18680
    },
    {
      "epoch": 0.0389375,
      "grad_norm": 0.8637332320213318,
      "learning_rate": 0.00029909846545268646,
      "loss": 4.0658,
      "step": 18690
    },
    {
      "epoch": 0.03895833333333333,
      "grad_norm": 0.795529305934906,
      "learning_rate": 0.00029909738588514194,
      "loss": 4.1287,
      "step": 18700
    },
    {
      "epoch": 0.03897916666666667,
      "grad_norm": 0.7612804770469666,
      "learning_rate": 0.0002990963056735557,
      "loss": 4.0551,
      "step": 18710
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.8011635541915894,
      "learning_rate": 0.00029909522481793254,
      "loss": 3.9135,
      "step": 18720
    },
    {
      "epoch": 0.03902083333333333,
      "grad_norm": 0.8500843048095703,
      "learning_rate": 0.00029909414331827697,
      "loss": 4.2049,
      "step": 18730
    },
    {
      "epoch": 0.03904166666666667,
      "grad_norm": 0.86812424659729,
      "learning_rate": 0.00029909306117459366,
      "loss": 4.1068,
      "step": 18740
    },
    {
      "epoch": 0.0390625,
      "grad_norm": 0.9230269193649292,
      "learning_rate": 0.0002990919783868874,
      "loss": 4.0994,
      "step": 18750
    },
    {
      "epoch": 0.03908333333333333,
      "grad_norm": 0.8421009182929993,
      "learning_rate": 0.0002990908949551628,
      "loss": 4.0894,
      "step": 18760
    },
    {
      "epoch": 0.03910416666666667,
      "grad_norm": 0.8920373320579529,
      "learning_rate": 0.00029908981087942453,
      "loss": 4.0574,
      "step": 18770
    },
    {
      "epoch": 0.039125,
      "grad_norm": 0.7673577070236206,
      "learning_rate": 0.0002990887261596773,
      "loss": 4.0279,
      "step": 18780
    },
    {
      "epoch": 0.03914583333333333,
      "grad_norm": 0.7957242727279663,
      "learning_rate": 0.0002990876407959258,
      "loss": 3.988,
      "step": 18790
    },
    {
      "epoch": 0.03916666666666667,
      "grad_norm": 0.9724499583244324,
      "learning_rate": 0.0002990865547881747,
      "loss": 4.226,
      "step": 18800
    },
    {
      "epoch": 0.0391875,
      "grad_norm": 0.8133620023727417,
      "learning_rate": 0.00029908546813642864,
      "loss": 4.0273,
      "step": 18810
    },
    {
      "epoch": 0.03920833333333333,
      "grad_norm": 0.8466202020645142,
      "learning_rate": 0.0002990843808406925,
      "loss": 4.112,
      "step": 18820
    },
    {
      "epoch": 0.03922916666666667,
      "grad_norm": 0.7579261064529419,
      "learning_rate": 0.00029908329290097074,
      "loss": 4.045,
      "step": 18830
    },
    {
      "epoch": 0.03925,
      "grad_norm": 0.9687149524688721,
      "learning_rate": 0.0002990822043172682,
      "loss": 4.051,
      "step": 18840
    },
    {
      "epoch": 0.03927083333333333,
      "grad_norm": 0.7535285353660583,
      "learning_rate": 0.00029908111508958953,
      "loss": 4.1092,
      "step": 18850
    },
    {
      "epoch": 0.03929166666666667,
      "grad_norm": 0.796410083770752,
      "learning_rate": 0.00029908002521793946,
      "loss": 4.045,
      "step": 18860
    },
    {
      "epoch": 0.0393125,
      "grad_norm": 0.8584465384483337,
      "learning_rate": 0.0002990789347023227,
      "loss": 4.0383,
      "step": 18870
    },
    {
      "epoch": 0.03933333333333333,
      "grad_norm": 0.8105795383453369,
      "learning_rate": 0.000299077843542744,
      "loss": 4.0037,
      "step": 18880
    },
    {
      "epoch": 0.03935416666666667,
      "grad_norm": 0.8511812090873718,
      "learning_rate": 0.00029907675173920795,
      "loss": 4.1038,
      "step": 18890
    },
    {
      "epoch": 0.039375,
      "grad_norm": 0.7357218861579895,
      "learning_rate": 0.0002990756592917193,
      "loss": 4.0421,
      "step": 18900
    },
    {
      "epoch": 0.03939583333333333,
      "grad_norm": 0.8205394148826599,
      "learning_rate": 0.00029907456620028287,
      "loss": 4.0321,
      "step": 18910
    },
    {
      "epoch": 0.03941666666666667,
      "grad_norm": 0.8561420440673828,
      "learning_rate": 0.00029907347246490337,
      "loss": 4.1758,
      "step": 18920
    },
    {
      "epoch": 0.0394375,
      "grad_norm": 0.9624341726303101,
      "learning_rate": 0.0002990723780855854,
      "loss": 4.2025,
      "step": 18930
    },
    {
      "epoch": 0.03945833333333333,
      "grad_norm": 0.9427738785743713,
      "learning_rate": 0.00029907128306233386,
      "loss": 4.2542,
      "step": 18940
    },
    {
      "epoch": 0.03947916666666667,
      "grad_norm": 0.9757403135299683,
      "learning_rate": 0.0002990701873951533,
      "loss": 4.1038,
      "step": 18950
    },
    {
      "epoch": 0.0395,
      "grad_norm": 0.9808940291404724,
      "learning_rate": 0.00029906909108404857,
      "loss": 4.0875,
      "step": 18960
    },
    {
      "epoch": 0.03952083333333333,
      "grad_norm": 1.2218230962753296,
      "learning_rate": 0.00029906799412902436,
      "loss": 3.8337,
      "step": 18970
    },
    {
      "epoch": 0.03954166666666667,
      "grad_norm": 0.9045658111572266,
      "learning_rate": 0.0002990668965300854,
      "loss": 3.9948,
      "step": 18980
    },
    {
      "epoch": 0.0395625,
      "grad_norm": 0.9830717444419861,
      "learning_rate": 0.0002990657982872365,
      "loss": 3.9738,
      "step": 18990
    },
    {
      "epoch": 0.03958333333333333,
      "grad_norm": 0.7774221301078796,
      "learning_rate": 0.0002990646994004823,
      "loss": 4.1336,
      "step": 19000
    },
    {
      "epoch": 0.03958333333333333,
      "eval_loss": 4.341280460357666,
      "eval_runtime": 10.6438,
      "eval_samples_per_second": 0.94,
      "eval_steps_per_second": 0.282,
      "step": 19000
    },
    {
      "epoch": 0.03960416666666667,
      "grad_norm": 0.9579519033432007,
      "learning_rate": 0.00029906359986982766,
      "loss": 4.0295,
      "step": 19010
    },
    {
      "epoch": 0.039625,
      "grad_norm": 0.8091082572937012,
      "learning_rate": 0.0002990624996952772,
      "loss": 3.9964,
      "step": 19020
    },
    {
      "epoch": 0.03964583333333333,
      "grad_norm": 0.9176852703094482,
      "learning_rate": 0.0002990613988768358,
      "loss": 4.0226,
      "step": 19030
    },
    {
      "epoch": 0.03966666666666667,
      "grad_norm": 0.8329704403877258,
      "learning_rate": 0.00029906029741450814,
      "loss": 3.8441,
      "step": 19040
    },
    {
      "epoch": 0.0396875,
      "grad_norm": 0.9402167797088623,
      "learning_rate": 0.000299059195308299,
      "loss": 4.0174,
      "step": 19050
    },
    {
      "epoch": 0.03970833333333333,
      "grad_norm": 0.7524610161781311,
      "learning_rate": 0.00029905809255821315,
      "loss": 3.8213,
      "step": 19060
    },
    {
      "epoch": 0.03972916666666667,
      "grad_norm": 0.802990734577179,
      "learning_rate": 0.0002990569891642553,
      "loss": 4.1643,
      "step": 19070
    },
    {
      "epoch": 0.03975,
      "grad_norm": 0.7742749452590942,
      "learning_rate": 0.0002990558851264303,
      "loss": 3.973,
      "step": 19080
    },
    {
      "epoch": 0.03977083333333333,
      "grad_norm": 0.8257986307144165,
      "learning_rate": 0.0002990547804447429,
      "loss": 3.9735,
      "step": 19090
    },
    {
      "epoch": 0.03979166666666667,
      "grad_norm": 1.0188935995101929,
      "learning_rate": 0.00029905367511919777,
      "loss": 4.119,
      "step": 19100
    },
    {
      "epoch": 0.0398125,
      "grad_norm": 0.8712319135665894,
      "learning_rate": 0.00029905256914979984,
      "loss": 4.0557,
      "step": 19110
    },
    {
      "epoch": 0.03983333333333333,
      "grad_norm": 0.790169894695282,
      "learning_rate": 0.00029905146253655376,
      "loss": 3.9663,
      "step": 19120
    },
    {
      "epoch": 0.03985416666666667,
      "grad_norm": 0.7941786646842957,
      "learning_rate": 0.0002990503552794644,
      "loss": 4.1641,
      "step": 19130
    },
    {
      "epoch": 0.039875,
      "grad_norm": 0.7915155291557312,
      "learning_rate": 0.00029904924737853645,
      "loss": 4.0691,
      "step": 19140
    },
    {
      "epoch": 0.03989583333333333,
      "grad_norm": 0.8612808585166931,
      "learning_rate": 0.0002990481388337748,
      "loss": 4.2411,
      "step": 19150
    },
    {
      "epoch": 0.03991666666666667,
      "grad_norm": 0.8533260226249695,
      "learning_rate": 0.0002990470296451842,
      "loss": 4.0003,
      "step": 19160
    },
    {
      "epoch": 0.0399375,
      "grad_norm": 0.7836639881134033,
      "learning_rate": 0.00029904591981276936,
      "loss": 3.9807,
      "step": 19170
    },
    {
      "epoch": 0.03995833333333333,
      "grad_norm": 0.8117405772209167,
      "learning_rate": 0.0002990448093365352,
      "loss": 4.0027,
      "step": 19180
    },
    {
      "epoch": 0.03997916666666667,
      "grad_norm": 0.9094319343566895,
      "learning_rate": 0.00029904369821648645,
      "loss": 3.9399,
      "step": 19190
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8511267304420471,
      "learning_rate": 0.0002990425864526279,
      "loss": 3.9751,
      "step": 19200
    },
    {
      "epoch": 0.04002083333333333,
      "grad_norm": 0.8012973070144653,
      "learning_rate": 0.00029904147404496436,
      "loss": 4.2045,
      "step": 19210
    },
    {
      "epoch": 0.04004166666666667,
      "grad_norm": 0.8121950030326843,
      "learning_rate": 0.00029904036099350065,
      "loss": 4.0326,
      "step": 19220
    },
    {
      "epoch": 0.0400625,
      "grad_norm": 0.9457129836082458,
      "learning_rate": 0.00029903924729824164,
      "loss": 3.8929,
      "step": 19230
    },
    {
      "epoch": 0.04008333333333333,
      "grad_norm": 0.8939108848571777,
      "learning_rate": 0.000299038132959192,
      "loss": 4.0577,
      "step": 19240
    },
    {
      "epoch": 0.04010416666666667,
      "grad_norm": 0.9702565670013428,
      "learning_rate": 0.00029903701797635667,
      "loss": 4.0625,
      "step": 19250
    },
    {
      "epoch": 0.040125,
      "grad_norm": 0.8929636478424072,
      "learning_rate": 0.00029903590234974035,
      "loss": 3.8455,
      "step": 19260
    },
    {
      "epoch": 0.04014583333333333,
      "grad_norm": 0.770983099937439,
      "learning_rate": 0.000299034786079348,
      "loss": 3.9727,
      "step": 19270
    },
    {
      "epoch": 0.04016666666666667,
      "grad_norm": 0.7728239893913269,
      "learning_rate": 0.0002990336691651843,
      "loss": 4.1381,
      "step": 19280
    },
    {
      "epoch": 0.0401875,
      "grad_norm": 0.9467799067497253,
      "learning_rate": 0.0002990325516072542,
      "loss": 3.8386,
      "step": 19290
    },
    {
      "epoch": 0.04020833333333333,
      "grad_norm": 0.7413394451141357,
      "learning_rate": 0.0002990314334055625,
      "loss": 4.0526,
      "step": 19300
    },
    {
      "epoch": 0.04022916666666667,
      "grad_norm": 0.8904475569725037,
      "learning_rate": 0.0002990303145601139,
      "loss": 4.0035,
      "step": 19310
    },
    {
      "epoch": 0.04025,
      "grad_norm": 0.9265841245651245,
      "learning_rate": 0.0002990291950709134,
      "loss": 3.9815,
      "step": 19320
    },
    {
      "epoch": 0.04027083333333333,
      "grad_norm": 0.8558010458946228,
      "learning_rate": 0.0002990280749379657,
      "loss": 4.1903,
      "step": 19330
    },
    {
      "epoch": 0.04029166666666667,
      "grad_norm": 0.854515552520752,
      "learning_rate": 0.0002990269541612757,
      "loss": 4.0478,
      "step": 19340
    },
    {
      "epoch": 0.0403125,
      "grad_norm": 0.7501394152641296,
      "learning_rate": 0.0002990258327408483,
      "loss": 3.8788,
      "step": 19350
    },
    {
      "epoch": 0.04033333333333333,
      "grad_norm": 0.8303591012954712,
      "learning_rate": 0.0002990247106766883,
      "loss": 4.1537,
      "step": 19360
    },
    {
      "epoch": 0.04035416666666667,
      "grad_norm": 0.8489549160003662,
      "learning_rate": 0.00029902358796880053,
      "loss": 3.9616,
      "step": 19370
    },
    {
      "epoch": 0.040375,
      "grad_norm": 0.9887664318084717,
      "learning_rate": 0.0002990224646171898,
      "loss": 4.0038,
      "step": 19380
    },
    {
      "epoch": 0.04039583333333333,
      "grad_norm": 0.9427640438079834,
      "learning_rate": 0.0002990213406218611,
      "loss": 4.1949,
      "step": 19390
    },
    {
      "epoch": 0.04041666666666666,
      "grad_norm": 0.9842920303344727,
      "learning_rate": 0.00029902021598281913,
      "loss": 4.0348,
      "step": 19400
    },
    {
      "epoch": 0.0404375,
      "grad_norm": 0.932799220085144,
      "learning_rate": 0.00029901909070006885,
      "loss": 4.0667,
      "step": 19410
    },
    {
      "epoch": 0.04045833333333333,
      "grad_norm": 0.9740130305290222,
      "learning_rate": 0.00029901796477361506,
      "loss": 4.0779,
      "step": 19420
    },
    {
      "epoch": 0.04047916666666666,
      "grad_norm": 0.8243486881256104,
      "learning_rate": 0.0002990168382034626,
      "loss": 4.0661,
      "step": 19430
    },
    {
      "epoch": 0.0405,
      "grad_norm": 0.8936859965324402,
      "learning_rate": 0.0002990157109896165,
      "loss": 4.1681,
      "step": 19440
    },
    {
      "epoch": 0.04052083333333333,
      "grad_norm": 0.7526562809944153,
      "learning_rate": 0.0002990145831320814,
      "loss": 4.0743,
      "step": 19450
    },
    {
      "epoch": 0.04054166666666666,
      "grad_norm": 0.9612098336219788,
      "learning_rate": 0.0002990134546308623,
      "loss": 4.0618,
      "step": 19460
    },
    {
      "epoch": 0.0405625,
      "grad_norm": 0.8145372271537781,
      "learning_rate": 0.00029901232548596417,
      "loss": 4.0131,
      "step": 19470
    },
    {
      "epoch": 0.04058333333333333,
      "grad_norm": 0.7904540300369263,
      "learning_rate": 0.00029901119569739163,
      "loss": 4.029,
      "step": 19480
    },
    {
      "epoch": 0.04060416666666666,
      "grad_norm": 0.895660936832428,
      "learning_rate": 0.0002990100652651498,
      "loss": 4.0449,
      "step": 19490
    },
    {
      "epoch": 0.040625,
      "grad_norm": 0.774512529373169,
      "learning_rate": 0.00029900893418924345,
      "loss": 4.1697,
      "step": 19500
    },
    {
      "epoch": 0.04064583333333333,
      "grad_norm": 0.7943359017372131,
      "learning_rate": 0.00029900780246967746,
      "loss": 4.0913,
      "step": 19510
    },
    {
      "epoch": 0.04066666666666666,
      "grad_norm": 0.9477747678756714,
      "learning_rate": 0.0002990066701064568,
      "loss": 4.1187,
      "step": 19520
    },
    {
      "epoch": 0.0406875,
      "grad_norm": 0.7964714169502258,
      "learning_rate": 0.00029900553709958624,
      "loss": 4.0871,
      "step": 19530
    },
    {
      "epoch": 0.04070833333333333,
      "grad_norm": 0.9286220669746399,
      "learning_rate": 0.0002990044034490708,
      "loss": 3.9705,
      "step": 19540
    },
    {
      "epoch": 0.040729166666666664,
      "grad_norm": 0.8784612417221069,
      "learning_rate": 0.00029900326915491526,
      "loss": 4.2264,
      "step": 19550
    },
    {
      "epoch": 0.04075,
      "grad_norm": 0.9004016518592834,
      "learning_rate": 0.0002990021342171246,
      "loss": 4.134,
      "step": 19560
    },
    {
      "epoch": 0.04077083333333333,
      "grad_norm": 0.7956963181495667,
      "learning_rate": 0.0002990009986357037,
      "loss": 4.0411,
      "step": 19570
    },
    {
      "epoch": 0.040791666666666664,
      "grad_norm": 0.8759351372718811,
      "learning_rate": 0.0002989998624106575,
      "loss": 3.9668,
      "step": 19580
    },
    {
      "epoch": 0.0408125,
      "grad_norm": 0.7882117033004761,
      "learning_rate": 0.0002989987255419908,
      "loss": 3.9748,
      "step": 19590
    },
    {
      "epoch": 0.04083333333333333,
      "grad_norm": 0.7675451040267944,
      "learning_rate": 0.00029899758802970865,
      "loss": 3.9407,
      "step": 19600
    },
    {
      "epoch": 0.040854166666666664,
      "grad_norm": 0.8273264765739441,
      "learning_rate": 0.0002989964498738159,
      "loss": 3.9075,
      "step": 19610
    },
    {
      "epoch": 0.040875,
      "grad_norm": 0.8595001101493835,
      "learning_rate": 0.00029899531107431743,
      "loss": 4.2709,
      "step": 19620
    },
    {
      "epoch": 0.04089583333333333,
      "grad_norm": 0.7630137205123901,
      "learning_rate": 0.0002989941716312182,
      "loss": 4.1199,
      "step": 19630
    },
    {
      "epoch": 0.040916666666666664,
      "grad_norm": 0.8992254734039307,
      "learning_rate": 0.00029899303154452307,
      "loss": 3.9466,
      "step": 19640
    },
    {
      "epoch": 0.0409375,
      "grad_norm": 0.8261836171150208,
      "learning_rate": 0.0002989918908142371,
      "loss": 4.0807,
      "step": 19650
    },
    {
      "epoch": 0.04095833333333333,
      "grad_norm": 0.8630461096763611,
      "learning_rate": 0.00029899074944036514,
      "loss": 4.0508,
      "step": 19660
    },
    {
      "epoch": 0.040979166666666664,
      "grad_norm": 0.8429964184761047,
      "learning_rate": 0.00029898960742291204,
      "loss": 4.0517,
      "step": 19670
    },
    {
      "epoch": 0.041,
      "grad_norm": 0.842780590057373,
      "learning_rate": 0.0002989884647618829,
      "loss": 3.9959,
      "step": 19680
    },
    {
      "epoch": 0.04102083333333333,
      "grad_norm": 0.8531880974769592,
      "learning_rate": 0.0002989873214572825,
      "loss": 4.0766,
      "step": 19690
    },
    {
      "epoch": 0.041041666666666664,
      "grad_norm": 0.8812277913093567,
      "learning_rate": 0.00029898617750911586,
      "loss": 4.0027,
      "step": 19700
    },
    {
      "epoch": 0.0410625,
      "grad_norm": 0.9288310408592224,
      "learning_rate": 0.00029898503291738793,
      "loss": 4.0754,
      "step": 19710
    },
    {
      "epoch": 0.04108333333333333,
      "grad_norm": 0.7201988101005554,
      "learning_rate": 0.0002989838876821036,
      "loss": 3.9664,
      "step": 19720
    },
    {
      "epoch": 0.041104166666666664,
      "grad_norm": 0.8363280296325684,
      "learning_rate": 0.0002989827418032679,
      "loss": 3.9896,
      "step": 19730
    },
    {
      "epoch": 0.041125,
      "grad_norm": 0.8436617851257324,
      "learning_rate": 0.0002989815952808857,
      "loss": 3.961,
      "step": 19740
    },
    {
      "epoch": 0.04114583333333333,
      "grad_norm": 0.7581911087036133,
      "learning_rate": 0.0002989804481149619,
      "loss": 3.973,
      "step": 19750
    },
    {
      "epoch": 0.041166666666666664,
      "grad_norm": 0.9866726994514465,
      "learning_rate": 0.0002989793003055016,
      "loss": 3.9393,
      "step": 19760
    },
    {
      "epoch": 0.0411875,
      "grad_norm": 0.8931960463523865,
      "learning_rate": 0.0002989781518525097,
      "loss": 4.1512,
      "step": 19770
    },
    {
      "epoch": 0.04120833333333333,
      "grad_norm": 0.8303420543670654,
      "learning_rate": 0.00029897700275599115,
      "loss": 3.9041,
      "step": 19780
    },
    {
      "epoch": 0.041229166666666664,
      "grad_norm": 0.8282143473625183,
      "learning_rate": 0.00029897585301595094,
      "loss": 4.0572,
      "step": 19790
    },
    {
      "epoch": 0.04125,
      "grad_norm": 0.8140398263931274,
      "learning_rate": 0.00029897470263239397,
      "loss": 3.8685,
      "step": 19800
    },
    {
      "epoch": 0.04127083333333333,
      "grad_norm": 0.8276671171188354,
      "learning_rate": 0.0002989735516053253,
      "loss": 4.214,
      "step": 19810
    },
    {
      "epoch": 0.041291666666666664,
      "grad_norm": 0.8132264614105225,
      "learning_rate": 0.0002989723999347498,
      "loss": 4.1084,
      "step": 19820
    },
    {
      "epoch": 0.0413125,
      "grad_norm": 0.8550259470939636,
      "learning_rate": 0.00029897124762067254,
      "loss": 3.9829,
      "step": 19830
    },
    {
      "epoch": 0.04133333333333333,
      "grad_norm": 0.8192998766899109,
      "learning_rate": 0.00029897009466309845,
      "loss": 4.0238,
      "step": 19840
    },
    {
      "epoch": 0.041354166666666664,
      "grad_norm": 0.8596383929252625,
      "learning_rate": 0.0002989689410620325,
      "loss": 4.0818,
      "step": 19850
    },
    {
      "epoch": 0.041375,
      "grad_norm": 0.8116164803504944,
      "learning_rate": 0.0002989677868174797,
      "loss": 4.0884,
      "step": 19860
    },
    {
      "epoch": 0.04139583333333333,
      "grad_norm": 0.7821484804153442,
      "learning_rate": 0.00029896663192944503,
      "loss": 4.0213,
      "step": 19870
    },
    {
      "epoch": 0.041416666666666664,
      "grad_norm": 0.8388898968696594,
      "learning_rate": 0.00029896547639793347,
      "loss": 4.1012,
      "step": 19880
    },
    {
      "epoch": 0.0414375,
      "grad_norm": 0.8078532218933105,
      "learning_rate": 0.00029896432022295,
      "loss": 3.987,
      "step": 19890
    },
    {
      "epoch": 0.04145833333333333,
      "grad_norm": 0.7909790873527527,
      "learning_rate": 0.0002989631634044997,
      "loss": 4.0759,
      "step": 19900
    },
    {
      "epoch": 0.041479166666666664,
      "grad_norm": 0.87013179063797,
      "learning_rate": 0.0002989620059425874,
      "loss": 4.0145,
      "step": 19910
    },
    {
      "epoch": 0.0415,
      "grad_norm": 0.9134252071380615,
      "learning_rate": 0.00029896084783721826,
      "loss": 4.2776,
      "step": 19920
    },
    {
      "epoch": 0.04152083333333333,
      "grad_norm": 0.8537418842315674,
      "learning_rate": 0.00029895968908839725,
      "loss": 3.9478,
      "step": 19930
    },
    {
      "epoch": 0.041541666666666664,
      "grad_norm": 0.7740315198898315,
      "learning_rate": 0.0002989585296961293,
      "loss": 3.9771,
      "step": 19940
    },
    {
      "epoch": 0.0415625,
      "grad_norm": 0.9200629591941833,
      "learning_rate": 0.0002989573696604194,
      "loss": 3.8804,
      "step": 19950
    },
    {
      "epoch": 0.04158333333333333,
      "grad_norm": 0.8819804787635803,
      "learning_rate": 0.00029895620898127273,
      "loss": 3.979,
      "step": 19960
    },
    {
      "epoch": 0.041604166666666664,
      "grad_norm": 0.7973604202270508,
      "learning_rate": 0.00029895504765869416,
      "loss": 4.0228,
      "step": 19970
    },
    {
      "epoch": 0.041625,
      "grad_norm": 0.7860952019691467,
      "learning_rate": 0.00029895388569268875,
      "loss": 4.1862,
      "step": 19980
    },
    {
      "epoch": 0.04164583333333333,
      "grad_norm": 0.7795244455337524,
      "learning_rate": 0.0002989527230832615,
      "loss": 4.0954,
      "step": 19990
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 0.8634036779403687,
      "learning_rate": 0.0002989515598304175,
      "loss": 4.0671,
      "step": 20000
    },
    {
      "epoch": 0.041666666666666664,
      "eval_loss": 4.356691837310791,
      "eval_runtime": 9.3469,
      "eval_samples_per_second": 1.07,
      "eval_steps_per_second": 0.321,
      "step": 20000
    },
    {
      "epoch": 0.0416875,
      "grad_norm": 0.8759312629699707,
      "learning_rate": 0.0002989503959341616,
      "loss": 3.9117,
      "step": 20010
    },
    {
      "epoch": 0.04170833333333333,
      "grad_norm": 0.7715888023376465,
      "learning_rate": 0.00029894923139449906,
      "loss": 4.0521,
      "step": 20020
    },
    {
      "epoch": 0.041729166666666664,
      "grad_norm": 0.8118507266044617,
      "learning_rate": 0.00029894806621143477,
      "loss": 4.0882,
      "step": 20030
    },
    {
      "epoch": 0.04175,
      "grad_norm": 0.8489455580711365,
      "learning_rate": 0.00029894690038497374,
      "loss": 4.0879,
      "step": 20040
    },
    {
      "epoch": 0.04177083333333333,
      "grad_norm": 0.7553942799568176,
      "learning_rate": 0.0002989457339151211,
      "loss": 4.2581,
      "step": 20050
    },
    {
      "epoch": 0.041791666666666664,
      "grad_norm": 0.7601281404495239,
      "learning_rate": 0.00029894456680188184,
      "loss": 4.0657,
      "step": 20060
    },
    {
      "epoch": 0.0418125,
      "grad_norm": 0.8257625102996826,
      "learning_rate": 0.000298943399045261,
      "loss": 4.1645,
      "step": 20070
    },
    {
      "epoch": 0.041833333333333333,
      "grad_norm": 0.9124462604522705,
      "learning_rate": 0.00029894223064526364,
      "loss": 4.0896,
      "step": 20080
    },
    {
      "epoch": 0.041854166666666665,
      "grad_norm": 0.7645278573036194,
      "learning_rate": 0.0002989410616018948,
      "loss": 3.9214,
      "step": 20090
    },
    {
      "epoch": 0.041875,
      "grad_norm": 0.7650265097618103,
      "learning_rate": 0.00029893989191515953,
      "loss": 3.9849,
      "step": 20100
    },
    {
      "epoch": 0.041895833333333334,
      "grad_norm": 0.8830063343048096,
      "learning_rate": 0.0002989387215850629,
      "loss": 4.0202,
      "step": 20110
    },
    {
      "epoch": 0.041916666666666665,
      "grad_norm": 0.9637686610221863,
      "learning_rate": 0.00029893755061160995,
      "loss": 3.9164,
      "step": 20120
    },
    {
      "epoch": 0.0419375,
      "grad_norm": 0.7511094212532043,
      "learning_rate": 0.0002989363789948057,
      "loss": 4.1804,
      "step": 20130
    },
    {
      "epoch": 0.041958333333333334,
      "grad_norm": 0.8582311272621155,
      "learning_rate": 0.0002989352067346553,
      "loss": 3.8717,
      "step": 20140
    },
    {
      "epoch": 0.041979166666666665,
      "grad_norm": 0.8694915175437927,
      "learning_rate": 0.0002989340338311637,
      "loss": 4.1398,
      "step": 20150
    },
    {
      "epoch": 0.042,
      "grad_norm": 0.9513646960258484,
      "learning_rate": 0.0002989328602843361,
      "loss": 4.0545,
      "step": 20160
    },
    {
      "epoch": 0.042020833333333334,
      "grad_norm": 0.8045638799667358,
      "learning_rate": 0.00029893168609417735,
      "loss": 3.9002,
      "step": 20170
    },
    {
      "epoch": 0.042041666666666665,
      "grad_norm": 0.8433430790901184,
      "learning_rate": 0.0002989305112606928,
      "loss": 4.1201,
      "step": 20180
    },
    {
      "epoch": 0.0420625,
      "grad_norm": 0.9190186858177185,
      "learning_rate": 0.0002989293357838874,
      "loss": 3.9669,
      "step": 20190
    },
    {
      "epoch": 0.042083333333333334,
      "grad_norm": 0.8294636607170105,
      "learning_rate": 0.0002989281596637661,
      "loss": 4.0941,
      "step": 20200
    },
    {
      "epoch": 0.042104166666666665,
      "grad_norm": 0.7841537594795227,
      "learning_rate": 0.0002989269829003342,
      "loss": 3.9028,
      "step": 20210
    },
    {
      "epoch": 0.042125,
      "grad_norm": 0.8012672662734985,
      "learning_rate": 0.00029892580549359664,
      "loss": 4.0301,
      "step": 20220
    },
    {
      "epoch": 0.042145833333333334,
      "grad_norm": 0.7876178026199341,
      "learning_rate": 0.00029892462744355853,
      "loss": 4.0458,
      "step": 20230
    },
    {
      "epoch": 0.042166666666666665,
      "grad_norm": 0.8605347275733948,
      "learning_rate": 0.00029892344875022506,
      "loss": 4.1663,
      "step": 20240
    },
    {
      "epoch": 0.0421875,
      "grad_norm": 0.808997392654419,
      "learning_rate": 0.0002989222694136012,
      "loss": 4.1925,
      "step": 20250
    },
    {
      "epoch": 0.042208333333333334,
      "grad_norm": 0.9098405838012695,
      "learning_rate": 0.00029892108943369207,
      "loss": 4.1443,
      "step": 20260
    },
    {
      "epoch": 0.042229166666666665,
      "grad_norm": 1.0289746522903442,
      "learning_rate": 0.0002989199088105028,
      "loss": 4.0824,
      "step": 20270
    },
    {
      "epoch": 0.04225,
      "grad_norm": 1.152687668800354,
      "learning_rate": 0.00029891872754403843,
      "loss": 4.1575,
      "step": 20280
    },
    {
      "epoch": 0.042270833333333334,
      "grad_norm": 0.9322471618652344,
      "learning_rate": 0.0002989175456343041,
      "loss": 3.8919,
      "step": 20290
    },
    {
      "epoch": 0.042291666666666665,
      "grad_norm": 0.8055235147476196,
      "learning_rate": 0.00029891636308130497,
      "loss": 3.9307,
      "step": 20300
    },
    {
      "epoch": 0.0423125,
      "grad_norm": 0.8612207770347595,
      "learning_rate": 0.0002989151798850461,
      "loss": 3.8903,
      "step": 20310
    },
    {
      "epoch": 0.042333333333333334,
      "grad_norm": 0.8071341514587402,
      "learning_rate": 0.00029891399604553255,
      "loss": 4.1545,
      "step": 20320
    },
    {
      "epoch": 0.042354166666666665,
      "grad_norm": 0.8333863019943237,
      "learning_rate": 0.00029891281156276954,
      "loss": 4.1198,
      "step": 20330
    },
    {
      "epoch": 0.042375,
      "grad_norm": 0.9973903298377991,
      "learning_rate": 0.0002989116264367621,
      "loss": 4.0832,
      "step": 20340
    },
    {
      "epoch": 0.042395833333333334,
      "grad_norm": 0.91508549451828,
      "learning_rate": 0.00029891044066751533,
      "loss": 3.9209,
      "step": 20350
    },
    {
      "epoch": 0.042416666666666665,
      "grad_norm": 0.8464558720588684,
      "learning_rate": 0.00029890925425503443,
      "loss": 4.1249,
      "step": 20360
    },
    {
      "epoch": 0.0424375,
      "grad_norm": 0.9107999205589294,
      "learning_rate": 0.0002989080671993245,
      "loss": 3.9123,
      "step": 20370
    },
    {
      "epoch": 0.042458333333333334,
      "grad_norm": 0.8324167132377625,
      "learning_rate": 0.0002989068795003907,
      "loss": 4.1045,
      "step": 20380
    },
    {
      "epoch": 0.042479166666666665,
      "grad_norm": 1.1924091577529907,
      "learning_rate": 0.0002989056911582381,
      "loss": 4.1479,
      "step": 20390
    },
    {
      "epoch": 0.0425,
      "grad_norm": 0.7891703844070435,
      "learning_rate": 0.0002989045021728718,
      "loss": 3.8278,
      "step": 20400
    },
    {
      "epoch": 0.042520833333333334,
      "grad_norm": 0.9066067337989807,
      "learning_rate": 0.000298903312544297,
      "loss": 3.8816,
      "step": 20410
    },
    {
      "epoch": 0.042541666666666665,
      "grad_norm": 0.7761522531509399,
      "learning_rate": 0.0002989021222725189,
      "loss": 4.0225,
      "step": 20420
    },
    {
      "epoch": 0.0425625,
      "grad_norm": 0.7034361958503723,
      "learning_rate": 0.0002989009313575426,
      "loss": 3.9949,
      "step": 20430
    },
    {
      "epoch": 0.042583333333333334,
      "grad_norm": 0.8663376569747925,
      "learning_rate": 0.00029889973979937306,
      "loss": 3.9422,
      "step": 20440
    },
    {
      "epoch": 0.042604166666666665,
      "grad_norm": 0.8308099508285522,
      "learning_rate": 0.0002988985475980157,
      "loss": 4.1418,
      "step": 20450
    },
    {
      "epoch": 0.042625,
      "grad_norm": 0.8246246576309204,
      "learning_rate": 0.0002988973547534755,
      "loss": 4.1612,
      "step": 20460
    },
    {
      "epoch": 0.042645833333333334,
      "grad_norm": 0.8274480700492859,
      "learning_rate": 0.00029889616126575774,
      "loss": 4.0601,
      "step": 20470
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 0.8237221837043762,
      "learning_rate": 0.00029889496713486743,
      "loss": 4.0561,
      "step": 20480
    },
    {
      "epoch": 0.0426875,
      "grad_norm": 0.8102717399597168,
      "learning_rate": 0.0002988937723608098,
      "loss": 4.0598,
      "step": 20490
    },
    {
      "epoch": 0.042708333333333334,
      "grad_norm": 0.8775338530540466,
      "learning_rate": 0.00029889257694359005,
      "loss": 3.978,
      "step": 20500
    },
    {
      "epoch": 0.042729166666666665,
      "grad_norm": 0.9087735414505005,
      "learning_rate": 0.0002988913808832133,
      "loss": 3.9511,
      "step": 20510
    },
    {
      "epoch": 0.04275,
      "grad_norm": 0.8823198080062866,
      "learning_rate": 0.00029889018417968464,
      "loss": 4.1523,
      "step": 20520
    },
    {
      "epoch": 0.042770833333333334,
      "grad_norm": 0.7123168110847473,
      "learning_rate": 0.0002988889868330094,
      "loss": 4.2501,
      "step": 20530
    },
    {
      "epoch": 0.042791666666666665,
      "grad_norm": 0.838696300983429,
      "learning_rate": 0.00029888778884319266,
      "loss": 4.2978,
      "step": 20540
    },
    {
      "epoch": 0.0428125,
      "grad_norm": 0.8302586674690247,
      "learning_rate": 0.0002988865902102396,
      "loss": 4.1594,
      "step": 20550
    },
    {
      "epoch": 0.042833333333333334,
      "grad_norm": 0.7455853223800659,
      "learning_rate": 0.0002988853909341554,
      "loss": 3.9102,
      "step": 20560
    },
    {
      "epoch": 0.042854166666666665,
      "grad_norm": 0.8502945899963379,
      "learning_rate": 0.00029888419101494526,
      "loss": 4.2051,
      "step": 20570
    },
    {
      "epoch": 0.042875,
      "grad_norm": 0.9518006443977356,
      "learning_rate": 0.0002988829904526143,
      "loss": 4.1166,
      "step": 20580
    },
    {
      "epoch": 0.042895833333333334,
      "grad_norm": 0.9034779667854309,
      "learning_rate": 0.0002988817892471678,
      "loss": 4.0879,
      "step": 20590
    },
    {
      "epoch": 0.042916666666666665,
      "grad_norm": 0.85948246717453,
      "learning_rate": 0.00029888058739861094,
      "loss": 4.3566,
      "step": 20600
    },
    {
      "epoch": 0.0429375,
      "grad_norm": 0.9593669772148132,
      "learning_rate": 0.0002988793849069488,
      "loss": 3.9918,
      "step": 20610
    },
    {
      "epoch": 0.042958333333333334,
      "grad_norm": 0.8105344176292419,
      "learning_rate": 0.00029887818177218664,
      "loss": 4.051,
      "step": 20620
    },
    {
      "epoch": 0.042979166666666666,
      "grad_norm": 0.7919904589653015,
      "learning_rate": 0.00029887697799432973,
      "loss": 3.9889,
      "step": 20630
    },
    {
      "epoch": 0.043,
      "grad_norm": 0.7364378571510315,
      "learning_rate": 0.0002988757735733831,
      "loss": 4.1475,
      "step": 20640
    },
    {
      "epoch": 0.043020833333333335,
      "grad_norm": 0.9468852281570435,
      "learning_rate": 0.0002988745685093522,
      "loss": 3.9732,
      "step": 20650
    },
    {
      "epoch": 0.043041666666666666,
      "grad_norm": 0.7278488278388977,
      "learning_rate": 0.000298873362802242,
      "loss": 3.9801,
      "step": 20660
    },
    {
      "epoch": 0.0430625,
      "grad_norm": 0.8633148670196533,
      "learning_rate": 0.00029887215645205785,
      "loss": 3.9939,
      "step": 20670
    },
    {
      "epoch": 0.043083333333333335,
      "grad_norm": 0.7592607140541077,
      "learning_rate": 0.00029887094945880483,
      "loss": 4.1462,
      "step": 20680
    },
    {
      "epoch": 0.043104166666666666,
      "grad_norm": 0.9357673525810242,
      "learning_rate": 0.0002988697418224883,
      "loss": 4.2028,
      "step": 20690
    },
    {
      "epoch": 0.043125,
      "grad_norm": 0.7456374168395996,
      "learning_rate": 0.0002988685335431134,
      "loss": 4.0889,
      "step": 20700
    },
    {
      "epoch": 0.043145833333333335,
      "grad_norm": 0.8095307350158691,
      "learning_rate": 0.00029886732462068534,
      "loss": 4.0449,
      "step": 20710
    },
    {
      "epoch": 0.043166666666666666,
      "grad_norm": 0.8302525877952576,
      "learning_rate": 0.0002988661150552094,
      "loss": 4.1706,
      "step": 20720
    },
    {
      "epoch": 0.0431875,
      "grad_norm": 0.8823374509811401,
      "learning_rate": 0.00029886490484669077,
      "loss": 4.0623,
      "step": 20730
    },
    {
      "epoch": 0.043208333333333335,
      "grad_norm": 0.8972064852714539,
      "learning_rate": 0.00029886369399513465,
      "loss": 3.984,
      "step": 20740
    },
    {
      "epoch": 0.043229166666666666,
      "grad_norm": 0.7620996832847595,
      "learning_rate": 0.0002988624825005463,
      "loss": 4.028,
      "step": 20750
    },
    {
      "epoch": 0.04325,
      "grad_norm": 0.7509312033653259,
      "learning_rate": 0.000298861270362931,
      "loss": 3.9502,
      "step": 20760
    },
    {
      "epoch": 0.043270833333333335,
      "grad_norm": 1.1475015878677368,
      "learning_rate": 0.0002988600575822938,
      "loss": 3.975,
      "step": 20770
    },
    {
      "epoch": 0.043291666666666666,
      "grad_norm": 0.8252683877944946,
      "learning_rate": 0.0002988588441586402,
      "loss": 4.1735,
      "step": 20780
    },
    {
      "epoch": 0.0433125,
      "grad_norm": 0.8755101561546326,
      "learning_rate": 0.00029885763009197526,
      "loss": 4.0033,
      "step": 20790
    },
    {
      "epoch": 0.043333333333333335,
      "grad_norm": 0.9288033246994019,
      "learning_rate": 0.0002988564153823043,
      "loss": 4.0037,
      "step": 20800
    },
    {
      "epoch": 0.043354166666666666,
      "grad_norm": 0.9187635779380798,
      "learning_rate": 0.00029885520002963256,
      "loss": 4.0188,
      "step": 20810
    },
    {
      "epoch": 0.043375,
      "grad_norm": 0.8449559211730957,
      "learning_rate": 0.0002988539840339653,
      "loss": 4.0035,
      "step": 20820
    },
    {
      "epoch": 0.043395833333333335,
      "grad_norm": 0.9719502925872803,
      "learning_rate": 0.0002988527673953077,
      "loss": 3.9277,
      "step": 20830
    },
    {
      "epoch": 0.043416666666666666,
      "grad_norm": 0.8123107552528381,
      "learning_rate": 0.00029885155011366506,
      "loss": 3.9122,
      "step": 20840
    },
    {
      "epoch": 0.0434375,
      "grad_norm": 0.9114618897438049,
      "learning_rate": 0.00029885033218904263,
      "loss": 4.028,
      "step": 20850
    },
    {
      "epoch": 0.043458333333333335,
      "grad_norm": 0.9195820093154907,
      "learning_rate": 0.00029884911362144576,
      "loss": 3.9208,
      "step": 20860
    },
    {
      "epoch": 0.043479166666666666,
      "grad_norm": 0.8139805793762207,
      "learning_rate": 0.0002988478944108796,
      "loss": 4.1397,
      "step": 20870
    },
    {
      "epoch": 0.0435,
      "grad_norm": 0.8421893119812012,
      "learning_rate": 0.0002988466745573494,
      "loss": 4.0376,
      "step": 20880
    },
    {
      "epoch": 0.043520833333333335,
      "grad_norm": 0.7710242867469788,
      "learning_rate": 0.00029884545406086053,
      "loss": 4.1664,
      "step": 20890
    },
    {
      "epoch": 0.043541666666666666,
      "grad_norm": 0.8128140568733215,
      "learning_rate": 0.0002988442329214182,
      "loss": 4.1851,
      "step": 20900
    },
    {
      "epoch": 0.0435625,
      "grad_norm": 0.9261941313743591,
      "learning_rate": 0.00029884301113902777,
      "loss": 4.2067,
      "step": 20910
    },
    {
      "epoch": 0.043583333333333335,
      "grad_norm": 0.713985800743103,
      "learning_rate": 0.00029884178871369434,
      "loss": 4.0594,
      "step": 20920
    },
    {
      "epoch": 0.043604166666666666,
      "grad_norm": 0.9778813123703003,
      "learning_rate": 0.0002988405656454234,
      "loss": 4.0018,
      "step": 20930
    },
    {
      "epoch": 0.043625,
      "grad_norm": 0.8556178212165833,
      "learning_rate": 0.00029883934193422005,
      "loss": 3.9153,
      "step": 20940
    },
    {
      "epoch": 0.043645833333333335,
      "grad_norm": 0.9584822058677673,
      "learning_rate": 0.0002988381175800897,
      "loss": 4.1116,
      "step": 20950
    },
    {
      "epoch": 0.043666666666666666,
      "grad_norm": 0.8164499402046204,
      "learning_rate": 0.0002988368925830376,
      "loss": 4.0733,
      "step": 20960
    },
    {
      "epoch": 0.0436875,
      "grad_norm": 0.8415399789810181,
      "learning_rate": 0.00029883566694306903,
      "loss": 3.8703,
      "step": 20970
    },
    {
      "epoch": 0.043708333333333335,
      "grad_norm": 0.8571978807449341,
      "learning_rate": 0.00029883444066018927,
      "loss": 3.9118,
      "step": 20980
    },
    {
      "epoch": 0.043729166666666666,
      "grad_norm": 0.9375819563865662,
      "learning_rate": 0.0002988332137344037,
      "loss": 4.011,
      "step": 20990
    },
    {
      "epoch": 0.04375,
      "grad_norm": 0.9054540395736694,
      "learning_rate": 0.00029883198616571745,
      "loss": 4.0745,
      "step": 21000
    },
    {
      "epoch": 0.04375,
      "eval_loss": 4.342305660247803,
      "eval_runtime": 10.6161,
      "eval_samples_per_second": 0.942,
      "eval_steps_per_second": 0.283,
      "step": 21000
    },
    {
      "epoch": 0.043770833333333335,
      "grad_norm": 0.7840487360954285,
      "learning_rate": 0.000298830757954136,
      "loss": 4.0177,
      "step": 21010
    },
    {
      "epoch": 0.043791666666666666,
      "grad_norm": 0.7767271995544434,
      "learning_rate": 0.0002988295290996646,
      "loss": 3.9951,
      "step": 21020
    },
    {
      "epoch": 0.0438125,
      "grad_norm": 0.8999386429786682,
      "learning_rate": 0.0002988282996023085,
      "loss": 3.9783,
      "step": 21030
    },
    {
      "epoch": 0.043833333333333335,
      "grad_norm": 0.8055039048194885,
      "learning_rate": 0.00029882706946207313,
      "loss": 3.9577,
      "step": 21040
    },
    {
      "epoch": 0.043854166666666666,
      "grad_norm": 0.955872654914856,
      "learning_rate": 0.0002988258386789637,
      "loss": 3.9639,
      "step": 21050
    },
    {
      "epoch": 0.043875,
      "grad_norm": 0.7130734324455261,
      "learning_rate": 0.00029882460725298547,
      "loss": 4.2128,
      "step": 21060
    },
    {
      "epoch": 0.043895833333333335,
      "grad_norm": 0.8525375127792358,
      "learning_rate": 0.00029882337518414393,
      "loss": 4.1003,
      "step": 21070
    },
    {
      "epoch": 0.043916666666666666,
      "grad_norm": 0.7908002734184265,
      "learning_rate": 0.00029882214247244434,
      "loss": 3.9476,
      "step": 21080
    },
    {
      "epoch": 0.0439375,
      "grad_norm": 0.9101952910423279,
      "learning_rate": 0.00029882090911789196,
      "loss": 4.1166,
      "step": 21090
    },
    {
      "epoch": 0.043958333333333335,
      "grad_norm": 0.8621652722358704,
      "learning_rate": 0.0002988196751204922,
      "loss": 4.1249,
      "step": 21100
    },
    {
      "epoch": 0.043979166666666666,
      "grad_norm": 0.842359721660614,
      "learning_rate": 0.0002988184404802503,
      "loss": 3.887,
      "step": 21110
    },
    {
      "epoch": 0.044,
      "grad_norm": 0.9741432070732117,
      "learning_rate": 0.0002988172051971717,
      "loss": 4.1093,
      "step": 21120
    },
    {
      "epoch": 0.044020833333333335,
      "grad_norm": 0.7646159529685974,
      "learning_rate": 0.0002988159692712616,
      "loss": 3.9678,
      "step": 21130
    },
    {
      "epoch": 0.044041666666666666,
      "grad_norm": 0.8408020734786987,
      "learning_rate": 0.00029881473270252544,
      "loss": 3.903,
      "step": 21140
    },
    {
      "epoch": 0.0440625,
      "grad_norm": 0.8076792359352112,
      "learning_rate": 0.00029881349549096855,
      "loss": 4.2073,
      "step": 21150
    },
    {
      "epoch": 0.044083333333333335,
      "grad_norm": 0.8714789748191833,
      "learning_rate": 0.0002988122576365963,
      "loss": 4.0777,
      "step": 21160
    },
    {
      "epoch": 0.044104166666666667,
      "grad_norm": 0.7896570563316345,
      "learning_rate": 0.00029881101913941397,
      "loss": 4.0486,
      "step": 21170
    },
    {
      "epoch": 0.044125,
      "grad_norm": 0.9539129734039307,
      "learning_rate": 0.00029880977999942695,
      "loss": 3.9694,
      "step": 21180
    },
    {
      "epoch": 0.044145833333333336,
      "grad_norm": 0.8589633107185364,
      "learning_rate": 0.0002988085402166406,
      "loss": 4.1517,
      "step": 21190
    },
    {
      "epoch": 0.04416666666666667,
      "grad_norm": 0.7775989770889282,
      "learning_rate": 0.0002988072997910602,
      "loss": 3.8292,
      "step": 21200
    },
    {
      "epoch": 0.0441875,
      "grad_norm": 0.7837172150611877,
      "learning_rate": 0.0002988060587226912,
      "loss": 3.9982,
      "step": 21210
    },
    {
      "epoch": 0.044208333333333336,
      "grad_norm": 0.812075674533844,
      "learning_rate": 0.00029880481701153894,
      "loss": 4.0384,
      "step": 21220
    },
    {
      "epoch": 0.04422916666666667,
      "grad_norm": 0.7884976863861084,
      "learning_rate": 0.00029880357465760876,
      "loss": 4.0503,
      "step": 21230
    },
    {
      "epoch": 0.04425,
      "grad_norm": 0.8431472182273865,
      "learning_rate": 0.000298802331660906,
      "loss": 4.0609,
      "step": 21240
    },
    {
      "epoch": 0.044270833333333336,
      "grad_norm": 0.8969181776046753,
      "learning_rate": 0.00029880108802143613,
      "loss": 3.9494,
      "step": 21250
    },
    {
      "epoch": 0.04429166666666667,
      "grad_norm": 0.8280304670333862,
      "learning_rate": 0.00029879984373920446,
      "loss": 3.8908,
      "step": 21260
    },
    {
      "epoch": 0.0443125,
      "grad_norm": 1.0088303089141846,
      "learning_rate": 0.0002987985988142163,
      "loss": 4.0184,
      "step": 21270
    },
    {
      "epoch": 0.044333333333333336,
      "grad_norm": 0.8146201372146606,
      "learning_rate": 0.00029879735324647716,
      "loss": 4.0107,
      "step": 21280
    },
    {
      "epoch": 0.04435416666666667,
      "grad_norm": 0.7911062836647034,
      "learning_rate": 0.0002987961070359923,
      "loss": 4.1728,
      "step": 21290
    },
    {
      "epoch": 0.044375,
      "grad_norm": 0.8497121930122375,
      "learning_rate": 0.0002987948601827672,
      "loss": 3.9123,
      "step": 21300
    },
    {
      "epoch": 0.044395833333333336,
      "grad_norm": 0.9167283177375793,
      "learning_rate": 0.00029879361268680716,
      "loss": 3.9619,
      "step": 21310
    },
    {
      "epoch": 0.04441666666666667,
      "grad_norm": 0.8920363783836365,
      "learning_rate": 0.00029879236454811764,
      "loss": 3.9886,
      "step": 21320
    },
    {
      "epoch": 0.0444375,
      "grad_norm": 0.835915207862854,
      "learning_rate": 0.000298791115766704,
      "loss": 4.0911,
      "step": 21330
    },
    {
      "epoch": 0.044458333333333336,
      "grad_norm": 0.8288701772689819,
      "learning_rate": 0.00029878986634257167,
      "loss": 3.8817,
      "step": 21340
    },
    {
      "epoch": 0.04447916666666667,
      "grad_norm": 0.8506772518157959,
      "learning_rate": 0.00029878861627572595,
      "loss": 3.9851,
      "step": 21350
    },
    {
      "epoch": 0.0445,
      "grad_norm": 0.7778975367546082,
      "learning_rate": 0.0002987873655661723,
      "loss": 4.0973,
      "step": 21360
    },
    {
      "epoch": 0.044520833333333336,
      "grad_norm": 0.8713276982307434,
      "learning_rate": 0.00029878611421391615,
      "loss": 3.9076,
      "step": 21370
    },
    {
      "epoch": 0.04454166666666667,
      "grad_norm": 0.8287427425384521,
      "learning_rate": 0.0002987848622189629,
      "loss": 4.108,
      "step": 21380
    },
    {
      "epoch": 0.0445625,
      "grad_norm": 0.7868844866752625,
      "learning_rate": 0.0002987836095813179,
      "loss": 3.8827,
      "step": 21390
    },
    {
      "epoch": 0.044583333333333336,
      "grad_norm": 0.8835132718086243,
      "learning_rate": 0.0002987823563009866,
      "loss": 4.1014,
      "step": 21400
    },
    {
      "epoch": 0.04460416666666667,
      "grad_norm": 0.7861273288726807,
      "learning_rate": 0.00029878110237797445,
      "loss": 3.9649,
      "step": 21410
    },
    {
      "epoch": 0.044625,
      "grad_norm": 1.045042634010315,
      "learning_rate": 0.0002987798478122868,
      "loss": 3.9185,
      "step": 21420
    },
    {
      "epoch": 0.044645833333333336,
      "grad_norm": 0.8592798113822937,
      "learning_rate": 0.00029877859260392907,
      "loss": 4.2066,
      "step": 21430
    },
    {
      "epoch": 0.04466666666666667,
      "grad_norm": 0.9575827717781067,
      "learning_rate": 0.00029877733675290677,
      "loss": 3.9745,
      "step": 21440
    },
    {
      "epoch": 0.0446875,
      "grad_norm": 1.0012986660003662,
      "learning_rate": 0.00029877608025922526,
      "loss": 4.1846,
      "step": 21450
    },
    {
      "epoch": 0.044708333333333336,
      "grad_norm": 0.861296534538269,
      "learning_rate": 0.00029877482312288997,
      "loss": 4.0348,
      "step": 21460
    },
    {
      "epoch": 0.04472916666666667,
      "grad_norm": 0.8247374296188354,
      "learning_rate": 0.0002987735653439063,
      "loss": 4.0714,
      "step": 21470
    },
    {
      "epoch": 0.04475,
      "grad_norm": 0.8407560586929321,
      "learning_rate": 0.00029877230692227974,
      "loss": 4.002,
      "step": 21480
    },
    {
      "epoch": 0.044770833333333336,
      "grad_norm": 0.8621786832809448,
      "learning_rate": 0.00029877104785801565,
      "loss": 4.0648,
      "step": 21490
    },
    {
      "epoch": 0.04479166666666667,
      "grad_norm": 0.9582839608192444,
      "learning_rate": 0.0002987697881511196,
      "loss": 3.9656,
      "step": 21500
    },
    {
      "epoch": 0.0448125,
      "grad_norm": 0.8821082711219788,
      "learning_rate": 0.0002987685278015969,
      "loss": 4.046,
      "step": 21510
    },
    {
      "epoch": 0.044833333333333336,
      "grad_norm": 0.8624160885810852,
      "learning_rate": 0.0002987672668094531,
      "loss": 4.1448,
      "step": 21520
    },
    {
      "epoch": 0.04485416666666667,
      "grad_norm": 0.762911319732666,
      "learning_rate": 0.0002987660051746936,
      "loss": 4.0884,
      "step": 21530
    },
    {
      "epoch": 0.044875,
      "grad_norm": 0.7878764271736145,
      "learning_rate": 0.0002987647428973237,
      "loss": 4.0743,
      "step": 21540
    },
    {
      "epoch": 0.044895833333333336,
      "grad_norm": 0.8286069631576538,
      "learning_rate": 0.0002987634799773491,
      "loss": 3.9454,
      "step": 21550
    },
    {
      "epoch": 0.04491666666666667,
      "grad_norm": 0.8537937998771667,
      "learning_rate": 0.0002987622164147752,
      "loss": 3.9981,
      "step": 21560
    },
    {
      "epoch": 0.0449375,
      "grad_norm": 0.7299149632453918,
      "learning_rate": 0.00029876095220960735,
      "loss": 3.992,
      "step": 21570
    },
    {
      "epoch": 0.044958333333333336,
      "grad_norm": 0.868556797504425,
      "learning_rate": 0.0002987596873618511,
      "loss": 4.0636,
      "step": 21580
    },
    {
      "epoch": 0.04497916666666667,
      "grad_norm": 0.9318055510520935,
      "learning_rate": 0.00029875842187151183,
      "loss": 4.0708,
      "step": 21590
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.8826606869697571,
      "learning_rate": 0.0002987571557385951,
      "loss": 4.2334,
      "step": 21600
    },
    {
      "epoch": 0.045020833333333336,
      "grad_norm": 0.7222569584846497,
      "learning_rate": 0.00029875588896310636,
      "loss": 3.9474,
      "step": 21610
    },
    {
      "epoch": 0.04504166666666667,
      "grad_norm": 0.8353235125541687,
      "learning_rate": 0.00029875462154505103,
      "loss": 3.9243,
      "step": 21620
    },
    {
      "epoch": 0.0450625,
      "grad_norm": 0.8069102764129639,
      "learning_rate": 0.0002987533534844346,
      "loss": 4.0081,
      "step": 21630
    },
    {
      "epoch": 0.045083333333333336,
      "grad_norm": 0.8081286549568176,
      "learning_rate": 0.0002987520847812626,
      "loss": 3.8208,
      "step": 21640
    },
    {
      "epoch": 0.04510416666666667,
      "grad_norm": 0.9237086176872253,
      "learning_rate": 0.00029875081543554046,
      "loss": 3.9938,
      "step": 21650
    },
    {
      "epoch": 0.045125,
      "grad_norm": 0.7181043028831482,
      "learning_rate": 0.0002987495454472737,
      "loss": 4.2054,
      "step": 21660
    },
    {
      "epoch": 0.045145833333333336,
      "grad_norm": 0.7970734238624573,
      "learning_rate": 0.00029874827481646775,
      "loss": 3.9812,
      "step": 21670
    },
    {
      "epoch": 0.04516666666666667,
      "grad_norm": 0.9189584851264954,
      "learning_rate": 0.0002987470035431281,
      "loss": 3.8936,
      "step": 21680
    },
    {
      "epoch": 0.0451875,
      "grad_norm": 0.7783712148666382,
      "learning_rate": 0.0002987457316272603,
      "loss": 4.0323,
      "step": 21690
    },
    {
      "epoch": 0.045208333333333336,
      "grad_norm": 0.8427685499191284,
      "learning_rate": 0.00029874445906886987,
      "loss": 4.0199,
      "step": 21700
    },
    {
      "epoch": 0.04522916666666667,
      "grad_norm": 0.6924123167991638,
      "learning_rate": 0.0002987431858679622,
      "loss": 4.0269,
      "step": 21710
    },
    {
      "epoch": 0.04525,
      "grad_norm": 0.7433684468269348,
      "learning_rate": 0.00029874191202454285,
      "loss": 4.0587,
      "step": 21720
    },
    {
      "epoch": 0.04527083333333334,
      "grad_norm": 0.8644247651100159,
      "learning_rate": 0.00029874063753861736,
      "loss": 3.9536,
      "step": 21730
    },
    {
      "epoch": 0.04529166666666667,
      "grad_norm": 0.7696301937103271,
      "learning_rate": 0.0002987393624101911,
      "loss": 3.9833,
      "step": 21740
    },
    {
      "epoch": 0.0453125,
      "grad_norm": 0.8788250088691711,
      "learning_rate": 0.00029873808663926976,
      "loss": 3.957,
      "step": 21750
    },
    {
      "epoch": 0.04533333333333334,
      "grad_norm": 0.8382790684700012,
      "learning_rate": 0.0002987368102258587,
      "loss": 4.0449,
      "step": 21760
    },
    {
      "epoch": 0.04535416666666667,
      "grad_norm": 0.9234817028045654,
      "learning_rate": 0.00029873553316996353,
      "loss": 4.1019,
      "step": 21770
    },
    {
      "epoch": 0.045375,
      "grad_norm": 0.9328406453132629,
      "learning_rate": 0.00029873425547158973,
      "loss": 3.9747,
      "step": 21780
    },
    {
      "epoch": 0.04539583333333334,
      "grad_norm": 0.7501475811004639,
      "learning_rate": 0.0002987329771307428,
      "loss": 3.9689,
      "step": 21790
    },
    {
      "epoch": 0.04541666666666667,
      "grad_norm": 0.8602458238601685,
      "learning_rate": 0.00029873169814742827,
      "loss": 3.9403,
      "step": 21800
    },
    {
      "epoch": 0.0454375,
      "grad_norm": 0.8079740405082703,
      "learning_rate": 0.0002987304185216517,
      "loss": 3.9825,
      "step": 21810
    },
    {
      "epoch": 0.04545833333333334,
      "grad_norm": 0.8885995149612427,
      "learning_rate": 0.0002987291382534186,
      "loss": 4.0956,
      "step": 21820
    },
    {
      "epoch": 0.04547916666666667,
      "grad_norm": 0.9286413192749023,
      "learning_rate": 0.0002987278573427345,
      "loss": 3.9514,
      "step": 21830
    },
    {
      "epoch": 0.0455,
      "grad_norm": 0.826884925365448,
      "learning_rate": 0.0002987265757896049,
      "loss": 4.0596,
      "step": 21840
    },
    {
      "epoch": 0.04552083333333334,
      "grad_norm": 0.7914295196533203,
      "learning_rate": 0.0002987252935940354,
      "loss": 4.011,
      "step": 21850
    },
    {
      "epoch": 0.04554166666666667,
      "grad_norm": 0.9241766333580017,
      "learning_rate": 0.0002987240107560314,
      "loss": 3.9946,
      "step": 21860
    },
    {
      "epoch": 0.0455625,
      "grad_norm": 0.9710869193077087,
      "learning_rate": 0.00029872272727559865,
      "loss": 3.811,
      "step": 21870
    },
    {
      "epoch": 0.04558333333333333,
      "grad_norm": 1.0117418766021729,
      "learning_rate": 0.00029872144315274253,
      "loss": 4.0161,
      "step": 21880
    },
    {
      "epoch": 0.04560416666666667,
      "grad_norm": 0.7901581525802612,
      "learning_rate": 0.0002987201583874687,
      "loss": 3.8874,
      "step": 21890
    },
    {
      "epoch": 0.045625,
      "grad_norm": 0.9436231255531311,
      "learning_rate": 0.00029871887297978266,
      "loss": 3.9467,
      "step": 21900
    },
    {
      "epoch": 0.04564583333333333,
      "grad_norm": 0.7543326616287231,
      "learning_rate": 0.0002987175869296899,
      "loss": 4.1383,
      "step": 21910
    },
    {
      "epoch": 0.04566666666666667,
      "grad_norm": 0.8146910071372986,
      "learning_rate": 0.00029871630023719603,
      "loss": 3.7994,
      "step": 21920
    },
    {
      "epoch": 0.0456875,
      "grad_norm": 0.8492389917373657,
      "learning_rate": 0.0002987150129023066,
      "loss": 4.0704,
      "step": 21930
    },
    {
      "epoch": 0.04570833333333333,
      "grad_norm": 0.7508938312530518,
      "learning_rate": 0.0002987137249250272,
      "loss": 3.9807,
      "step": 21940
    },
    {
      "epoch": 0.04572916666666667,
      "grad_norm": 0.9773673415184021,
      "learning_rate": 0.0002987124363053634,
      "loss": 4.1246,
      "step": 21950
    },
    {
      "epoch": 0.04575,
      "grad_norm": 0.8136064410209656,
      "learning_rate": 0.0002987111470433207,
      "loss": 4.0942,
      "step": 21960
    },
    {
      "epoch": 0.04577083333333333,
      "grad_norm": 0.8137964606285095,
      "learning_rate": 0.00029870985713890475,
      "loss": 3.846,
      "step": 21970
    },
    {
      "epoch": 0.04579166666666667,
      "grad_norm": 0.8571567535400391,
      "learning_rate": 0.00029870856659212105,
      "loss": 4.0758,
      "step": 21980
    },
    {
      "epoch": 0.0458125,
      "grad_norm": 0.7699553370475769,
      "learning_rate": 0.0002987072754029752,
      "loss": 3.9059,
      "step": 21990
    },
    {
      "epoch": 0.04583333333333333,
      "grad_norm": 0.7438395619392395,
      "learning_rate": 0.0002987059835714728,
      "loss": 3.8593,
      "step": 22000
    },
    {
      "epoch": 0.04583333333333333,
      "eval_loss": 4.354062080383301,
      "eval_runtime": 11.5051,
      "eval_samples_per_second": 0.869,
      "eval_steps_per_second": 0.261,
      "step": 22000
    },
    {
      "epoch": 0.04585416666666667,
      "grad_norm": 0.963277280330658,
      "learning_rate": 0.0002987046910976194,
      "loss": 4.0335,
      "step": 22010
    },
    {
      "epoch": 0.045875,
      "grad_norm": 0.8337883949279785,
      "learning_rate": 0.00029870339798142065,
      "loss": 4.0478,
      "step": 22020
    },
    {
      "epoch": 0.04589583333333333,
      "grad_norm": 0.942034900188446,
      "learning_rate": 0.00029870210422288203,
      "loss": 4.0527,
      "step": 22030
    },
    {
      "epoch": 0.04591666666666667,
      "grad_norm": 0.7627479434013367,
      "learning_rate": 0.00029870080982200914,
      "loss": 4.0365,
      "step": 22040
    },
    {
      "epoch": 0.0459375,
      "grad_norm": 0.9044426083564758,
      "learning_rate": 0.00029869951477880767,
      "loss": 4.0874,
      "step": 22050
    },
    {
      "epoch": 0.04595833333333333,
      "grad_norm": 0.762162446975708,
      "learning_rate": 0.00029869821909328314,
      "loss": 4.1664,
      "step": 22060
    },
    {
      "epoch": 0.04597916666666667,
      "grad_norm": 0.9194058775901794,
      "learning_rate": 0.0002986969227654412,
      "loss": 4.1284,
      "step": 22070
    },
    {
      "epoch": 0.046,
      "grad_norm": 0.8108769655227661,
      "learning_rate": 0.00029869562579528736,
      "loss": 4.2683,
      "step": 22080
    },
    {
      "epoch": 0.04602083333333333,
      "grad_norm": 0.8059133291244507,
      "learning_rate": 0.0002986943281828273,
      "loss": 3.9431,
      "step": 22090
    },
    {
      "epoch": 0.04604166666666667,
      "grad_norm": 0.8922027349472046,
      "learning_rate": 0.0002986930299280666,
      "loss": 3.9547,
      "step": 22100
    },
    {
      "epoch": 0.0460625,
      "grad_norm": 0.9259348511695862,
      "learning_rate": 0.00029869173103101086,
      "loss": 4.0867,
      "step": 22110
    },
    {
      "epoch": 0.04608333333333333,
      "grad_norm": 0.8041831851005554,
      "learning_rate": 0.0002986904314916657,
      "loss": 4.1057,
      "step": 22120
    },
    {
      "epoch": 0.04610416666666667,
      "grad_norm": 0.7673734426498413,
      "learning_rate": 0.0002986891313100367,
      "loss": 3.9661,
      "step": 22130
    },
    {
      "epoch": 0.046125,
      "grad_norm": 0.8898199796676636,
      "learning_rate": 0.0002986878304861296,
      "loss": 4.1018,
      "step": 22140
    },
    {
      "epoch": 0.04614583333333333,
      "grad_norm": 0.7537437677383423,
      "learning_rate": 0.0002986865290199498,
      "loss": 4.0202,
      "step": 22150
    },
    {
      "epoch": 0.04616666666666667,
      "grad_norm": 0.8874825239181519,
      "learning_rate": 0.00029868522691150313,
      "loss": 4.0891,
      "step": 22160
    },
    {
      "epoch": 0.0461875,
      "grad_norm": 1.0299723148345947,
      "learning_rate": 0.0002986839241607951,
      "loss": 4.1572,
      "step": 22170
    },
    {
      "epoch": 0.04620833333333333,
      "grad_norm": 1.2870489358901978,
      "learning_rate": 0.0002986826207678314,
      "loss": 3.9314,
      "step": 22180
    },
    {
      "epoch": 0.04622916666666667,
      "grad_norm": 2.1369118690490723,
      "learning_rate": 0.00029868131673261764,
      "loss": 4.1211,
      "step": 22190
    },
    {
      "epoch": 0.04625,
      "grad_norm": 0.7322140336036682,
      "learning_rate": 0.0002986800120551594,
      "loss": 4.1071,
      "step": 22200
    },
    {
      "epoch": 0.04627083333333333,
      "grad_norm": 0.9373006224632263,
      "learning_rate": 0.0002986787067354624,
      "loss": 4.0729,
      "step": 22210
    },
    {
      "epoch": 0.04629166666666667,
      "grad_norm": 0.8496093153953552,
      "learning_rate": 0.0002986774007735322,
      "loss": 4.0306,
      "step": 22220
    },
    {
      "epoch": 0.0463125,
      "grad_norm": 0.9111897945404053,
      "learning_rate": 0.0002986760941693745,
      "loss": 4.1942,
      "step": 22230
    },
    {
      "epoch": 0.04633333333333333,
      "grad_norm": 0.839640736579895,
      "learning_rate": 0.0002986747869229949,
      "loss": 3.7773,
      "step": 22240
    },
    {
      "epoch": 0.04635416666666667,
      "grad_norm": 0.9309871196746826,
      "learning_rate": 0.0002986734790343991,
      "loss": 4.0495,
      "step": 22250
    },
    {
      "epoch": 0.046375,
      "grad_norm": 0.7932628393173218,
      "learning_rate": 0.00029867217050359273,
      "loss": 3.8967,
      "step": 22260
    },
    {
      "epoch": 0.04639583333333333,
      "grad_norm": 0.9826204180717468,
      "learning_rate": 0.0002986708613305814,
      "loss": 4.0896,
      "step": 22270
    },
    {
      "epoch": 0.04641666666666667,
      "grad_norm": 0.8916264772415161,
      "learning_rate": 0.0002986695515153708,
      "loss": 3.9854,
      "step": 22280
    },
    {
      "epoch": 0.0464375,
      "grad_norm": 0.7940315008163452,
      "learning_rate": 0.00029866824105796665,
      "loss": 3.9841,
      "step": 22290
    },
    {
      "epoch": 0.04645833333333333,
      "grad_norm": 0.7411952018737793,
      "learning_rate": 0.00029866692995837447,
      "loss": 4.0936,
      "step": 22300
    },
    {
      "epoch": 0.04647916666666667,
      "grad_norm": 0.8142653107643127,
      "learning_rate": 0.0002986656182166,
      "loss": 4.1644,
      "step": 22310
    },
    {
      "epoch": 0.0465,
      "grad_norm": 0.8728663921356201,
      "learning_rate": 0.00029866430583264895,
      "loss": 3.9703,
      "step": 22320
    },
    {
      "epoch": 0.04652083333333333,
      "grad_norm": 0.7799032330513,
      "learning_rate": 0.0002986629928065269,
      "loss": 4.1193,
      "step": 22330
    },
    {
      "epoch": 0.04654166666666667,
      "grad_norm": 0.7886219620704651,
      "learning_rate": 0.00029866167913823955,
      "loss": 3.9689,
      "step": 22340
    },
    {
      "epoch": 0.0465625,
      "grad_norm": 0.9437947869300842,
      "learning_rate": 0.00029866036482779267,
      "loss": 4.0851,
      "step": 22350
    },
    {
      "epoch": 0.04658333333333333,
      "grad_norm": 0.7859421968460083,
      "learning_rate": 0.0002986590498751918,
      "loss": 3.987,
      "step": 22360
    },
    {
      "epoch": 0.04660416666666667,
      "grad_norm": 0.9420626759529114,
      "learning_rate": 0.0002986577342804427,
      "loss": 3.8112,
      "step": 22370
    },
    {
      "epoch": 0.046625,
      "grad_norm": 0.7825009226799011,
      "learning_rate": 0.000298656418043551,
      "loss": 4.1615,
      "step": 22380
    },
    {
      "epoch": 0.04664583333333333,
      "grad_norm": 0.8822476267814636,
      "learning_rate": 0.00029865510116452244,
      "loss": 3.85,
      "step": 22390
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 0.7992731928825378,
      "learning_rate": 0.0002986537836433627,
      "loss": 3.9237,
      "step": 22400
    },
    {
      "epoch": 0.0466875,
      "grad_norm": 0.8337991833686829,
      "learning_rate": 0.00029865246548007744,
      "loss": 3.93,
      "step": 22410
    },
    {
      "epoch": 0.04670833333333333,
      "grad_norm": 0.7592121362686157,
      "learning_rate": 0.0002986511466746724,
      "loss": 4.2034,
      "step": 22420
    },
    {
      "epoch": 0.04672916666666667,
      "grad_norm": 0.8443527817726135,
      "learning_rate": 0.0002986498272271532,
      "loss": 4.1472,
      "step": 22430
    },
    {
      "epoch": 0.04675,
      "grad_norm": 0.8086874485015869,
      "learning_rate": 0.0002986485071375256,
      "loss": 3.8892,
      "step": 22440
    },
    {
      "epoch": 0.04677083333333333,
      "grad_norm": 0.9691826701164246,
      "learning_rate": 0.0002986471864057953,
      "loss": 4.0856,
      "step": 22450
    },
    {
      "epoch": 0.04679166666666667,
      "grad_norm": 0.8090049624443054,
      "learning_rate": 0.00029864586503196793,
      "loss": 3.9837,
      "step": 22460
    },
    {
      "epoch": 0.0468125,
      "grad_norm": 0.8533264994621277,
      "learning_rate": 0.0002986445430160493,
      "loss": 3.805,
      "step": 22470
    },
    {
      "epoch": 0.04683333333333333,
      "grad_norm": 0.933143138885498,
      "learning_rate": 0.00029864322035804515,
      "loss": 4.0314,
      "step": 22480
    },
    {
      "epoch": 0.04685416666666667,
      "grad_norm": 0.9897992610931396,
      "learning_rate": 0.00029864189705796105,
      "loss": 3.9058,
      "step": 22490
    },
    {
      "epoch": 0.046875,
      "grad_norm": 0.837530255317688,
      "learning_rate": 0.0002986405731158028,
      "loss": 4.2135,
      "step": 22500
    },
    {
      "epoch": 0.04689583333333333,
      "grad_norm": 0.8330625295639038,
      "learning_rate": 0.0002986392485315762,
      "loss": 3.9353,
      "step": 22510
    },
    {
      "epoch": 0.04691666666666667,
      "grad_norm": 0.9670344591140747,
      "learning_rate": 0.00029863792330528675,
      "loss": 4.0792,
      "step": 22520
    },
    {
      "epoch": 0.0469375,
      "grad_norm": 0.7565240859985352,
      "learning_rate": 0.0002986365974369403,
      "loss": 4.0004,
      "step": 22530
    },
    {
      "epoch": 0.04695833333333333,
      "grad_norm": 0.8141567707061768,
      "learning_rate": 0.0002986352709265427,
      "loss": 4.0345,
      "step": 22540
    },
    {
      "epoch": 0.04697916666666667,
      "grad_norm": 0.8310573697090149,
      "learning_rate": 0.00029863394377409953,
      "loss": 3.9254,
      "step": 22550
    },
    {
      "epoch": 0.047,
      "grad_norm": 0.8589280247688293,
      "learning_rate": 0.0002986326159796165,
      "loss": 4.0716,
      "step": 22560
    },
    {
      "epoch": 0.04702083333333333,
      "grad_norm": 0.7215357422828674,
      "learning_rate": 0.00029863128754309946,
      "loss": 3.9456,
      "step": 22570
    },
    {
      "epoch": 0.04704166666666667,
      "grad_norm": 0.7969028949737549,
      "learning_rate": 0.00029862995846455405,
      "loss": 4.0897,
      "step": 22580
    },
    {
      "epoch": 0.0470625,
      "grad_norm": 0.7791271805763245,
      "learning_rate": 0.0002986286287439861,
      "loss": 3.9209,
      "step": 22590
    },
    {
      "epoch": 0.04708333333333333,
      "grad_norm": 0.9344449043273926,
      "learning_rate": 0.0002986272983814013,
      "loss": 3.8205,
      "step": 22600
    },
    {
      "epoch": 0.04710416666666667,
      "grad_norm": 0.7766220569610596,
      "learning_rate": 0.00029862596737680535,
      "loss": 3.9536,
      "step": 22610
    },
    {
      "epoch": 0.047125,
      "grad_norm": 0.8056253790855408,
      "learning_rate": 0.00029862463573020404,
      "loss": 4.075,
      "step": 22620
    },
    {
      "epoch": 0.04714583333333333,
      "grad_norm": 0.9218420386314392,
      "learning_rate": 0.0002986233034416032,
      "loss": 3.9197,
      "step": 22630
    },
    {
      "epoch": 0.04716666666666667,
      "grad_norm": 0.778448224067688,
      "learning_rate": 0.00029862197051100847,
      "loss": 4.0624,
      "step": 22640
    },
    {
      "epoch": 0.0471875,
      "grad_norm": 0.7777163982391357,
      "learning_rate": 0.00029862063693842565,
      "loss": 4.1116,
      "step": 22650
    },
    {
      "epoch": 0.04720833333333333,
      "grad_norm": 0.8576770424842834,
      "learning_rate": 0.00029861930272386054,
      "loss": 3.9981,
      "step": 22660
    },
    {
      "epoch": 0.04722916666666667,
      "grad_norm": 0.7913747429847717,
      "learning_rate": 0.0002986179678673189,
      "loss": 4.1004,
      "step": 22670
    },
    {
      "epoch": 0.04725,
      "grad_norm": 0.7739566564559937,
      "learning_rate": 0.00029861663236880644,
      "loss": 3.9592,
      "step": 22680
    },
    {
      "epoch": 0.04727083333333333,
      "grad_norm": 0.7838767170906067,
      "learning_rate": 0.0002986152962283289,
      "loss": 3.9783,
      "step": 22690
    },
    {
      "epoch": 0.04729166666666667,
      "grad_norm": 1.0018246173858643,
      "learning_rate": 0.00029861395944589213,
      "loss": 3.9618,
      "step": 22700
    },
    {
      "epoch": 0.0473125,
      "grad_norm": 0.8772920966148376,
      "learning_rate": 0.0002986126220215019,
      "loss": 3.9055,
      "step": 22710
    },
    {
      "epoch": 0.04733333333333333,
      "grad_norm": 0.8416135907173157,
      "learning_rate": 0.00029861128395516397,
      "loss": 3.9989,
      "step": 22720
    },
    {
      "epoch": 0.04735416666666667,
      "grad_norm": 0.8006986975669861,
      "learning_rate": 0.00029860994524688416,
      "loss": 4.0264,
      "step": 22730
    },
    {
      "epoch": 0.047375,
      "grad_norm": 0.9206904768943787,
      "learning_rate": 0.00029860860589666814,
      "loss": 4.0113,
      "step": 22740
    },
    {
      "epoch": 0.04739583333333333,
      "grad_norm": 0.7833201885223389,
      "learning_rate": 0.00029860726590452176,
      "loss": 4.0429,
      "step": 22750
    },
    {
      "epoch": 0.04741666666666667,
      "grad_norm": 0.8064197897911072,
      "learning_rate": 0.0002986059252704509,
      "loss": 4.1145,
      "step": 22760
    },
    {
      "epoch": 0.0474375,
      "grad_norm": 0.8648513555526733,
      "learning_rate": 0.0002986045839944612,
      "loss": 4.1137,
      "step": 22770
    },
    {
      "epoch": 0.04745833333333333,
      "grad_norm": 0.7918399572372437,
      "learning_rate": 0.0002986032420765585,
      "loss": 4.1543,
      "step": 22780
    },
    {
      "epoch": 0.04747916666666667,
      "grad_norm": 0.8101834058761597,
      "learning_rate": 0.00029860189951674864,
      "loss": 3.9161,
      "step": 22790
    },
    {
      "epoch": 0.0475,
      "grad_norm": 0.819925844669342,
      "learning_rate": 0.00029860055631503743,
      "loss": 3.7748,
      "step": 22800
    },
    {
      "epoch": 0.04752083333333333,
      "grad_norm": 0.9304993152618408,
      "learning_rate": 0.00029859921247143056,
      "loss": 4.0368,
      "step": 22810
    },
    {
      "epoch": 0.04754166666666667,
      "grad_norm": 0.7387692928314209,
      "learning_rate": 0.00029859786798593394,
      "loss": 4.0492,
      "step": 22820
    },
    {
      "epoch": 0.0475625,
      "grad_norm": 0.8166192173957825,
      "learning_rate": 0.0002985965228585534,
      "loss": 4.2042,
      "step": 22830
    },
    {
      "epoch": 0.04758333333333333,
      "grad_norm": 0.7961153984069824,
      "learning_rate": 0.00029859517708929464,
      "loss": 4.0143,
      "step": 22840
    },
    {
      "epoch": 0.04760416666666667,
      "grad_norm": 0.9300776720046997,
      "learning_rate": 0.0002985938306781636,
      "loss": 4.1284,
      "step": 22850
    },
    {
      "epoch": 0.047625,
      "grad_norm": 0.6692639589309692,
      "learning_rate": 0.000298592483625166,
      "loss": 4.1159,
      "step": 22860
    },
    {
      "epoch": 0.04764583333333333,
      "grad_norm": 0.7543424963951111,
      "learning_rate": 0.00029859113593030766,
      "loss": 4.2312,
      "step": 22870
    },
    {
      "epoch": 0.04766666666666667,
      "grad_norm": 0.8469621539115906,
      "learning_rate": 0.00029858978759359444,
      "loss": 3.9753,
      "step": 22880
    },
    {
      "epoch": 0.0476875,
      "grad_norm": 0.7444190979003906,
      "learning_rate": 0.0002985884386150321,
      "loss": 3.8403,
      "step": 22890
    },
    {
      "epoch": 0.04770833333333333,
      "grad_norm": 0.8989748358726501,
      "learning_rate": 0.00029858708899462667,
      "loss": 4.1799,
      "step": 22900
    },
    {
      "epoch": 0.04772916666666667,
      "grad_norm": 0.8425635099411011,
      "learning_rate": 0.00029858573873238367,
      "loss": 3.9979,
      "step": 22910
    },
    {
      "epoch": 0.04775,
      "grad_norm": 0.8152500987052917,
      "learning_rate": 0.0002985843878283092,
      "loss": 4.218,
      "step": 22920
    },
    {
      "epoch": 0.04777083333333333,
      "grad_norm": 0.7674303650856018,
      "learning_rate": 0.000298583036282409,
      "loss": 3.9885,
      "step": 22930
    },
    {
      "epoch": 0.04779166666666667,
      "grad_norm": 0.9175886511802673,
      "learning_rate": 0.0002985816840946888,
      "loss": 4.0797,
      "step": 22940
    },
    {
      "epoch": 0.0478125,
      "grad_norm": 0.7852349877357483,
      "learning_rate": 0.0002985803312651546,
      "loss": 3.985,
      "step": 22950
    },
    {
      "epoch": 0.04783333333333333,
      "grad_norm": 0.8315421938896179,
      "learning_rate": 0.00029857897779381215,
      "loss": 3.946,
      "step": 22960
    },
    {
      "epoch": 0.04785416666666667,
      "grad_norm": 0.9046752452850342,
      "learning_rate": 0.00029857762368066734,
      "loss": 4.089,
      "step": 22970
    },
    {
      "epoch": 0.047875,
      "grad_norm": 0.8425107002258301,
      "learning_rate": 0.000298576268925726,
      "loss": 3.9325,
      "step": 22980
    },
    {
      "epoch": 0.04789583333333333,
      "grad_norm": 0.7931081056594849,
      "learning_rate": 0.000298574913528994,
      "loss": 3.9356,
      "step": 22990
    },
    {
      "epoch": 0.04791666666666667,
      "grad_norm": 0.8432623744010925,
      "learning_rate": 0.0002985735574904772,
      "loss": 4.0354,
      "step": 23000
    },
    {
      "epoch": 0.04791666666666667,
      "eval_loss": 4.345559120178223,
      "eval_runtime": 10.2992,
      "eval_samples_per_second": 0.971,
      "eval_steps_per_second": 0.291,
      "step": 23000
    },
    {
      "epoch": 0.0479375,
      "grad_norm": 0.8986987471580505,
      "learning_rate": 0.0002985722008101814,
      "loss": 4.1672,
      "step": 23010
    },
    {
      "epoch": 0.04795833333333333,
      "grad_norm": 0.7821569442749023,
      "learning_rate": 0.00029857084348811254,
      "loss": 4.1932,
      "step": 23020
    },
    {
      "epoch": 0.04797916666666667,
      "grad_norm": 0.7799119353294373,
      "learning_rate": 0.00029856948552427643,
      "loss": 3.9748,
      "step": 23030
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.6990039348602295,
      "learning_rate": 0.00029856812691867894,
      "loss": 4.0561,
      "step": 23040
    },
    {
      "epoch": 0.04802083333333333,
      "grad_norm": 0.7636101841926575,
      "learning_rate": 0.0002985667676713259,
      "loss": 3.9505,
      "step": 23050
    },
    {
      "epoch": 0.04804166666666667,
      "grad_norm": 0.7896153330802917,
      "learning_rate": 0.00029856540778222334,
      "loss": 4.0456,
      "step": 23060
    },
    {
      "epoch": 0.0480625,
      "grad_norm": 0.8444091081619263,
      "learning_rate": 0.000298564047251377,
      "loss": 4.0778,
      "step": 23070
    },
    {
      "epoch": 0.04808333333333333,
      "grad_norm": 0.8280452489852905,
      "learning_rate": 0.0002985626860787928,
      "loss": 4.0967,
      "step": 23080
    },
    {
      "epoch": 0.04810416666666667,
      "grad_norm": 0.7722503542900085,
      "learning_rate": 0.0002985613242644765,
      "loss": 3.9439,
      "step": 23090
    },
    {
      "epoch": 0.048125,
      "grad_norm": 0.7447543144226074,
      "learning_rate": 0.00029855996180843417,
      "loss": 3.877,
      "step": 23100
    },
    {
      "epoch": 0.04814583333333333,
      "grad_norm": 0.836034893989563,
      "learning_rate": 0.00029855859871067157,
      "loss": 3.9852,
      "step": 23110
    },
    {
      "epoch": 0.04816666666666667,
      "grad_norm": 0.7539575099945068,
      "learning_rate": 0.0002985572349711946,
      "loss": 4.1457,
      "step": 23120
    },
    {
      "epoch": 0.0481875,
      "grad_norm": 0.9515137076377869,
      "learning_rate": 0.00029855587059000925,
      "loss": 4.2138,
      "step": 23130
    },
    {
      "epoch": 0.04820833333333333,
      "grad_norm": 0.7746474146842957,
      "learning_rate": 0.0002985545055671213,
      "loss": 3.869,
      "step": 23140
    },
    {
      "epoch": 0.04822916666666666,
      "grad_norm": 0.9983747005462646,
      "learning_rate": 0.0002985531399025367,
      "loss": 3.8766,
      "step": 23150
    },
    {
      "epoch": 0.04825,
      "grad_norm": 0.8665918111801147,
      "learning_rate": 0.0002985517735962613,
      "loss": 4.001,
      "step": 23160
    },
    {
      "epoch": 0.04827083333333333,
      "grad_norm": 0.895491361618042,
      "learning_rate": 0.0002985504066483011,
      "loss": 3.9846,
      "step": 23170
    },
    {
      "epoch": 0.04829166666666666,
      "grad_norm": 0.7675134539604187,
      "learning_rate": 0.0002985490390586619,
      "loss": 4.0145,
      "step": 23180
    },
    {
      "epoch": 0.0483125,
      "grad_norm": 0.7956461310386658,
      "learning_rate": 0.0002985476708273497,
      "loss": 3.9626,
      "step": 23190
    },
    {
      "epoch": 0.04833333333333333,
      "grad_norm": 0.7424895763397217,
      "learning_rate": 0.00029854630195437026,
      "loss": 4.1756,
      "step": 23200
    },
    {
      "epoch": 0.04835416666666666,
      "grad_norm": 0.8789083957672119,
      "learning_rate": 0.00029854493243972974,
      "loss": 4.1089,
      "step": 23210
    },
    {
      "epoch": 0.048375,
      "grad_norm": 0.9808844923973083,
      "learning_rate": 0.0002985435622834338,
      "loss": 4.1352,
      "step": 23220
    },
    {
      "epoch": 0.04839583333333333,
      "grad_norm": 0.840724527835846,
      "learning_rate": 0.0002985421914854885,
      "loss": 3.8581,
      "step": 23230
    },
    {
      "epoch": 0.04841666666666666,
      "grad_norm": 0.7633494138717651,
      "learning_rate": 0.0002985408200458997,
      "loss": 3.9884,
      "step": 23240
    },
    {
      "epoch": 0.0484375,
      "grad_norm": 0.8793787956237793,
      "learning_rate": 0.0002985394479646734,
      "loss": 4.1357,
      "step": 23250
    },
    {
      "epoch": 0.04845833333333333,
      "grad_norm": 0.8369579315185547,
      "learning_rate": 0.0002985380752418155,
      "loss": 4.0,
      "step": 23260
    },
    {
      "epoch": 0.04847916666666666,
      "grad_norm": 0.8232877254486084,
      "learning_rate": 0.0002985367018773318,
      "loss": 4.1381,
      "step": 23270
    },
    {
      "epoch": 0.0485,
      "grad_norm": 0.7644029855728149,
      "learning_rate": 0.0002985353278712285,
      "loss": 4.0884,
      "step": 23280
    },
    {
      "epoch": 0.04852083333333333,
      "grad_norm": 0.779992938041687,
      "learning_rate": 0.00029853395322351127,
      "loss": 4.0118,
      "step": 23290
    },
    {
      "epoch": 0.048541666666666664,
      "grad_norm": 0.8719344735145569,
      "learning_rate": 0.0002985325779341862,
      "loss": 3.9963,
      "step": 23300
    },
    {
      "epoch": 0.0485625,
      "grad_norm": 0.8808066248893738,
      "learning_rate": 0.0002985312020032591,
      "loss": 3.9822,
      "step": 23310
    },
    {
      "epoch": 0.04858333333333333,
      "grad_norm": 0.7952739000320435,
      "learning_rate": 0.0002985298254307361,
      "loss": 4.135,
      "step": 23320
    },
    {
      "epoch": 0.048604166666666664,
      "grad_norm": 0.8016321063041687,
      "learning_rate": 0.000298528448216623,
      "loss": 4.0967,
      "step": 23330
    },
    {
      "epoch": 0.048625,
      "grad_norm": 0.8336403965950012,
      "learning_rate": 0.00029852707036092584,
      "loss": 4.0093,
      "step": 23340
    },
    {
      "epoch": 0.04864583333333333,
      "grad_norm": 0.9109510183334351,
      "learning_rate": 0.00029852569186365047,
      "loss": 4.1692,
      "step": 23350
    },
    {
      "epoch": 0.048666666666666664,
      "grad_norm": 0.9067474007606506,
      "learning_rate": 0.00029852431272480297,
      "loss": 4.0933,
      "step": 23360
    },
    {
      "epoch": 0.0486875,
      "grad_norm": 0.8083096146583557,
      "learning_rate": 0.0002985229329443892,
      "loss": 4.1891,
      "step": 23370
    },
    {
      "epoch": 0.04870833333333333,
      "grad_norm": 0.941169261932373,
      "learning_rate": 0.0002985215525224151,
      "loss": 4.0323,
      "step": 23380
    },
    {
      "epoch": 0.048729166666666664,
      "grad_norm": 0.8773019909858704,
      "learning_rate": 0.00029852017145888673,
      "loss": 4.0611,
      "step": 23390
    },
    {
      "epoch": 0.04875,
      "grad_norm": 0.7840174436569214,
      "learning_rate": 0.00029851878975381,
      "loss": 4.0132,
      "step": 23400
    },
    {
      "epoch": 0.04877083333333333,
      "grad_norm": 0.8746412992477417,
      "learning_rate": 0.00029851740740719087,
      "loss": 4.0547,
      "step": 23410
    },
    {
      "epoch": 0.048791666666666664,
      "grad_norm": 0.957899808883667,
      "learning_rate": 0.00029851602441903534,
      "loss": 3.9956,
      "step": 23420
    },
    {
      "epoch": 0.0488125,
      "grad_norm": 0.8321362137794495,
      "learning_rate": 0.00029851464078934937,
      "loss": 4.0338,
      "step": 23430
    },
    {
      "epoch": 0.04883333333333333,
      "grad_norm": 0.9092917442321777,
      "learning_rate": 0.00029851325651813896,
      "loss": 3.9863,
      "step": 23440
    },
    {
      "epoch": 0.048854166666666664,
      "grad_norm": 0.7861893177032471,
      "learning_rate": 0.00029851187160541003,
      "loss": 4.0301,
      "step": 23450
    },
    {
      "epoch": 0.048875,
      "grad_norm": 0.8398141860961914,
      "learning_rate": 0.0002985104860511686,
      "loss": 4.027,
      "step": 23460
    },
    {
      "epoch": 0.04889583333333333,
      "grad_norm": 0.7907713055610657,
      "learning_rate": 0.00029850909985542067,
      "loss": 4.0736,
      "step": 23470
    },
    {
      "epoch": 0.048916666666666664,
      "grad_norm": 0.9949638843536377,
      "learning_rate": 0.0002985077130181722,
      "loss": 3.9623,
      "step": 23480
    },
    {
      "epoch": 0.0489375,
      "grad_norm": 0.8502593636512756,
      "learning_rate": 0.0002985063255394292,
      "loss": 3.9878,
      "step": 23490
    },
    {
      "epoch": 0.04895833333333333,
      "grad_norm": 0.8614035248756409,
      "learning_rate": 0.0002985049374191977,
      "loss": 4.1044,
      "step": 23500
    },
    {
      "epoch": 0.048979166666666664,
      "grad_norm": 0.8500977754592896,
      "learning_rate": 0.0002985035486574836,
      "loss": 4.0118,
      "step": 23510
    },
    {
      "epoch": 0.049,
      "grad_norm": 0.9270911812782288,
      "learning_rate": 0.000298502159254293,
      "loss": 3.9884,
      "step": 23520
    },
    {
      "epoch": 0.04902083333333333,
      "grad_norm": 0.7390990853309631,
      "learning_rate": 0.0002985007692096318,
      "loss": 4.1772,
      "step": 23530
    },
    {
      "epoch": 0.049041666666666664,
      "grad_norm": 0.8720413446426392,
      "learning_rate": 0.0002984993785235061,
      "loss": 4.1545,
      "step": 23540
    },
    {
      "epoch": 0.0490625,
      "grad_norm": 0.8146336674690247,
      "learning_rate": 0.0002984979871959218,
      "loss": 4.0268,
      "step": 23550
    },
    {
      "epoch": 0.04908333333333333,
      "grad_norm": 0.8770825862884521,
      "learning_rate": 0.000298496595226885,
      "loss": 3.949,
      "step": 23560
    },
    {
      "epoch": 0.049104166666666664,
      "grad_norm": 0.9566527605056763,
      "learning_rate": 0.00029849520261640176,
      "loss": 4.0052,
      "step": 23570
    },
    {
      "epoch": 0.049125,
      "grad_norm": 0.9146139621734619,
      "learning_rate": 0.00029849380936447793,
      "loss": 4.042,
      "step": 23580
    },
    {
      "epoch": 0.04914583333333333,
      "grad_norm": 0.7903580665588379,
      "learning_rate": 0.00029849241547111967,
      "loss": 3.9194,
      "step": 23590
    },
    {
      "epoch": 0.049166666666666664,
      "grad_norm": 0.8264316916465759,
      "learning_rate": 0.0002984910209363329,
      "loss": 4.0075,
      "step": 23600
    },
    {
      "epoch": 0.0491875,
      "grad_norm": 0.7081221342086792,
      "learning_rate": 0.00029848962576012377,
      "loss": 4.0911,
      "step": 23610
    },
    {
      "epoch": 0.04920833333333333,
      "grad_norm": 0.8810615539550781,
      "learning_rate": 0.0002984882299424982,
      "loss": 4.0778,
      "step": 23620
    },
    {
      "epoch": 0.049229166666666664,
      "grad_norm": 0.9713292121887207,
      "learning_rate": 0.0002984868334834623,
      "loss": 4.0909,
      "step": 23630
    },
    {
      "epoch": 0.04925,
      "grad_norm": 0.9011144042015076,
      "learning_rate": 0.000298485436383022,
      "loss": 4.0532,
      "step": 23640
    },
    {
      "epoch": 0.04927083333333333,
      "grad_norm": 0.7226399183273315,
      "learning_rate": 0.00029848403864118336,
      "loss": 4.0379,
      "step": 23650
    },
    {
      "epoch": 0.049291666666666664,
      "grad_norm": 0.8149161338806152,
      "learning_rate": 0.0002984826402579525,
      "loss": 4.0274,
      "step": 23660
    },
    {
      "epoch": 0.0493125,
      "grad_norm": 0.8129730820655823,
      "learning_rate": 0.0002984812412333354,
      "loss": 4.0539,
      "step": 23670
    },
    {
      "epoch": 0.04933333333333333,
      "grad_norm": 1.073933482170105,
      "learning_rate": 0.0002984798415673381,
      "loss": 3.9665,
      "step": 23680
    },
    {
      "epoch": 0.049354166666666664,
      "grad_norm": 0.7957851886749268,
      "learning_rate": 0.0002984784412599667,
      "loss": 3.9831,
      "step": 23690
    },
    {
      "epoch": 0.049375,
      "grad_norm": 0.7592307925224304,
      "learning_rate": 0.00029847704031122713,
      "loss": 4.1233,
      "step": 23700
    },
    {
      "epoch": 0.04939583333333333,
      "grad_norm": 0.782427191734314,
      "learning_rate": 0.00029847563872112555,
      "loss": 3.9348,
      "step": 23710
    },
    {
      "epoch": 0.049416666666666664,
      "grad_norm": 0.7728231549263,
      "learning_rate": 0.00029847423648966803,
      "loss": 3.8702,
      "step": 23720
    },
    {
      "epoch": 0.0494375,
      "grad_norm": 0.7528290748596191,
      "learning_rate": 0.0002984728336168605,
      "loss": 4.0914,
      "step": 23730
    },
    {
      "epoch": 0.04945833333333333,
      "grad_norm": 0.7910967469215393,
      "learning_rate": 0.0002984714301027091,
      "loss": 4.001,
      "step": 23740
    },
    {
      "epoch": 0.049479166666666664,
      "grad_norm": 0.8371394276618958,
      "learning_rate": 0.00029847002594721997,
      "loss": 4.1024,
      "step": 23750
    },
    {
      "epoch": 0.0495,
      "grad_norm": 0.8186953663825989,
      "learning_rate": 0.00029846862115039905,
      "loss": 4.0757,
      "step": 23760
    },
    {
      "epoch": 0.04952083333333333,
      "grad_norm": 0.92894047498703,
      "learning_rate": 0.00029846721571225244,
      "loss": 4.0526,
      "step": 23770
    },
    {
      "epoch": 0.049541666666666664,
      "grad_norm": 0.8800164461135864,
      "learning_rate": 0.00029846580963278625,
      "loss": 3.7911,
      "step": 23780
    },
    {
      "epoch": 0.0495625,
      "grad_norm": 0.8590853214263916,
      "learning_rate": 0.0002984644029120065,
      "loss": 4.0327,
      "step": 23790
    },
    {
      "epoch": 0.04958333333333333,
      "grad_norm": 0.7221733927726746,
      "learning_rate": 0.00029846299554991935,
      "loss": 3.9983,
      "step": 23800
    },
    {
      "epoch": 0.049604166666666664,
      "grad_norm": 0.7771899104118347,
      "learning_rate": 0.00029846158754653077,
      "loss": 3.87,
      "step": 23810
    },
    {
      "epoch": 0.049625,
      "grad_norm": 0.7342985272407532,
      "learning_rate": 0.0002984601789018469,
      "loss": 4.0121,
      "step": 23820
    },
    {
      "epoch": 0.049645833333333333,
      "grad_norm": 0.853218138217926,
      "learning_rate": 0.0002984587696158739,
      "loss": 4.0565,
      "step": 23830
    },
    {
      "epoch": 0.049666666666666665,
      "grad_norm": 0.8374419808387756,
      "learning_rate": 0.00029845735968861767,
      "loss": 3.8785,
      "step": 23840
    },
    {
      "epoch": 0.0496875,
      "grad_norm": 0.851003110408783,
      "learning_rate": 0.00029845594912008443,
      "loss": 4.1569,
      "step": 23850
    },
    {
      "epoch": 0.049708333333333334,
      "grad_norm": 0.833723783493042,
      "learning_rate": 0.0002984545379102803,
      "loss": 4.055,
      "step": 23860
    },
    {
      "epoch": 0.049729166666666665,
      "grad_norm": 0.8583168387413025,
      "learning_rate": 0.0002984531260592113,
      "loss": 3.9413,
      "step": 23870
    },
    {
      "epoch": 0.04975,
      "grad_norm": 0.7722224593162537,
      "learning_rate": 0.0002984517135668836,
      "loss": 4.149,
      "step": 23880
    },
    {
      "epoch": 0.049770833333333334,
      "grad_norm": 0.8198390603065491,
      "learning_rate": 0.0002984503004333032,
      "loss": 4.0969,
      "step": 23890
    },
    {
      "epoch": 0.049791666666666665,
      "grad_norm": 0.8864487409591675,
      "learning_rate": 0.0002984488866584763,
      "loss": 4.1366,
      "step": 23900
    },
    {
      "epoch": 0.0498125,
      "grad_norm": 0.6893771886825562,
      "learning_rate": 0.000298447472242409,
      "loss": 4.0697,
      "step": 23910
    },
    {
      "epoch": 0.049833333333333334,
      "grad_norm": 0.737511157989502,
      "learning_rate": 0.0002984460571851073,
      "loss": 3.9544,
      "step": 23920
    },
    {
      "epoch": 0.049854166666666665,
      "grad_norm": 1.0342742204666138,
      "learning_rate": 0.00029844464148657743,
      "loss": 4.0968,
      "step": 23930
    },
    {
      "epoch": 0.049875,
      "grad_norm": 0.8139572739601135,
      "learning_rate": 0.00029844322514682546,
      "loss": 3.8609,
      "step": 23940
    },
    {
      "epoch": 0.049895833333333334,
      "grad_norm": 0.7324793338775635,
      "learning_rate": 0.0002984418081658575,
      "loss": 3.9894,
      "step": 23950
    },
    {
      "epoch": 0.049916666666666665,
      "grad_norm": 0.7340117692947388,
      "learning_rate": 0.0002984403905436797,
      "loss": 3.98,
      "step": 23960
    },
    {
      "epoch": 0.0499375,
      "grad_norm": 0.851635217666626,
      "learning_rate": 0.0002984389722802982,
      "loss": 3.9136,
      "step": 23970
    },
    {
      "epoch": 0.049958333333333334,
      "grad_norm": 0.7983063459396362,
      "learning_rate": 0.0002984375533757191,
      "loss": 4.0232,
      "step": 23980
    },
    {
      "epoch": 0.049979166666666665,
      "grad_norm": 0.853800892829895,
      "learning_rate": 0.0002984361338299485,
      "loss": 3.8672,
      "step": 23990
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8548151254653931,
      "learning_rate": 0.00029843471364299256,
      "loss": 4.0783,
      "step": 24000
    },
    {
      "epoch": 0.05,
      "eval_loss": 4.347347736358643,
      "eval_runtime": 11.4296,
      "eval_samples_per_second": 0.875,
      "eval_steps_per_second": 0.262,
      "step": 24000
    },
    {
      "epoch": 0.050020833333333334,
      "grad_norm": 0.8277662396430969,
      "learning_rate": 0.0002984332928148574,
      "loss": 3.9539,
      "step": 24010
    },
    {
      "epoch": 0.050041666666666665,
      "grad_norm": 0.8331337571144104,
      "learning_rate": 0.00029843187134554914,
      "loss": 3.9732,
      "step": 24020
    },
    {
      "epoch": 0.0500625,
      "grad_norm": 0.9000012874603271,
      "learning_rate": 0.000298430449235074,
      "loss": 3.9963,
      "step": 24030
    },
    {
      "epoch": 0.050083333333333334,
      "grad_norm": 0.9151877760887146,
      "learning_rate": 0.00029842902648343807,
      "loss": 3.9517,
      "step": 24040
    },
    {
      "epoch": 0.050104166666666665,
      "grad_norm": 0.8493151068687439,
      "learning_rate": 0.0002984276030906475,
      "loss": 4.093,
      "step": 24050
    },
    {
      "epoch": 0.050125,
      "grad_norm": 0.7760912775993347,
      "learning_rate": 0.0002984261790567084,
      "loss": 4.055,
      "step": 24060
    },
    {
      "epoch": 0.050145833333333334,
      "grad_norm": 0.864129364490509,
      "learning_rate": 0.000298424754381627,
      "loss": 3.9772,
      "step": 24070
    },
    {
      "epoch": 0.050166666666666665,
      "grad_norm": 0.9417356848716736,
      "learning_rate": 0.00029842332906540933,
      "loss": 3.9935,
      "step": 24080
    },
    {
      "epoch": 0.0501875,
      "grad_norm": 0.8644965887069702,
      "learning_rate": 0.00029842190310806174,
      "loss": 3.932,
      "step": 24090
    },
    {
      "epoch": 0.050208333333333334,
      "grad_norm": 0.8468145728111267,
      "learning_rate": 0.0002984204765095902,
      "loss": 4.0962,
      "step": 24100
    },
    {
      "epoch": 0.050229166666666665,
      "grad_norm": 0.95412677526474,
      "learning_rate": 0.00029841904927000097,
      "loss": 4.073,
      "step": 24110
    },
    {
      "epoch": 0.05025,
      "grad_norm": 0.8298219442367554,
      "learning_rate": 0.0002984176213893002,
      "loss": 4.1402,
      "step": 24120
    },
    {
      "epoch": 0.050270833333333334,
      "grad_norm": 0.9508038759231567,
      "learning_rate": 0.0002984161928674941,
      "loss": 3.9665,
      "step": 24130
    },
    {
      "epoch": 0.050291666666666665,
      "grad_norm": 0.7885833382606506,
      "learning_rate": 0.00029841476370458876,
      "loss": 4.0473,
      "step": 24140
    },
    {
      "epoch": 0.0503125,
      "grad_norm": 0.9281105995178223,
      "learning_rate": 0.00029841333390059037,
      "loss": 4.0735,
      "step": 24150
    },
    {
      "epoch": 0.050333333333333334,
      "grad_norm": 0.9810423254966736,
      "learning_rate": 0.0002984119034555051,
      "loss": 4.1767,
      "step": 24160
    },
    {
      "epoch": 0.050354166666666665,
      "grad_norm": 0.8207609057426453,
      "learning_rate": 0.0002984104723693392,
      "loss": 4.0661,
      "step": 24170
    },
    {
      "epoch": 0.050375,
      "grad_norm": 0.8254885673522949,
      "learning_rate": 0.00029840904064209876,
      "loss": 3.9213,
      "step": 24180
    },
    {
      "epoch": 0.050395833333333334,
      "grad_norm": 1.1959748268127441,
      "learning_rate": 0.00029840760827379005,
      "loss": 3.8813,
      "step": 24190
    },
    {
      "epoch": 0.050416666666666665,
      "grad_norm": 0.8329674005508423,
      "learning_rate": 0.0002984061752644192,
      "loss": 4.0065,
      "step": 24200
    },
    {
      "epoch": 0.0504375,
      "grad_norm": 0.7591705918312073,
      "learning_rate": 0.00029840474161399244,
      "loss": 4.0899,
      "step": 24210
    },
    {
      "epoch": 0.050458333333333334,
      "grad_norm": 0.8808771967887878,
      "learning_rate": 0.0002984033073225159,
      "loss": 3.8932,
      "step": 24220
    },
    {
      "epoch": 0.050479166666666665,
      "grad_norm": 0.7809692025184631,
      "learning_rate": 0.00029840187238999586,
      "loss": 4.1626,
      "step": 24230
    },
    {
      "epoch": 0.0505,
      "grad_norm": 0.8034283518791199,
      "learning_rate": 0.0002984004368164384,
      "loss": 4.0652,
      "step": 24240
    },
    {
      "epoch": 0.050520833333333334,
      "grad_norm": 0.6930572390556335,
      "learning_rate": 0.00029839900060184987,
      "loss": 4.0517,
      "step": 24250
    },
    {
      "epoch": 0.050541666666666665,
      "grad_norm": 0.9040699601173401,
      "learning_rate": 0.0002983975637462364,
      "loss": 4.0113,
      "step": 24260
    },
    {
      "epoch": 0.0505625,
      "grad_norm": 0.8656926155090332,
      "learning_rate": 0.0002983961262496041,
      "loss": 4.0329,
      "step": 24270
    },
    {
      "epoch": 0.050583333333333334,
      "grad_norm": 0.967914879322052,
      "learning_rate": 0.00029839468811195934,
      "loss": 3.8955,
      "step": 24280
    },
    {
      "epoch": 0.050604166666666665,
      "grad_norm": 0.8455100655555725,
      "learning_rate": 0.00029839324933330833,
      "loss": 3.9037,
      "step": 24290
    },
    {
      "epoch": 0.050625,
      "grad_norm": 0.7704584002494812,
      "learning_rate": 0.0002983918099136571,
      "loss": 4.0779,
      "step": 24300
    },
    {
      "epoch": 0.050645833333333334,
      "grad_norm": 0.7977133989334106,
      "learning_rate": 0.00029839036985301203,
      "loss": 4.0039,
      "step": 24310
    },
    {
      "epoch": 0.050666666666666665,
      "grad_norm": 0.7024787664413452,
      "learning_rate": 0.00029838892915137933,
      "loss": 4.1259,
      "step": 24320
    },
    {
      "epoch": 0.0506875,
      "grad_norm": 0.9227488040924072,
      "learning_rate": 0.00029838748780876517,
      "loss": 4.1485,
      "step": 24330
    },
    {
      "epoch": 0.050708333333333334,
      "grad_norm": 0.872511088848114,
      "learning_rate": 0.0002983860458251758,
      "loss": 4.0785,
      "step": 24340
    },
    {
      "epoch": 0.050729166666666665,
      "grad_norm": 0.7802706956863403,
      "learning_rate": 0.00029838460320061745,
      "loss": 4.0116,
      "step": 24350
    },
    {
      "epoch": 0.05075,
      "grad_norm": 0.8472303748130798,
      "learning_rate": 0.00029838315993509635,
      "loss": 4.1154,
      "step": 24360
    },
    {
      "epoch": 0.050770833333333334,
      "grad_norm": 0.7653231620788574,
      "learning_rate": 0.00029838171602861874,
      "loss": 4.0464,
      "step": 24370
    },
    {
      "epoch": 0.050791666666666666,
      "grad_norm": 0.8424580693244934,
      "learning_rate": 0.0002983802714811908,
      "loss": 3.9846,
      "step": 24380
    },
    {
      "epoch": 0.0508125,
      "grad_norm": 0.7617825269699097,
      "learning_rate": 0.0002983788262928189,
      "loss": 4.0596,
      "step": 24390
    },
    {
      "epoch": 0.050833333333333335,
      "grad_norm": 0.8510026335716248,
      "learning_rate": 0.0002983773804635092,
      "loss": 3.9542,
      "step": 24400
    },
    {
      "epoch": 0.050854166666666666,
      "grad_norm": 0.8444216251373291,
      "learning_rate": 0.00029837593399326785,
      "loss": 4.0048,
      "step": 24410
    },
    {
      "epoch": 0.050875,
      "grad_norm": 0.863207221031189,
      "learning_rate": 0.00029837448688210127,
      "loss": 4.0538,
      "step": 24420
    },
    {
      "epoch": 0.050895833333333335,
      "grad_norm": 0.8117720484733582,
      "learning_rate": 0.00029837303913001563,
      "loss": 4.1629,
      "step": 24430
    },
    {
      "epoch": 0.050916666666666666,
      "grad_norm": 0.7415464520454407,
      "learning_rate": 0.0002983715907370172,
      "loss": 4.0591,
      "step": 24440
    },
    {
      "epoch": 0.0509375,
      "grad_norm": 0.8261129260063171,
      "learning_rate": 0.0002983701417031122,
      "loss": 3.9611,
      "step": 24450
    },
    {
      "epoch": 0.050958333333333335,
      "grad_norm": 0.7381312847137451,
      "learning_rate": 0.0002983686920283069,
      "loss": 3.969,
      "step": 24460
    },
    {
      "epoch": 0.050979166666666666,
      "grad_norm": 0.8820986151695251,
      "learning_rate": 0.0002983672417126077,
      "loss": 4.1006,
      "step": 24470
    },
    {
      "epoch": 0.051,
      "grad_norm": 0.9130018949508667,
      "learning_rate": 0.0002983657907560206,
      "loss": 3.9329,
      "step": 24480
    },
    {
      "epoch": 0.051020833333333335,
      "grad_norm": 0.8240141272544861,
      "learning_rate": 0.00029836433915855206,
      "loss": 4.1243,
      "step": 24490
    },
    {
      "epoch": 0.051041666666666666,
      "grad_norm": 0.8886264562606812,
      "learning_rate": 0.0002983628869202083,
      "loss": 3.8389,
      "step": 24500
    },
    {
      "epoch": 0.0510625,
      "grad_norm": 0.906816840171814,
      "learning_rate": 0.00029836143404099566,
      "loss": 4.1605,
      "step": 24510
    },
    {
      "epoch": 0.051083333333333335,
      "grad_norm": 0.8155732154846191,
      "learning_rate": 0.00029835998052092026,
      "loss": 4.0416,
      "step": 24520
    },
    {
      "epoch": 0.051104166666666666,
      "grad_norm": 0.8686359524726868,
      "learning_rate": 0.00029835852635998845,
      "loss": 3.9916,
      "step": 24530
    },
    {
      "epoch": 0.051125,
      "grad_norm": 0.8684254288673401,
      "learning_rate": 0.00029835707155820664,
      "loss": 3.9057,
      "step": 24540
    },
    {
      "epoch": 0.051145833333333335,
      "grad_norm": 0.7405751943588257,
      "learning_rate": 0.00029835561611558096,
      "loss": 3.9584,
      "step": 24550
    },
    {
      "epoch": 0.051166666666666666,
      "grad_norm": 0.7128321528434753,
      "learning_rate": 0.0002983541600321177,
      "loss": 4.0761,
      "step": 24560
    },
    {
      "epoch": 0.0511875,
      "grad_norm": 0.8397940993309021,
      "learning_rate": 0.0002983527033078232,
      "loss": 4.1326,
      "step": 24570
    },
    {
      "epoch": 0.051208333333333335,
      "grad_norm": 0.7793668508529663,
      "learning_rate": 0.0002983512459427038,
      "loss": 4.0901,
      "step": 24580
    },
    {
      "epoch": 0.051229166666666666,
      "grad_norm": 0.8340938687324524,
      "learning_rate": 0.0002983497879367657,
      "loss": 4.0293,
      "step": 24590
    },
    {
      "epoch": 0.05125,
      "grad_norm": 0.7802310585975647,
      "learning_rate": 0.0002983483292900152,
      "loss": 3.8209,
      "step": 24600
    },
    {
      "epoch": 0.051270833333333335,
      "grad_norm": 0.7505518794059753,
      "learning_rate": 0.0002983468700024587,
      "loss": 4.028,
      "step": 24610
    },
    {
      "epoch": 0.051291666666666666,
      "grad_norm": 0.8410331010818481,
      "learning_rate": 0.0002983454100741024,
      "loss": 4.0063,
      "step": 24620
    },
    {
      "epoch": 0.0513125,
      "grad_norm": 0.8373920321464539,
      "learning_rate": 0.0002983439495049527,
      "loss": 4.1231,
      "step": 24630
    },
    {
      "epoch": 0.051333333333333335,
      "grad_norm": 0.8215093612670898,
      "learning_rate": 0.0002983424882950158,
      "loss": 4.0855,
      "step": 24640
    },
    {
      "epoch": 0.051354166666666666,
      "grad_norm": 0.8255186080932617,
      "learning_rate": 0.0002983410264442981,
      "loss": 3.9579,
      "step": 24650
    },
    {
      "epoch": 0.051375,
      "grad_norm": 0.8137394785881042,
      "learning_rate": 0.00029833956395280585,
      "loss": 4.2709,
      "step": 24660
    },
    {
      "epoch": 0.051395833333333335,
      "grad_norm": 0.9061751365661621,
      "learning_rate": 0.0002983381008205455,
      "loss": 3.8865,
      "step": 24670
    },
    {
      "epoch": 0.051416666666666666,
      "grad_norm": 0.8042217493057251,
      "learning_rate": 0.00029833663704752314,
      "loss": 3.9136,
      "step": 24680
    },
    {
      "epoch": 0.0514375,
      "grad_norm": 0.8291239738464355,
      "learning_rate": 0.0002983351726337453,
      "loss": 4.0106,
      "step": 24690
    },
    {
      "epoch": 0.051458333333333335,
      "grad_norm": 0.7796221971511841,
      "learning_rate": 0.0002983337075792182,
      "loss": 3.9272,
      "step": 24700
    },
    {
      "epoch": 0.051479166666666666,
      "grad_norm": 0.810979962348938,
      "learning_rate": 0.00029833224188394815,
      "loss": 4.1116,
      "step": 24710
    },
    {
      "epoch": 0.0515,
      "grad_norm": 0.9180625081062317,
      "learning_rate": 0.00029833077554794165,
      "loss": 4.0781,
      "step": 24720
    },
    {
      "epoch": 0.051520833333333335,
      "grad_norm": 0.8540144562721252,
      "learning_rate": 0.00029832930857120484,
      "loss": 3.9997,
      "step": 24730
    },
    {
      "epoch": 0.051541666666666666,
      "grad_norm": 0.856884777545929,
      "learning_rate": 0.0002983278409537441,
      "loss": 3.9783,
      "step": 24740
    },
    {
      "epoch": 0.0515625,
      "grad_norm": 0.8272156119346619,
      "learning_rate": 0.0002983263726955659,
      "loss": 3.9733,
      "step": 24750
    },
    {
      "epoch": 0.051583333333333335,
      "grad_norm": 0.877055823802948,
      "learning_rate": 0.0002983249037966764,
      "loss": 4.0,
      "step": 24760
    },
    {
      "epoch": 0.051604166666666666,
      "grad_norm": 0.7884106040000916,
      "learning_rate": 0.00029832343425708203,
      "loss": 4.3885,
      "step": 24770
    },
    {
      "epoch": 0.051625,
      "grad_norm": 0.7568530440330505,
      "learning_rate": 0.00029832196407678915,
      "loss": 4.2284,
      "step": 24780
    },
    {
      "epoch": 0.051645833333333335,
      "grad_norm": 1.0403521060943604,
      "learning_rate": 0.00029832049325580407,
      "loss": 4.0581,
      "step": 24790
    },
    {
      "epoch": 0.051666666666666666,
      "grad_norm": 0.7303665280342102,
      "learning_rate": 0.00029831902179413324,
      "loss": 3.9523,
      "step": 24800
    },
    {
      "epoch": 0.0516875,
      "grad_norm": 0.8102442622184753,
      "learning_rate": 0.0002983175496917829,
      "loss": 4.2264,
      "step": 24810
    },
    {
      "epoch": 0.051708333333333335,
      "grad_norm": 0.8393380641937256,
      "learning_rate": 0.00029831607694875945,
      "loss": 4.0427,
      "step": 24820
    },
    {
      "epoch": 0.051729166666666666,
      "grad_norm": 0.8443405628204346,
      "learning_rate": 0.0002983146035650692,
      "loss": 4.0817,
      "step": 24830
    },
    {
      "epoch": 0.05175,
      "grad_norm": 0.7182561755180359,
      "learning_rate": 0.0002983131295407187,
      "loss": 4.141,
      "step": 24840
    },
    {
      "epoch": 0.051770833333333335,
      "grad_norm": 0.8440575003623962,
      "learning_rate": 0.0002983116548757141,
      "loss": 3.8603,
      "step": 24850
    },
    {
      "epoch": 0.051791666666666666,
      "grad_norm": 0.8431190252304077,
      "learning_rate": 0.00029831017957006187,
      "loss": 4.0168,
      "step": 24860
    },
    {
      "epoch": 0.0518125,
      "grad_norm": 0.6841872930526733,
      "learning_rate": 0.00029830870362376836,
      "loss": 4.0044,
      "step": 24870
    },
    {
      "epoch": 0.051833333333333335,
      "grad_norm": 0.8726463913917542,
      "learning_rate": 0.00029830722703683995,
      "loss": 4.1405,
      "step": 24880
    },
    {
      "epoch": 0.051854166666666666,
      "grad_norm": 0.9809200763702393,
      "learning_rate": 0.00029830574980928303,
      "loss": 4.082,
      "step": 24890
    },
    {
      "epoch": 0.051875,
      "grad_norm": 0.786038875579834,
      "learning_rate": 0.000298304271941104,
      "loss": 3.9916,
      "step": 24900
    },
    {
      "epoch": 0.051895833333333335,
      "grad_norm": 0.8995456695556641,
      "learning_rate": 0.00029830279343230924,
      "loss": 4.1122,
      "step": 24910
    },
    {
      "epoch": 0.051916666666666667,
      "grad_norm": 0.9543859958648682,
      "learning_rate": 0.00029830131428290504,
      "loss": 4.0918,
      "step": 24920
    },
    {
      "epoch": 0.0519375,
      "grad_norm": 0.7774547934532166,
      "learning_rate": 0.00029829983449289793,
      "loss": 4.0482,
      "step": 24930
    },
    {
      "epoch": 0.051958333333333336,
      "grad_norm": 0.8629083037376404,
      "learning_rate": 0.00029829835406229414,
      "loss": 4.0204,
      "step": 24940
    },
    {
      "epoch": 0.05197916666666667,
      "grad_norm": 0.9175631403923035,
      "learning_rate": 0.0002982968729911003,
      "loss": 4.0845,
      "step": 24950
    },
    {
      "epoch": 0.052,
      "grad_norm": 0.7594811320304871,
      "learning_rate": 0.00029829539127932254,
      "loss": 3.9998,
      "step": 24960
    },
    {
      "epoch": 0.052020833333333336,
      "grad_norm": 0.6801733374595642,
      "learning_rate": 0.0002982939089269675,
      "loss": 4.0655,
      "step": 24970
    },
    {
      "epoch": 0.05204166666666667,
      "grad_norm": 0.7805155515670776,
      "learning_rate": 0.00029829242593404137,
      "loss": 4.161,
      "step": 24980
    },
    {
      "epoch": 0.0520625,
      "grad_norm": 0.7797288298606873,
      "learning_rate": 0.00029829094230055073,
      "loss": 4.0497,
      "step": 24990
    },
    {
      "epoch": 0.052083333333333336,
      "grad_norm": 0.7731020450592041,
      "learning_rate": 0.0002982894580265019,
      "loss": 4.0063,
      "step": 25000
    },
    {
      "epoch": 0.052083333333333336,
      "eval_loss": 4.336343765258789,
      "eval_runtime": 10.9593,
      "eval_samples_per_second": 0.912,
      "eval_steps_per_second": 0.274,
      "step": 25000
    },
    {
      "epoch": 0.05210416666666667,
      "grad_norm": 0.8679764270782471,
      "learning_rate": 0.0002982879731119013,
      "loss": 3.9288,
      "step": 25010
    },
    {
      "epoch": 0.052125,
      "grad_norm": 0.9660125374794006,
      "learning_rate": 0.0002982864875567553,
      "loss": 4.0654,
      "step": 25020
    },
    {
      "epoch": 0.052145833333333336,
      "grad_norm": 0.8176667094230652,
      "learning_rate": 0.00029828500136107046,
      "loss": 3.8819,
      "step": 25030
    },
    {
      "epoch": 0.05216666666666667,
      "grad_norm": 0.9000110626220703,
      "learning_rate": 0.00029828351452485305,
      "loss": 4.068,
      "step": 25040
    },
    {
      "epoch": 0.0521875,
      "grad_norm": 0.8695964813232422,
      "learning_rate": 0.0002982820270481096,
      "loss": 3.9395,
      "step": 25050
    },
    {
      "epoch": 0.052208333333333336,
      "grad_norm": 0.8436212539672852,
      "learning_rate": 0.00029828053893084645,
      "loss": 3.9008,
      "step": 25060
    },
    {
      "epoch": 0.05222916666666667,
      "grad_norm": 0.9326121807098389,
      "learning_rate": 0.00029827905017307005,
      "loss": 4.1116,
      "step": 25070
    },
    {
      "epoch": 0.05225,
      "grad_norm": 0.8112564086914062,
      "learning_rate": 0.0002982775607747869,
      "loss": 4.0608,
      "step": 25080
    },
    {
      "epoch": 0.052270833333333336,
      "grad_norm": 0.7582147121429443,
      "learning_rate": 0.00029827607073600336,
      "loss": 3.951,
      "step": 25090
    },
    {
      "epoch": 0.05229166666666667,
      "grad_norm": 1.0393558740615845,
      "learning_rate": 0.00029827458005672586,
      "loss": 3.9703,
      "step": 25100
    },
    {
      "epoch": 0.0523125,
      "grad_norm": 0.8984432220458984,
      "learning_rate": 0.0002982730887369609,
      "loss": 3.8697,
      "step": 25110
    },
    {
      "epoch": 0.052333333333333336,
      "grad_norm": 0.8416324257850647,
      "learning_rate": 0.00029827159677671487,
      "loss": 4.0942,
      "step": 25120
    },
    {
      "epoch": 0.05235416666666667,
      "grad_norm": 0.883117139339447,
      "learning_rate": 0.0002982701041759942,
      "loss": 4.0695,
      "step": 25130
    },
    {
      "epoch": 0.052375,
      "grad_norm": 0.9035819172859192,
      "learning_rate": 0.00029826861093480543,
      "loss": 3.8093,
      "step": 25140
    },
    {
      "epoch": 0.052395833333333336,
      "grad_norm": 0.8934262990951538,
      "learning_rate": 0.00029826711705315494,
      "loss": 3.8761,
      "step": 25150
    },
    {
      "epoch": 0.05241666666666667,
      "grad_norm": 0.7317814826965332,
      "learning_rate": 0.00029826562253104915,
      "loss": 3.9768,
      "step": 25160
    },
    {
      "epoch": 0.0524375,
      "grad_norm": 0.8332627415657043,
      "learning_rate": 0.0002982641273684946,
      "loss": 3.9911,
      "step": 25170
    },
    {
      "epoch": 0.052458333333333336,
      "grad_norm": 0.8975181579589844,
      "learning_rate": 0.0002982626315654977,
      "loss": 4.1191,
      "step": 25180
    },
    {
      "epoch": 0.05247916666666667,
      "grad_norm": 0.7242105007171631,
      "learning_rate": 0.00029826113512206493,
      "loss": 4.1464,
      "step": 25190
    },
    {
      "epoch": 0.0525,
      "grad_norm": 0.9058417081832886,
      "learning_rate": 0.0002982596380382027,
      "loss": 4.1535,
      "step": 25200
    },
    {
      "epoch": 0.052520833333333336,
      "grad_norm": 0.8835211992263794,
      "learning_rate": 0.0002982581403139175,
      "loss": 4.1697,
      "step": 25210
    },
    {
      "epoch": 0.05254166666666667,
      "grad_norm": 0.7679778337478638,
      "learning_rate": 0.00029825664194921584,
      "loss": 4.1739,
      "step": 25220
    },
    {
      "epoch": 0.0525625,
      "grad_norm": 0.7050166130065918,
      "learning_rate": 0.00029825514294410424,
      "loss": 3.9807,
      "step": 25230
    },
    {
      "epoch": 0.052583333333333336,
      "grad_norm": 0.8627490401268005,
      "learning_rate": 0.00029825364329858905,
      "loss": 3.9646,
      "step": 25240
    },
    {
      "epoch": 0.05260416666666667,
      "grad_norm": 0.7679743766784668,
      "learning_rate": 0.00029825214301267683,
      "loss": 4.1079,
      "step": 25250
    },
    {
      "epoch": 0.052625,
      "grad_norm": 0.693442165851593,
      "learning_rate": 0.000298250642086374,
      "loss": 3.8797,
      "step": 25260
    },
    {
      "epoch": 0.052645833333333336,
      "grad_norm": 0.7887197732925415,
      "learning_rate": 0.00029824914051968703,
      "loss": 4.01,
      "step": 25270
    },
    {
      "epoch": 0.05266666666666667,
      "grad_norm": 0.7396295070648193,
      "learning_rate": 0.00029824763831262256,
      "loss": 4.0108,
      "step": 25280
    },
    {
      "epoch": 0.0526875,
      "grad_norm": 0.9091010689735413,
      "learning_rate": 0.0002982461354651869,
      "loss": 3.9888,
      "step": 25290
    },
    {
      "epoch": 0.052708333333333336,
      "grad_norm": 0.7854157090187073,
      "learning_rate": 0.00029824463197738663,
      "loss": 4.0078,
      "step": 25300
    },
    {
      "epoch": 0.05272916666666667,
      "grad_norm": 0.7814156413078308,
      "learning_rate": 0.0002982431278492283,
      "loss": 4.0492,
      "step": 25310
    },
    {
      "epoch": 0.05275,
      "grad_norm": 0.9090737104415894,
      "learning_rate": 0.00029824162308071824,
      "loss": 3.853,
      "step": 25320
    },
    {
      "epoch": 0.052770833333333336,
      "grad_norm": 0.8163498640060425,
      "learning_rate": 0.0002982401176718631,
      "loss": 3.9872,
      "step": 25330
    },
    {
      "epoch": 0.05279166666666667,
      "grad_norm": 0.8593524694442749,
      "learning_rate": 0.00029823861162266927,
      "loss": 3.9036,
      "step": 25340
    },
    {
      "epoch": 0.0528125,
      "grad_norm": 0.7348817586898804,
      "learning_rate": 0.00029823710493314336,
      "loss": 4.0633,
      "step": 25350
    },
    {
      "epoch": 0.052833333333333336,
      "grad_norm": 0.8376555442810059,
      "learning_rate": 0.0002982355976032919,
      "loss": 4.2846,
      "step": 25360
    },
    {
      "epoch": 0.05285416666666667,
      "grad_norm": 0.9028012752532959,
      "learning_rate": 0.0002982340896331212,
      "loss": 4.0197,
      "step": 25370
    },
    {
      "epoch": 0.052875,
      "grad_norm": 0.7531469464302063,
      "learning_rate": 0.000298232581022638,
      "loss": 4.0577,
      "step": 25380
    },
    {
      "epoch": 0.052895833333333336,
      "grad_norm": 0.7810875773429871,
      "learning_rate": 0.0002982310717718487,
      "loss": 4.1812,
      "step": 25390
    },
    {
      "epoch": 0.05291666666666667,
      "grad_norm": 0.9420462846755981,
      "learning_rate": 0.0002982295618807598,
      "loss": 4.0903,
      "step": 25400
    },
    {
      "epoch": 0.0529375,
      "grad_norm": 0.8849202394485474,
      "learning_rate": 0.0002982280513493779,
      "loss": 4.0536,
      "step": 25410
    },
    {
      "epoch": 0.052958333333333336,
      "grad_norm": 0.7876471281051636,
      "learning_rate": 0.00029822654017770954,
      "loss": 4.1859,
      "step": 25420
    },
    {
      "epoch": 0.05297916666666667,
      "grad_norm": 0.6946332454681396,
      "learning_rate": 0.00029822502836576113,
      "loss": 4.0652,
      "step": 25430
    },
    {
      "epoch": 0.053,
      "grad_norm": 0.766572892665863,
      "learning_rate": 0.0002982235159135393,
      "loss": 4.0054,
      "step": 25440
    },
    {
      "epoch": 0.053020833333333336,
      "grad_norm": 0.7415236234664917,
      "learning_rate": 0.0002982220028210506,
      "loss": 3.9045,
      "step": 25450
    },
    {
      "epoch": 0.05304166666666667,
      "grad_norm": 0.8876575231552124,
      "learning_rate": 0.0002982204890883014,
      "loss": 4.091,
      "step": 25460
    },
    {
      "epoch": 0.0530625,
      "grad_norm": 0.7859832644462585,
      "learning_rate": 0.00029821897471529843,
      "loss": 4.0758,
      "step": 25470
    },
    {
      "epoch": 0.05308333333333334,
      "grad_norm": 0.8452519178390503,
      "learning_rate": 0.00029821745970204816,
      "loss": 4.0975,
      "step": 25480
    },
    {
      "epoch": 0.05310416666666667,
      "grad_norm": 0.8111564517021179,
      "learning_rate": 0.0002982159440485571,
      "loss": 4.1749,
      "step": 25490
    },
    {
      "epoch": 0.053125,
      "grad_norm": 0.7085198163986206,
      "learning_rate": 0.00029821442775483187,
      "loss": 4.0537,
      "step": 25500
    },
    {
      "epoch": 0.05314583333333334,
      "grad_norm": 0.9012235999107361,
      "learning_rate": 0.00029821291082087896,
      "loss": 4.176,
      "step": 25510
    },
    {
      "epoch": 0.05316666666666667,
      "grad_norm": 0.8650346994400024,
      "learning_rate": 0.000298211393246705,
      "loss": 3.9709,
      "step": 25520
    },
    {
      "epoch": 0.0531875,
      "grad_norm": 0.7626082897186279,
      "learning_rate": 0.0002982098750323164,
      "loss": 3.9534,
      "step": 25530
    },
    {
      "epoch": 0.05320833333333334,
      "grad_norm": 0.7616943120956421,
      "learning_rate": 0.00029820835617771986,
      "loss": 3.9295,
      "step": 25540
    },
    {
      "epoch": 0.05322916666666667,
      "grad_norm": 0.8339295387268066,
      "learning_rate": 0.0002982068366829218,
      "loss": 4.0818,
      "step": 25550
    },
    {
      "epoch": 0.05325,
      "grad_norm": 0.7236396670341492,
      "learning_rate": 0.000298205316547929,
      "loss": 4.1177,
      "step": 25560
    },
    {
      "epoch": 0.05327083333333334,
      "grad_norm": 0.7763800621032715,
      "learning_rate": 0.0002982037957727478,
      "loss": 4.0758,
      "step": 25570
    },
    {
      "epoch": 0.05329166666666667,
      "grad_norm": 0.9085537195205688,
      "learning_rate": 0.0002982022743573849,
      "loss": 4.014,
      "step": 25580
    },
    {
      "epoch": 0.0533125,
      "grad_norm": 0.8715782761573792,
      "learning_rate": 0.00029820075230184683,
      "loss": 4.1275,
      "step": 25590
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 0.8721398711204529,
      "learning_rate": 0.0002981992296061402,
      "loss": 4.0606,
      "step": 25600
    },
    {
      "epoch": 0.05335416666666667,
      "grad_norm": 0.7593717575073242,
      "learning_rate": 0.00029819770627027153,
      "loss": 3.9948,
      "step": 25610
    },
    {
      "epoch": 0.053375,
      "grad_norm": 0.7327515482902527,
      "learning_rate": 0.00029819618229424744,
      "loss": 4.123,
      "step": 25620
    },
    {
      "epoch": 0.05339583333333333,
      "grad_norm": 0.7870599627494812,
      "learning_rate": 0.0002981946576780745,
      "loss": 4.1349,
      "step": 25630
    },
    {
      "epoch": 0.05341666666666667,
      "grad_norm": 0.751373291015625,
      "learning_rate": 0.0002981931324217593,
      "loss": 4.174,
      "step": 25640
    },
    {
      "epoch": 0.0534375,
      "grad_norm": 0.9155678749084473,
      "learning_rate": 0.0002981916065253084,
      "loss": 4.1807,
      "step": 25650
    },
    {
      "epoch": 0.05345833333333333,
      "grad_norm": 0.8148955702781677,
      "learning_rate": 0.0002981900799887284,
      "loss": 4.0155,
      "step": 25660
    },
    {
      "epoch": 0.05347916666666667,
      "grad_norm": 0.9303485155105591,
      "learning_rate": 0.000298188552812026,
      "loss": 3.9967,
      "step": 25670
    },
    {
      "epoch": 0.0535,
      "grad_norm": 0.8783281445503235,
      "learning_rate": 0.00029818702499520767,
      "loss": 4.0327,
      "step": 25680
    },
    {
      "epoch": 0.05352083333333333,
      "grad_norm": 0.8327281475067139,
      "learning_rate": 0.00029818549653828,
      "loss": 3.8982,
      "step": 25690
    },
    {
      "epoch": 0.05354166666666667,
      "grad_norm": 0.8736926317214966,
      "learning_rate": 0.0002981839674412497,
      "loss": 4.2395,
      "step": 25700
    },
    {
      "epoch": 0.0535625,
      "grad_norm": 0.8507968187332153,
      "learning_rate": 0.00029818243770412324,
      "loss": 4.0424,
      "step": 25710
    },
    {
      "epoch": 0.05358333333333333,
      "grad_norm": 0.923012375831604,
      "learning_rate": 0.0002981809073269074,
      "loss": 4.1088,
      "step": 25720
    },
    {
      "epoch": 0.05360416666666667,
      "grad_norm": 0.8640167713165283,
      "learning_rate": 0.0002981793763096086,
      "loss": 3.9143,
      "step": 25730
    },
    {
      "epoch": 0.053625,
      "grad_norm": 0.7366524934768677,
      "learning_rate": 0.00029817784465223363,
      "loss": 4.1999,
      "step": 25740
    },
    {
      "epoch": 0.05364583333333333,
      "grad_norm": 0.7925456762313843,
      "learning_rate": 0.00029817631235478905,
      "loss": 4.1754,
      "step": 25750
    },
    {
      "epoch": 0.05366666666666667,
      "grad_norm": 0.7976001501083374,
      "learning_rate": 0.0002981747794172814,
      "loss": 3.9346,
      "step": 25760
    },
    {
      "epoch": 0.0536875,
      "grad_norm": 0.8176832795143127,
      "learning_rate": 0.00029817324583971734,
      "loss": 3.8272,
      "step": 25770
    },
    {
      "epoch": 0.05370833333333333,
      "grad_norm": 0.9460039138793945,
      "learning_rate": 0.0002981717116221035,
      "loss": 4.0609,
      "step": 25780
    },
    {
      "epoch": 0.05372916666666667,
      "grad_norm": 0.8226052522659302,
      "learning_rate": 0.00029817017676444656,
      "loss": 4.213,
      "step": 25790
    },
    {
      "epoch": 0.05375,
      "grad_norm": 0.7489712834358215,
      "learning_rate": 0.00029816864126675305,
      "loss": 4.0105,
      "step": 25800
    },
    {
      "epoch": 0.05377083333333333,
      "grad_norm": 0.821898877620697,
      "learning_rate": 0.00029816710512902973,
      "loss": 4.1611,
      "step": 25810
    },
    {
      "epoch": 0.05379166666666667,
      "grad_norm": 0.8764083385467529,
      "learning_rate": 0.0002981655683512831,
      "loss": 3.9773,
      "step": 25820
    },
    {
      "epoch": 0.0538125,
      "grad_norm": 0.9119960069656372,
      "learning_rate": 0.00029816403093351987,
      "loss": 4.3071,
      "step": 25830
    },
    {
      "epoch": 0.05383333333333333,
      "grad_norm": 0.8117544054985046,
      "learning_rate": 0.00029816249287574676,
      "loss": 3.9691,
      "step": 25840
    },
    {
      "epoch": 0.05385416666666667,
      "grad_norm": 0.8214718103408813,
      "learning_rate": 0.0002981609541779702,
      "loss": 3.9859,
      "step": 25850
    },
    {
      "epoch": 0.053875,
      "grad_norm": 0.8828718662261963,
      "learning_rate": 0.00029815941484019707,
      "loss": 4.1477,
      "step": 25860
    },
    {
      "epoch": 0.05389583333333333,
      "grad_norm": 0.7494086623191833,
      "learning_rate": 0.00029815787486243387,
      "loss": 4.0238,
      "step": 25870
    },
    {
      "epoch": 0.05391666666666667,
      "grad_norm": 0.7445788979530334,
      "learning_rate": 0.00029815633424468726,
      "loss": 3.9501,
      "step": 25880
    },
    {
      "epoch": 0.0539375,
      "grad_norm": 0.8191030621528625,
      "learning_rate": 0.000298154792986964,
      "loss": 3.8307,
      "step": 25890
    },
    {
      "epoch": 0.05395833333333333,
      "grad_norm": 0.800342321395874,
      "learning_rate": 0.00029815325108927063,
      "loss": 4.002,
      "step": 25900
    },
    {
      "epoch": 0.05397916666666667,
      "grad_norm": 0.8192203044891357,
      "learning_rate": 0.0002981517085516139,
      "loss": 3.8703,
      "step": 25910
    },
    {
      "epoch": 0.054,
      "grad_norm": 0.793821394443512,
      "learning_rate": 0.00029815016537400037,
      "loss": 4.1342,
      "step": 25920
    },
    {
      "epoch": 0.05402083333333333,
      "grad_norm": 0.7684448957443237,
      "learning_rate": 0.00029814862155643683,
      "loss": 4.0141,
      "step": 25930
    },
    {
      "epoch": 0.05404166666666667,
      "grad_norm": 2.2807905673980713,
      "learning_rate": 0.00029814707709892985,
      "loss": 4.0951,
      "step": 25940
    },
    {
      "epoch": 0.0540625,
      "grad_norm": 0.9063512682914734,
      "learning_rate": 0.00029814553200148614,
      "loss": 3.9841,
      "step": 25950
    },
    {
      "epoch": 0.05408333333333333,
      "grad_norm": 0.9260051250457764,
      "learning_rate": 0.0002981439862641124,
      "loss": 4.1763,
      "step": 25960
    },
    {
      "epoch": 0.05410416666666667,
      "grad_norm": 0.7608188390731812,
      "learning_rate": 0.0002981424398868152,
      "loss": 3.8682,
      "step": 25970
    },
    {
      "epoch": 0.054125,
      "grad_norm": 0.8798760771751404,
      "learning_rate": 0.00029814089286960135,
      "loss": 4.0684,
      "step": 25980
    },
    {
      "epoch": 0.05414583333333333,
      "grad_norm": 0.9029885530471802,
      "learning_rate": 0.0002981393452124775,
      "loss": 3.8543,
      "step": 25990
    },
    {
      "epoch": 0.05416666666666667,
      "grad_norm": 0.8066505193710327,
      "learning_rate": 0.0002981377969154503,
      "loss": 4.0914,
      "step": 26000
    },
    {
      "epoch": 0.05416666666666667,
      "eval_loss": 4.327880859375,
      "eval_runtime": 9.9548,
      "eval_samples_per_second": 1.005,
      "eval_steps_per_second": 0.301,
      "step": 26000
    },
    {
      "epoch": 0.0541875,
      "grad_norm": 0.8141273856163025,
      "learning_rate": 0.00029813624797852645,
      "loss": 4.0672,
      "step": 26010
    },
    {
      "epoch": 0.05420833333333333,
      "grad_norm": 0.987872838973999,
      "learning_rate": 0.0002981346984017127,
      "loss": 4.019,
      "step": 26020
    },
    {
      "epoch": 0.05422916666666667,
      "grad_norm": 0.7986794710159302,
      "learning_rate": 0.0002981331481850156,
      "loss": 4.0217,
      "step": 26030
    },
    {
      "epoch": 0.05425,
      "grad_norm": 0.8378542065620422,
      "learning_rate": 0.000298131597328442,
      "loss": 4.0203,
      "step": 26040
    },
    {
      "epoch": 0.05427083333333333,
      "grad_norm": 0.7954228520393372,
      "learning_rate": 0.00029813004583199854,
      "loss": 4.042,
      "step": 26050
    },
    {
      "epoch": 0.05429166666666667,
      "grad_norm": 0.8431785702705383,
      "learning_rate": 0.00029812849369569185,
      "loss": 4.1244,
      "step": 26060
    },
    {
      "epoch": 0.0543125,
      "grad_norm": 0.9173063039779663,
      "learning_rate": 0.0002981269409195287,
      "loss": 4.029,
      "step": 26070
    },
    {
      "epoch": 0.05433333333333333,
      "grad_norm": 0.9336336255073547,
      "learning_rate": 0.00029812538750351587,
      "loss": 4.2161,
      "step": 26080
    },
    {
      "epoch": 0.05435416666666667,
      "grad_norm": 0.7570144534111023,
      "learning_rate": 0.00029812383344765997,
      "loss": 4.1046,
      "step": 26090
    },
    {
      "epoch": 0.054375,
      "grad_norm": 0.7910475134849548,
      "learning_rate": 0.0002981222787519677,
      "loss": 3.9664,
      "step": 26100
    },
    {
      "epoch": 0.05439583333333333,
      "grad_norm": 0.8541643023490906,
      "learning_rate": 0.00029812072341644586,
      "loss": 4.1627,
      "step": 26110
    },
    {
      "epoch": 0.05441666666666667,
      "grad_norm": 1.0798332691192627,
      "learning_rate": 0.00029811916744110114,
      "loss": 4.0423,
      "step": 26120
    },
    {
      "epoch": 0.0544375,
      "grad_norm": 0.8847834467887878,
      "learning_rate": 0.0002981176108259402,
      "loss": 4.0959,
      "step": 26130
    },
    {
      "epoch": 0.05445833333333333,
      "grad_norm": 0.8834118843078613,
      "learning_rate": 0.00029811605357096983,
      "loss": 4.1612,
      "step": 26140
    },
    {
      "epoch": 0.05447916666666667,
      "grad_norm": 0.7863786220550537,
      "learning_rate": 0.00029811449567619674,
      "loss": 4.1921,
      "step": 26150
    },
    {
      "epoch": 0.0545,
      "grad_norm": 0.7746523022651672,
      "learning_rate": 0.00029811293714162765,
      "loss": 4.0166,
      "step": 26160
    },
    {
      "epoch": 0.05452083333333333,
      "grad_norm": 0.9141077399253845,
      "learning_rate": 0.0002981113779672693,
      "loss": 3.9987,
      "step": 26170
    },
    {
      "epoch": 0.05454166666666667,
      "grad_norm": 0.8758476376533508,
      "learning_rate": 0.00029810981815312843,
      "loss": 4.0979,
      "step": 26180
    },
    {
      "epoch": 0.0545625,
      "grad_norm": 0.8166067004203796,
      "learning_rate": 0.0002981082576992118,
      "loss": 4.1661,
      "step": 26190
    },
    {
      "epoch": 0.05458333333333333,
      "grad_norm": 0.9543054699897766,
      "learning_rate": 0.00029810669660552605,
      "loss": 3.9377,
      "step": 26200
    },
    {
      "epoch": 0.05460416666666667,
      "grad_norm": 0.8993768692016602,
      "learning_rate": 0.00029810513487207803,
      "loss": 4.1213,
      "step": 26210
    },
    {
      "epoch": 0.054625,
      "grad_norm": 0.8368244767189026,
      "learning_rate": 0.00029810357249887445,
      "loss": 4.0153,
      "step": 26220
    },
    {
      "epoch": 0.05464583333333333,
      "grad_norm": 0.7785241603851318,
      "learning_rate": 0.0002981020094859221,
      "loss": 4.0867,
      "step": 26230
    },
    {
      "epoch": 0.05466666666666667,
      "grad_norm": 0.8933708071708679,
      "learning_rate": 0.00029810044583322763,
      "loss": 4.0624,
      "step": 26240
    },
    {
      "epoch": 0.0546875,
      "grad_norm": 0.8962421417236328,
      "learning_rate": 0.0002980988815407979,
      "loss": 3.9639,
      "step": 26250
    },
    {
      "epoch": 0.05470833333333333,
      "grad_norm": 0.684798538684845,
      "learning_rate": 0.0002980973166086396,
      "loss": 4.1126,
      "step": 26260
    },
    {
      "epoch": 0.05472916666666667,
      "grad_norm": 0.9264472723007202,
      "learning_rate": 0.00029809575103675954,
      "loss": 3.862,
      "step": 26270
    },
    {
      "epoch": 0.05475,
      "grad_norm": 0.843055248260498,
      "learning_rate": 0.00029809418482516445,
      "loss": 4.1021,
      "step": 26280
    },
    {
      "epoch": 0.05477083333333333,
      "grad_norm": 0.8278912305831909,
      "learning_rate": 0.00029809261797386107,
      "loss": 4.0889,
      "step": 26290
    },
    {
      "epoch": 0.05479166666666667,
      "grad_norm": 0.6960598230361938,
      "learning_rate": 0.00029809105048285623,
      "loss": 4.0218,
      "step": 26300
    },
    {
      "epoch": 0.0548125,
      "grad_norm": 0.9725921750068665,
      "learning_rate": 0.00029808948235215667,
      "loss": 4.1104,
      "step": 26310
    },
    {
      "epoch": 0.05483333333333333,
      "grad_norm": 0.8458218574523926,
      "learning_rate": 0.00029808791358176915,
      "loss": 3.9462,
      "step": 26320
    },
    {
      "epoch": 0.05485416666666667,
      "grad_norm": 0.8072821497917175,
      "learning_rate": 0.00029808634417170045,
      "loss": 3.8956,
      "step": 26330
    },
    {
      "epoch": 0.054875,
      "grad_norm": 0.8500383496284485,
      "learning_rate": 0.00029808477412195735,
      "loss": 4.0255,
      "step": 26340
    },
    {
      "epoch": 0.05489583333333333,
      "grad_norm": 0.8301315903663635,
      "learning_rate": 0.00029808320343254667,
      "loss": 4.1327,
      "step": 26350
    },
    {
      "epoch": 0.05491666666666667,
      "grad_norm": 0.8975498676300049,
      "learning_rate": 0.00029808163210347515,
      "loss": 3.9418,
      "step": 26360
    },
    {
      "epoch": 0.0549375,
      "grad_norm": 0.7640777230262756,
      "learning_rate": 0.00029808006013474966,
      "loss": 4.0775,
      "step": 26370
    },
    {
      "epoch": 0.05495833333333333,
      "grad_norm": 0.967329740524292,
      "learning_rate": 0.00029807848752637687,
      "loss": 3.8917,
      "step": 26380
    },
    {
      "epoch": 0.05497916666666667,
      "grad_norm": 0.9528917670249939,
      "learning_rate": 0.00029807691427836356,
      "loss": 4.3266,
      "step": 26390
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.7159419655799866,
      "learning_rate": 0.0002980753403907167,
      "loss": 4.1829,
      "step": 26400
    },
    {
      "epoch": 0.05502083333333333,
      "grad_norm": 0.9421341419219971,
      "learning_rate": 0.0002980737658634429,
      "loss": 4.3492,
      "step": 26410
    },
    {
      "epoch": 0.05504166666666667,
      "grad_norm": 0.7884871363639832,
      "learning_rate": 0.00029807219069654913,
      "loss": 4.0769,
      "step": 26420
    },
    {
      "epoch": 0.0550625,
      "grad_norm": 0.836663544178009,
      "learning_rate": 0.0002980706148900421,
      "loss": 4.0898,
      "step": 26430
    },
    {
      "epoch": 0.05508333333333333,
      "grad_norm": 0.8299884796142578,
      "learning_rate": 0.0002980690384439286,
      "loss": 4.2722,
      "step": 26440
    },
    {
      "epoch": 0.05510416666666667,
      "grad_norm": 0.827055811882019,
      "learning_rate": 0.0002980674613582154,
      "loss": 4.1584,
      "step": 26450
    },
    {
      "epoch": 0.055125,
      "grad_norm": 0.798271894454956,
      "learning_rate": 0.00029806588363290944,
      "loss": 4.1217,
      "step": 26460
    },
    {
      "epoch": 0.05514583333333333,
      "grad_norm": 0.7749260067939758,
      "learning_rate": 0.0002980643052680174,
      "loss": 4.0913,
      "step": 26470
    },
    {
      "epoch": 0.05516666666666667,
      "grad_norm": 0.8462902903556824,
      "learning_rate": 0.00029806272626354624,
      "loss": 3.9218,
      "step": 26480
    },
    {
      "epoch": 0.0551875,
      "grad_norm": 0.7688209414482117,
      "learning_rate": 0.00029806114661950274,
      "loss": 3.876,
      "step": 26490
    },
    {
      "epoch": 0.05520833333333333,
      "grad_norm": 0.7899056077003479,
      "learning_rate": 0.00029805956633589364,
      "loss": 4.1518,
      "step": 26500
    },
    {
      "epoch": 0.05522916666666667,
      "grad_norm": 0.7763992547988892,
      "learning_rate": 0.0002980579854127259,
      "loss": 4.1465,
      "step": 26510
    },
    {
      "epoch": 0.05525,
      "grad_norm": 0.7726714611053467,
      "learning_rate": 0.0002980564038500061,
      "loss": 4.07,
      "step": 26520
    },
    {
      "epoch": 0.05527083333333333,
      "grad_norm": 0.8705474734306335,
      "learning_rate": 0.0002980548216477414,
      "loss": 3.9944,
      "step": 26530
    },
    {
      "epoch": 0.05529166666666667,
      "grad_norm": 0.939509391784668,
      "learning_rate": 0.00029805323880593835,
      "loss": 4.1509,
      "step": 26540
    },
    {
      "epoch": 0.0553125,
      "grad_norm": 1.152762532234192,
      "learning_rate": 0.000298051655324604,
      "loss": 3.9186,
      "step": 26550
    },
    {
      "epoch": 0.05533333333333333,
      "grad_norm": 0.9585802555084229,
      "learning_rate": 0.0002980500712037451,
      "loss": 4.1011,
      "step": 26560
    },
    {
      "epoch": 0.05535416666666667,
      "grad_norm": 0.9303189516067505,
      "learning_rate": 0.00029804848644336847,
      "loss": 4.0939,
      "step": 26570
    },
    {
      "epoch": 0.055375,
      "grad_norm": 0.9007387161254883,
      "learning_rate": 0.000298046901043481,
      "loss": 4.162,
      "step": 26580
    },
    {
      "epoch": 0.05539583333333333,
      "grad_norm": 0.9668160676956177,
      "learning_rate": 0.0002980453150040895,
      "loss": 4.1048,
      "step": 26590
    },
    {
      "epoch": 0.05541666666666667,
      "grad_norm": 1.0031564235687256,
      "learning_rate": 0.00029804372832520083,
      "loss": 4.1194,
      "step": 26600
    },
    {
      "epoch": 0.0554375,
      "grad_norm": 0.7170320153236389,
      "learning_rate": 0.0002980421410068218,
      "loss": 3.9291,
      "step": 26610
    },
    {
      "epoch": 0.05545833333333333,
      "grad_norm": 0.9012174010276794,
      "learning_rate": 0.0002980405530489594,
      "loss": 4.0613,
      "step": 26620
    },
    {
      "epoch": 0.05547916666666667,
      "grad_norm": 0.8920809030532837,
      "learning_rate": 0.00029803896445162044,
      "loss": 3.9663,
      "step": 26630
    },
    {
      "epoch": 0.0555,
      "grad_norm": 0.8539957404136658,
      "learning_rate": 0.0002980373752148117,
      "loss": 4.1443,
      "step": 26640
    },
    {
      "epoch": 0.05552083333333333,
      "grad_norm": 0.7610334157943726,
      "learning_rate": 0.00029803578533854006,
      "loss": 4.0156,
      "step": 26650
    },
    {
      "epoch": 0.05554166666666667,
      "grad_norm": 0.8605121970176697,
      "learning_rate": 0.0002980341948228125,
      "loss": 4.0721,
      "step": 26660
    },
    {
      "epoch": 0.0555625,
      "grad_norm": 0.9511190056800842,
      "learning_rate": 0.00029803260366763573,
      "loss": 4.0147,
      "step": 26670
    },
    {
      "epoch": 0.05558333333333333,
      "grad_norm": 0.8601688742637634,
      "learning_rate": 0.0002980310118730168,
      "loss": 3.9876,
      "step": 26680
    },
    {
      "epoch": 0.05560416666666667,
      "grad_norm": 0.8312391042709351,
      "learning_rate": 0.00029802941943896246,
      "loss": 4.1528,
      "step": 26690
    },
    {
      "epoch": 0.055625,
      "grad_norm": 0.877134382724762,
      "learning_rate": 0.0002980278263654796,
      "loss": 4.0018,
      "step": 26700
    },
    {
      "epoch": 0.05564583333333333,
      "grad_norm": 0.7916426658630371,
      "learning_rate": 0.0002980262326525751,
      "loss": 4.0851,
      "step": 26710
    },
    {
      "epoch": 0.05566666666666667,
      "grad_norm": 1.0125732421875,
      "learning_rate": 0.00029802463830025594,
      "loss": 4.079,
      "step": 26720
    },
    {
      "epoch": 0.0556875,
      "grad_norm": 0.8588639497756958,
      "learning_rate": 0.0002980230433085289,
      "loss": 4.0211,
      "step": 26730
    },
    {
      "epoch": 0.05570833333333333,
      "grad_norm": 0.712783932685852,
      "learning_rate": 0.0002980214476774009,
      "loss": 3.9905,
      "step": 26740
    },
    {
      "epoch": 0.05572916666666667,
      "grad_norm": 0.8296897411346436,
      "learning_rate": 0.00029801985140687887,
      "loss": 3.9402,
      "step": 26750
    },
    {
      "epoch": 0.05575,
      "grad_norm": 0.8519870638847351,
      "learning_rate": 0.0002980182544969696,
      "loss": 3.9881,
      "step": 26760
    },
    {
      "epoch": 0.05577083333333333,
      "grad_norm": 0.775160551071167,
      "learning_rate": 0.0002980166569476801,
      "loss": 3.8696,
      "step": 26770
    },
    {
      "epoch": 0.05579166666666667,
      "grad_norm": 0.8488153219223022,
      "learning_rate": 0.00029801505875901724,
      "loss": 4.1092,
      "step": 26780
    },
    {
      "epoch": 0.0558125,
      "grad_norm": 0.8470948934555054,
      "learning_rate": 0.0002980134599309879,
      "loss": 3.9841,
      "step": 26790
    },
    {
      "epoch": 0.05583333333333333,
      "grad_norm": 0.8169370889663696,
      "learning_rate": 0.000298011860463599,
      "loss": 4.0456,
      "step": 26800
    },
    {
      "epoch": 0.05585416666666667,
      "grad_norm": 0.8172879815101624,
      "learning_rate": 0.00029801026035685747,
      "loss": 4.162,
      "step": 26810
    },
    {
      "epoch": 0.055875,
      "grad_norm": 0.8793221712112427,
      "learning_rate": 0.0002980086596107702,
      "loss": 3.8978,
      "step": 26820
    },
    {
      "epoch": 0.05589583333333333,
      "grad_norm": 0.7493585348129272,
      "learning_rate": 0.0002980070582253441,
      "loss": 4.1169,
      "step": 26830
    },
    {
      "epoch": 0.05591666666666667,
      "grad_norm": 0.7737422585487366,
      "learning_rate": 0.00029800545620058605,
      "loss": 4.1433,
      "step": 26840
    },
    {
      "epoch": 0.0559375,
      "grad_norm": 0.8545136451721191,
      "learning_rate": 0.0002980038535365031,
      "loss": 4.0284,
      "step": 26850
    },
    {
      "epoch": 0.05595833333333333,
      "grad_norm": 0.7985082268714905,
      "learning_rate": 0.00029800225023310205,
      "loss": 4.2711,
      "step": 26860
    },
    {
      "epoch": 0.05597916666666667,
      "grad_norm": 1.006777048110962,
      "learning_rate": 0.00029800064629038984,
      "loss": 4.1632,
      "step": 26870
    },
    {
      "epoch": 0.056,
      "grad_norm": 0.8652099370956421,
      "learning_rate": 0.0002979990417083734,
      "loss": 3.9666,
      "step": 26880
    },
    {
      "epoch": 0.05602083333333333,
      "grad_norm": 0.8486884832382202,
      "learning_rate": 0.00029799743648705975,
      "loss": 3.9628,
      "step": 26890
    },
    {
      "epoch": 0.05604166666666666,
      "grad_norm": 0.7718522548675537,
      "learning_rate": 0.0002979958306264557,
      "loss": 4.1106,
      "step": 26900
    },
    {
      "epoch": 0.0560625,
      "grad_norm": 0.7484955191612244,
      "learning_rate": 0.0002979942241265683,
      "loss": 3.9871,
      "step": 26910
    },
    {
      "epoch": 0.05608333333333333,
      "grad_norm": 0.8751292824745178,
      "learning_rate": 0.0002979926169874044,
      "loss": 3.9829,
      "step": 26920
    },
    {
      "epoch": 0.05610416666666666,
      "grad_norm": 0.8743491768836975,
      "learning_rate": 0.00029799100920897093,
      "loss": 4.0426,
      "step": 26930
    },
    {
      "epoch": 0.056125,
      "grad_norm": 0.7279717326164246,
      "learning_rate": 0.000297989400791275,
      "loss": 4.3661,
      "step": 26940
    },
    {
      "epoch": 0.05614583333333333,
      "grad_norm": 0.9955036044120789,
      "learning_rate": 0.0002979877917343233,
      "loss": 4.0641,
      "step": 26950
    },
    {
      "epoch": 0.05616666666666666,
      "grad_norm": 0.9362075328826904,
      "learning_rate": 0.000297986182038123,
      "loss": 4.0888,
      "step": 26960
    },
    {
      "epoch": 0.0561875,
      "grad_norm": 0.8330509066581726,
      "learning_rate": 0.0002979845717026809,
      "loss": 4.0181,
      "step": 26970
    },
    {
      "epoch": 0.05620833333333333,
      "grad_norm": 0.8496983051300049,
      "learning_rate": 0.0002979829607280041,
      "loss": 3.9437,
      "step": 26980
    },
    {
      "epoch": 0.05622916666666666,
      "grad_norm": 0.8705129623413086,
      "learning_rate": 0.00029798134911409945,
      "loss": 4.0155,
      "step": 26990
    },
    {
      "epoch": 0.05625,
      "grad_norm": 0.8399545550346375,
      "learning_rate": 0.00029797973686097396,
      "loss": 4.1028,
      "step": 27000
    },
    {
      "epoch": 0.05625,
      "eval_loss": 4.34025764465332,
      "eval_runtime": 8.7535,
      "eval_samples_per_second": 1.142,
      "eval_steps_per_second": 0.343,
      "step": 27000
    },
    {
      "epoch": 0.05627083333333333,
      "grad_norm": 0.7662619352340698,
      "learning_rate": 0.0002979781239686346,
      "loss": 3.9422,
      "step": 27010
    },
    {
      "epoch": 0.05629166666666666,
      "grad_norm": 0.8046996593475342,
      "learning_rate": 0.00029797651043708825,
      "loss": 3.939,
      "step": 27020
    },
    {
      "epoch": 0.0563125,
      "grad_norm": 0.7235816717147827,
      "learning_rate": 0.000297974896266342,
      "loss": 3.8503,
      "step": 27030
    },
    {
      "epoch": 0.05633333333333333,
      "grad_norm": 0.7669816613197327,
      "learning_rate": 0.00029797328145640277,
      "loss": 3.9678,
      "step": 27040
    },
    {
      "epoch": 0.056354166666666664,
      "grad_norm": 0.9331650733947754,
      "learning_rate": 0.00029797166600727755,
      "loss": 3.9661,
      "step": 27050
    },
    {
      "epoch": 0.056375,
      "grad_norm": 0.8737671971321106,
      "learning_rate": 0.00029797004991897325,
      "loss": 4.083,
      "step": 27060
    },
    {
      "epoch": 0.05639583333333333,
      "grad_norm": 0.8824302554130554,
      "learning_rate": 0.0002979684331914969,
      "loss": 3.9502,
      "step": 27070
    },
    {
      "epoch": 0.056416666666666664,
      "grad_norm": 0.8021812438964844,
      "learning_rate": 0.0002979668158248556,
      "loss": 4.0736,
      "step": 27080
    },
    {
      "epoch": 0.0564375,
      "grad_norm": 0.8866938352584839,
      "learning_rate": 0.0002979651978190561,
      "loss": 4.099,
      "step": 27090
    },
    {
      "epoch": 0.05645833333333333,
      "grad_norm": 1.1149288415908813,
      "learning_rate": 0.0002979635791741056,
      "loss": 4.0386,
      "step": 27100
    },
    {
      "epoch": 0.056479166666666664,
      "grad_norm": 0.8148994445800781,
      "learning_rate": 0.00029796195989001097,
      "loss": 3.997,
      "step": 27110
    },
    {
      "epoch": 0.0565,
      "grad_norm": 0.9753552079200745,
      "learning_rate": 0.00029796033996677923,
      "loss": 3.9277,
      "step": 27120
    },
    {
      "epoch": 0.05652083333333333,
      "grad_norm": 0.7911841869354248,
      "learning_rate": 0.0002979587194044174,
      "loss": 4.129,
      "step": 27130
    },
    {
      "epoch": 0.056541666666666664,
      "grad_norm": 0.9248166680335999,
      "learning_rate": 0.00029795709820293245,
      "loss": 4.0083,
      "step": 27140
    },
    {
      "epoch": 0.0565625,
      "grad_norm": 0.8655888438224792,
      "learning_rate": 0.0002979554763623314,
      "loss": 4.0271,
      "step": 27150
    },
    {
      "epoch": 0.05658333333333333,
      "grad_norm": 0.818027138710022,
      "learning_rate": 0.0002979538538826213,
      "loss": 4.028,
      "step": 27160
    },
    {
      "epoch": 0.056604166666666664,
      "grad_norm": 0.7877675890922546,
      "learning_rate": 0.0002979522307638091,
      "loss": 4.0262,
      "step": 27170
    },
    {
      "epoch": 0.056625,
      "grad_norm": 0.8260944485664368,
      "learning_rate": 0.0002979506070059018,
      "loss": 3.796,
      "step": 27180
    },
    {
      "epoch": 0.05664583333333333,
      "grad_norm": 0.8311991095542908,
      "learning_rate": 0.0002979489826089065,
      "loss": 3.8647,
      "step": 27190
    },
    {
      "epoch": 0.056666666666666664,
      "grad_norm": 0.8984955549240112,
      "learning_rate": 0.0002979473575728301,
      "loss": 4.0896,
      "step": 27200
    },
    {
      "epoch": 0.0566875,
      "grad_norm": 0.7244242429733276,
      "learning_rate": 0.0002979457318976797,
      "loss": 3.9002,
      "step": 27210
    },
    {
      "epoch": 0.05670833333333333,
      "grad_norm": 0.9853846430778503,
      "learning_rate": 0.0002979441055834623,
      "loss": 3.9856,
      "step": 27220
    },
    {
      "epoch": 0.056729166666666664,
      "grad_norm": 0.8580873012542725,
      "learning_rate": 0.0002979424786301849,
      "loss": 4.0081,
      "step": 27230
    },
    {
      "epoch": 0.05675,
      "grad_norm": 0.8319786787033081,
      "learning_rate": 0.00029794085103785456,
      "loss": 4.0757,
      "step": 27240
    },
    {
      "epoch": 0.05677083333333333,
      "grad_norm": 0.8109108805656433,
      "learning_rate": 0.00029793922280647834,
      "loss": 4.1142,
      "step": 27250
    },
    {
      "epoch": 0.056791666666666664,
      "grad_norm": 0.8998830914497375,
      "learning_rate": 0.00029793759393606316,
      "loss": 4.0393,
      "step": 27260
    },
    {
      "epoch": 0.0568125,
      "grad_norm": 0.900560200214386,
      "learning_rate": 0.0002979359644266162,
      "loss": 4.0735,
      "step": 27270
    },
    {
      "epoch": 0.05683333333333333,
      "grad_norm": 0.7826215028762817,
      "learning_rate": 0.0002979343342781444,
      "loss": 4.1502,
      "step": 27280
    },
    {
      "epoch": 0.056854166666666664,
      "grad_norm": 0.9946727156639099,
      "learning_rate": 0.00029793270349065483,
      "loss": 4.1398,
      "step": 27290
    },
    {
      "epoch": 0.056875,
      "grad_norm": 0.7540108561515808,
      "learning_rate": 0.0002979310720641546,
      "loss": 4.0657,
      "step": 27300
    },
    {
      "epoch": 0.05689583333333333,
      "grad_norm": 0.8192663788795471,
      "learning_rate": 0.00029792943999865063,
      "loss": 4.0565,
      "step": 27310
    },
    {
      "epoch": 0.056916666666666664,
      "grad_norm": 0.8690114617347717,
      "learning_rate": 0.00029792780729415006,
      "loss": 3.9907,
      "step": 27320
    },
    {
      "epoch": 0.0569375,
      "grad_norm": 0.7957090139389038,
      "learning_rate": 0.00029792617395065987,
      "loss": 3.9551,
      "step": 27330
    },
    {
      "epoch": 0.05695833333333333,
      "grad_norm": 0.8989977836608887,
      "learning_rate": 0.0002979245399681872,
      "loss": 3.7973,
      "step": 27340
    },
    {
      "epoch": 0.056979166666666664,
      "grad_norm": 0.756544291973114,
      "learning_rate": 0.00029792290534673904,
      "loss": 3.9086,
      "step": 27350
    },
    {
      "epoch": 0.057,
      "grad_norm": 0.765736997127533,
      "learning_rate": 0.00029792127008632254,
      "loss": 4.0317,
      "step": 27360
    },
    {
      "epoch": 0.05702083333333333,
      "grad_norm": 0.7790989279747009,
      "learning_rate": 0.00029791963418694466,
      "loss": 4.0469,
      "step": 27370
    },
    {
      "epoch": 0.057041666666666664,
      "grad_norm": 0.9195044040679932,
      "learning_rate": 0.0002979179976486125,
      "loss": 4.0934,
      "step": 27380
    },
    {
      "epoch": 0.0570625,
      "grad_norm": 0.776422917842865,
      "learning_rate": 0.00029791636047133313,
      "loss": 3.9163,
      "step": 27390
    },
    {
      "epoch": 0.05708333333333333,
      "grad_norm": 0.6974582672119141,
      "learning_rate": 0.00029791472265511374,
      "loss": 4.0636,
      "step": 27400
    },
    {
      "epoch": 0.057104166666666664,
      "grad_norm": 0.8672731518745422,
      "learning_rate": 0.00029791308419996115,
      "loss": 3.9009,
      "step": 27410
    },
    {
      "epoch": 0.057125,
      "grad_norm": 0.7101858854293823,
      "learning_rate": 0.0002979114451058827,
      "loss": 4.1968,
      "step": 27420
    },
    {
      "epoch": 0.05714583333333333,
      "grad_norm": 0.7952308654785156,
      "learning_rate": 0.0002979098053728853,
      "loss": 4.1748,
      "step": 27430
    },
    {
      "epoch": 0.057166666666666664,
      "grad_norm": 0.8893304467201233,
      "learning_rate": 0.0002979081650009761,
      "loss": 4.0173,
      "step": 27440
    },
    {
      "epoch": 0.0571875,
      "grad_norm": 0.7687021493911743,
      "learning_rate": 0.00029790652399016215,
      "loss": 4.025,
      "step": 27450
    },
    {
      "epoch": 0.05720833333333333,
      "grad_norm": 0.8946152925491333,
      "learning_rate": 0.0002979048823404506,
      "loss": 4.0742,
      "step": 27460
    },
    {
      "epoch": 0.057229166666666664,
      "grad_norm": 0.85627681016922,
      "learning_rate": 0.0002979032400518485,
      "loss": 4.0041,
      "step": 27470
    },
    {
      "epoch": 0.05725,
      "grad_norm": 0.7949414253234863,
      "learning_rate": 0.0002979015971243629,
      "loss": 4.0341,
      "step": 27480
    },
    {
      "epoch": 0.05727083333333333,
      "grad_norm": 0.8534319400787354,
      "learning_rate": 0.00029789995355800097,
      "loss": 4.159,
      "step": 27490
    },
    {
      "epoch": 0.057291666666666664,
      "grad_norm": 0.8384714722633362,
      "learning_rate": 0.0002978983093527698,
      "loss": 3.859,
      "step": 27500
    },
    {
      "epoch": 0.0573125,
      "grad_norm": 0.8197859525680542,
      "learning_rate": 0.00029789666450867646,
      "loss": 4.117,
      "step": 27510
    },
    {
      "epoch": 0.05733333333333333,
      "grad_norm": 1.0367538928985596,
      "learning_rate": 0.0002978950190257281,
      "loss": 4.1616,
      "step": 27520
    },
    {
      "epoch": 0.057354166666666664,
      "grad_norm": 0.99312424659729,
      "learning_rate": 0.0002978933729039318,
      "loss": 4.169,
      "step": 27530
    },
    {
      "epoch": 0.057375,
      "grad_norm": 0.8041914701461792,
      "learning_rate": 0.0002978917261432946,
      "loss": 4.0776,
      "step": 27540
    },
    {
      "epoch": 0.05739583333333333,
      "grad_norm": 0.8126703500747681,
      "learning_rate": 0.0002978900787438237,
      "loss": 4.0802,
      "step": 27550
    },
    {
      "epoch": 0.057416666666666664,
      "grad_norm": 0.9069227576255798,
      "learning_rate": 0.00029788843070552626,
      "loss": 3.9387,
      "step": 27560
    },
    {
      "epoch": 0.0574375,
      "grad_norm": 0.887240469455719,
      "learning_rate": 0.0002978867820284093,
      "loss": 3.9194,
      "step": 27570
    },
    {
      "epoch": 0.057458333333333333,
      "grad_norm": 0.9570077061653137,
      "learning_rate": 0.00029788513271247996,
      "loss": 4.0781,
      "step": 27580
    },
    {
      "epoch": 0.057479166666666665,
      "grad_norm": 0.8808181881904602,
      "learning_rate": 0.0002978834827577454,
      "loss": 4.1384,
      "step": 27590
    },
    {
      "epoch": 0.0575,
      "grad_norm": 0.8422778844833374,
      "learning_rate": 0.00029788183216421276,
      "loss": 4.1494,
      "step": 27600
    },
    {
      "epoch": 0.057520833333333334,
      "grad_norm": 0.6994836330413818,
      "learning_rate": 0.00029788018093188914,
      "loss": 4.1421,
      "step": 27610
    },
    {
      "epoch": 0.057541666666666665,
      "grad_norm": 0.8527041077613831,
      "learning_rate": 0.00029787852906078163,
      "loss": 4.1566,
      "step": 27620
    },
    {
      "epoch": 0.0575625,
      "grad_norm": 0.7462884783744812,
      "learning_rate": 0.00029787687655089744,
      "loss": 4.0049,
      "step": 27630
    },
    {
      "epoch": 0.057583333333333334,
      "grad_norm": 0.813798725605011,
      "learning_rate": 0.00029787522340224366,
      "loss": 4.0982,
      "step": 27640
    },
    {
      "epoch": 0.057604166666666665,
      "grad_norm": 0.8344324231147766,
      "learning_rate": 0.00029787356961482746,
      "loss": 4.0809,
      "step": 27650
    },
    {
      "epoch": 0.057625,
      "grad_norm": 1.0217283964157104,
      "learning_rate": 0.00029787191518865593,
      "loss": 3.9823,
      "step": 27660
    },
    {
      "epoch": 0.057645833333333334,
      "grad_norm": 0.9248143434524536,
      "learning_rate": 0.00029787026012373635,
      "loss": 3.8954,
      "step": 27670
    },
    {
      "epoch": 0.057666666666666665,
      "grad_norm": 0.7930680513381958,
      "learning_rate": 0.00029786860442007574,
      "loss": 4.1168,
      "step": 27680
    },
    {
      "epoch": 0.0576875,
      "grad_norm": 0.8671926856040955,
      "learning_rate": 0.00029786694807768123,
      "loss": 3.9908,
      "step": 27690
    },
    {
      "epoch": 0.057708333333333334,
      "grad_norm": 0.7984269857406616,
      "learning_rate": 0.0002978652910965601,
      "loss": 4.062,
      "step": 27700
    },
    {
      "epoch": 0.057729166666666665,
      "grad_norm": 1.006212830543518,
      "learning_rate": 0.00029786363347671937,
      "loss": 3.9895,
      "step": 27710
    },
    {
      "epoch": 0.05775,
      "grad_norm": 0.8185776472091675,
      "learning_rate": 0.0002978619752181663,
      "loss": 4.1555,
      "step": 27720
    },
    {
      "epoch": 0.057770833333333334,
      "grad_norm": 0.7997540235519409,
      "learning_rate": 0.00029786031632090805,
      "loss": 4.0457,
      "step": 27730
    },
    {
      "epoch": 0.057791666666666665,
      "grad_norm": 0.9799068570137024,
      "learning_rate": 0.0002978586567849518,
      "loss": 4.0002,
      "step": 27740
    },
    {
      "epoch": 0.0578125,
      "grad_norm": 0.7385460734367371,
      "learning_rate": 0.0002978569966103046,
      "loss": 4.0234,
      "step": 27750
    },
    {
      "epoch": 0.057833333333333334,
      "grad_norm": 0.8779273629188538,
      "learning_rate": 0.00029785533579697375,
      "loss": 4.0522,
      "step": 27760
    },
    {
      "epoch": 0.057854166666666665,
      "grad_norm": 0.914624035358429,
      "learning_rate": 0.00029785367434496636,
      "loss": 4.1752,
      "step": 27770
    },
    {
      "epoch": 0.057875,
      "grad_norm": 0.8123421669006348,
      "learning_rate": 0.00029785201225428963,
      "loss": 4.1883,
      "step": 27780
    },
    {
      "epoch": 0.057895833333333334,
      "grad_norm": 0.8019118905067444,
      "learning_rate": 0.0002978503495249507,
      "loss": 4.1303,
      "step": 27790
    },
    {
      "epoch": 0.057916666666666665,
      "grad_norm": 0.8312571048736572,
      "learning_rate": 0.0002978486861569568,
      "loss": 4.1969,
      "step": 27800
    },
    {
      "epoch": 0.0579375,
      "grad_norm": 0.8312780261039734,
      "learning_rate": 0.0002978470221503151,
      "loss": 4.1649,
      "step": 27810
    },
    {
      "epoch": 0.057958333333333334,
      "grad_norm": 0.9603740572929382,
      "learning_rate": 0.0002978453575050328,
      "loss": 3.848,
      "step": 27820
    },
    {
      "epoch": 0.057979166666666665,
      "grad_norm": 0.7763473391532898,
      "learning_rate": 0.00029784369222111707,
      "loss": 4.1055,
      "step": 27830
    },
    {
      "epoch": 0.058,
      "grad_norm": 0.8713984489440918,
      "learning_rate": 0.0002978420262985751,
      "loss": 4.0039,
      "step": 27840
    },
    {
      "epoch": 0.058020833333333334,
      "grad_norm": 0.7909165024757385,
      "learning_rate": 0.00029784035973741413,
      "loss": 4.0107,
      "step": 27850
    },
    {
      "epoch": 0.058041666666666665,
      "grad_norm": 0.8102976083755493,
      "learning_rate": 0.0002978386925376413,
      "loss": 3.9948,
      "step": 27860
    },
    {
      "epoch": 0.0580625,
      "grad_norm": 0.7579713463783264,
      "learning_rate": 0.0002978370246992638,
      "loss": 4.0644,
      "step": 27870
    },
    {
      "epoch": 0.058083333333333334,
      "grad_norm": 0.8094449043273926,
      "learning_rate": 0.0002978353562222889,
      "loss": 4.0242,
      "step": 27880
    },
    {
      "epoch": 0.058104166666666665,
      "grad_norm": 0.8413870930671692,
      "learning_rate": 0.0002978336871067238,
      "loss": 4.1037,
      "step": 27890
    },
    {
      "epoch": 0.058125,
      "grad_norm": 0.9004387855529785,
      "learning_rate": 0.0002978320173525757,
      "loss": 3.9812,
      "step": 27900
    },
    {
      "epoch": 0.058145833333333334,
      "grad_norm": 0.8963835835456848,
      "learning_rate": 0.0002978303469598517,
      "loss": 4.0219,
      "step": 27910
    },
    {
      "epoch": 0.058166666666666665,
      "grad_norm": 0.7338860630989075,
      "learning_rate": 0.00029782867592855925,
      "loss": 4.0023,
      "step": 27920
    },
    {
      "epoch": 0.0581875,
      "grad_norm": 0.8324993848800659,
      "learning_rate": 0.0002978270042587054,
      "loss": 4.0042,
      "step": 27930
    },
    {
      "epoch": 0.058208333333333334,
      "grad_norm": 0.9510817527770996,
      "learning_rate": 0.00029782533195029737,
      "loss": 3.8577,
      "step": 27940
    },
    {
      "epoch": 0.058229166666666665,
      "grad_norm": 0.8871030211448669,
      "learning_rate": 0.0002978236590033424,
      "loss": 3.9181,
      "step": 27950
    },
    {
      "epoch": 0.05825,
      "grad_norm": 0.7444835901260376,
      "learning_rate": 0.0002978219854178478,
      "loss": 3.8736,
      "step": 27960
    },
    {
      "epoch": 0.058270833333333334,
      "grad_norm": 0.8341856598854065,
      "learning_rate": 0.0002978203111938207,
      "loss": 4.0376,
      "step": 27970
    },
    {
      "epoch": 0.058291666666666665,
      "grad_norm": 0.9582986235618591,
      "learning_rate": 0.00029781863633126837,
      "loss": 4.0826,
      "step": 27980
    },
    {
      "epoch": 0.0583125,
      "grad_norm": 0.7271352410316467,
      "learning_rate": 0.00029781696083019797,
      "loss": 4.0753,
      "step": 27990
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 0.7385260462760925,
      "learning_rate": 0.00029781528469061694,
      "loss": 3.9719,
      "step": 28000
    },
    {
      "epoch": 0.058333333333333334,
      "eval_loss": 4.3337297439575195,
      "eval_runtime": 9.7426,
      "eval_samples_per_second": 1.026,
      "eval_steps_per_second": 0.308,
      "step": 28000
    },
    {
      "epoch": 0.058354166666666665,
      "grad_norm": 0.9821462631225586,
      "learning_rate": 0.0002978136079125323,
      "loss": 3.8396,
      "step": 28010
    },
    {
      "epoch": 0.058375,
      "grad_norm": 0.8511221408843994,
      "learning_rate": 0.00029781193049595143,
      "loss": 4.1699,
      "step": 28020
    },
    {
      "epoch": 0.058395833333333334,
      "grad_norm": 0.8254387974739075,
      "learning_rate": 0.0002978102524408815,
      "loss": 4.082,
      "step": 28030
    },
    {
      "epoch": 0.058416666666666665,
      "grad_norm": 0.783639132976532,
      "learning_rate": 0.0002978085737473298,
      "loss": 3.9503,
      "step": 28040
    },
    {
      "epoch": 0.0584375,
      "grad_norm": 1.0915508270263672,
      "learning_rate": 0.00029780689441530355,
      "loss": 3.9063,
      "step": 28050
    },
    {
      "epoch": 0.058458333333333334,
      "grad_norm": 0.9193095564842224,
      "learning_rate": 0.00029780521444481,
      "loss": 4.0717,
      "step": 28060
    },
    {
      "epoch": 0.058479166666666665,
      "grad_norm": 0.9121372103691101,
      "learning_rate": 0.0002978035338358565,
      "loss": 3.9815,
      "step": 28070
    },
    {
      "epoch": 0.0585,
      "grad_norm": 0.787655234336853,
      "learning_rate": 0.0002978018525884502,
      "loss": 4.1139,
      "step": 28080
    },
    {
      "epoch": 0.058520833333333334,
      "grad_norm": 0.8940716981887817,
      "learning_rate": 0.0002978001707025984,
      "loss": 4.1568,
      "step": 28090
    },
    {
      "epoch": 0.058541666666666665,
      "grad_norm": 0.8758763670921326,
      "learning_rate": 0.0002977984881783084,
      "loss": 3.9863,
      "step": 28100
    },
    {
      "epoch": 0.0585625,
      "grad_norm": 0.7488703727722168,
      "learning_rate": 0.00029779680501558736,
      "loss": 3.8419,
      "step": 28110
    },
    {
      "epoch": 0.058583333333333334,
      "grad_norm": 0.771414041519165,
      "learning_rate": 0.0002977951212144427,
      "loss": 4.028,
      "step": 28120
    },
    {
      "epoch": 0.058604166666666666,
      "grad_norm": 1.0134316682815552,
      "learning_rate": 0.0002977934367748816,
      "loss": 3.9775,
      "step": 28130
    },
    {
      "epoch": 0.058625,
      "grad_norm": 0.8183576464653015,
      "learning_rate": 0.0002977917516969113,
      "loss": 4.0934,
      "step": 28140
    },
    {
      "epoch": 0.058645833333333335,
      "grad_norm": 0.8778153657913208,
      "learning_rate": 0.0002977900659805392,
      "loss": 4.0242,
      "step": 28150
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 1.1029689311981201,
      "learning_rate": 0.0002977883796257725,
      "loss": 4.0612,
      "step": 28160
    },
    {
      "epoch": 0.0586875,
      "grad_norm": 0.7578759789466858,
      "learning_rate": 0.00029778669263261844,
      "loss": 4.0755,
      "step": 28170
    },
    {
      "epoch": 0.058708333333333335,
      "grad_norm": 0.8067404627799988,
      "learning_rate": 0.0002977850050010844,
      "loss": 4.0353,
      "step": 28180
    },
    {
      "epoch": 0.058729166666666666,
      "grad_norm": 0.7950558066368103,
      "learning_rate": 0.00029778331673117767,
      "loss": 4.0281,
      "step": 28190
    },
    {
      "epoch": 0.05875,
      "grad_norm": 0.7035298347473145,
      "learning_rate": 0.0002977816278229055,
      "loss": 3.901,
      "step": 28200
    },
    {
      "epoch": 0.058770833333333335,
      "grad_norm": 0.8084566593170166,
      "learning_rate": 0.00029777993827627517,
      "loss": 4.137,
      "step": 28210
    },
    {
      "epoch": 0.058791666666666666,
      "grad_norm": 0.8556565642356873,
      "learning_rate": 0.000297778248091294,
      "loss": 4.2009,
      "step": 28220
    },
    {
      "epoch": 0.0588125,
      "grad_norm": 0.7428489923477173,
      "learning_rate": 0.0002977765572679693,
      "loss": 4.113,
      "step": 28230
    },
    {
      "epoch": 0.058833333333333335,
      "grad_norm": 0.7887394428253174,
      "learning_rate": 0.0002977748658063084,
      "loss": 4.0304,
      "step": 28240
    },
    {
      "epoch": 0.058854166666666666,
      "grad_norm": 0.8271185159683228,
      "learning_rate": 0.0002977731737063185,
      "loss": 4.0396,
      "step": 28250
    },
    {
      "epoch": 0.058875,
      "grad_norm": 0.7731518745422363,
      "learning_rate": 0.00029777148096800707,
      "loss": 4.0463,
      "step": 28260
    },
    {
      "epoch": 0.058895833333333335,
      "grad_norm": 0.8690152764320374,
      "learning_rate": 0.00029776978759138125,
      "loss": 4.0801,
      "step": 28270
    },
    {
      "epoch": 0.058916666666666666,
      "grad_norm": 0.8408668041229248,
      "learning_rate": 0.0002977680935764485,
      "loss": 4.0922,
      "step": 28280
    },
    {
      "epoch": 0.0589375,
      "grad_norm": 0.8092278838157654,
      "learning_rate": 0.00029776639892321606,
      "loss": 4.1257,
      "step": 28290
    },
    {
      "epoch": 0.058958333333333335,
      "grad_norm": 0.8814899325370789,
      "learning_rate": 0.0002977647036316913,
      "loss": 3.9045,
      "step": 28300
    },
    {
      "epoch": 0.058979166666666666,
      "grad_norm": 4.785010814666748,
      "learning_rate": 0.00029776300770188144,
      "loss": 3.9294,
      "step": 28310
    },
    {
      "epoch": 0.059,
      "grad_norm": 0.7081260681152344,
      "learning_rate": 0.00029776131113379387,
      "loss": 4.0657,
      "step": 28320
    },
    {
      "epoch": 0.059020833333333335,
      "grad_norm": 0.7731541395187378,
      "learning_rate": 0.000297759613927436,
      "loss": 4.0361,
      "step": 28330
    },
    {
      "epoch": 0.059041666666666666,
      "grad_norm": 0.7795857787132263,
      "learning_rate": 0.000297757916082815,
      "loss": 4.0586,
      "step": 28340
    },
    {
      "epoch": 0.0590625,
      "grad_norm": 0.8129675984382629,
      "learning_rate": 0.0002977562175999384,
      "loss": 4.0363,
      "step": 28350
    },
    {
      "epoch": 0.059083333333333335,
      "grad_norm": 0.8184221386909485,
      "learning_rate": 0.00029775451847881333,
      "loss": 3.9616,
      "step": 28360
    },
    {
      "epoch": 0.059104166666666666,
      "grad_norm": 0.8976306319236755,
      "learning_rate": 0.00029775281871944725,
      "loss": 3.937,
      "step": 28370
    },
    {
      "epoch": 0.059125,
      "grad_norm": 0.7422711253166199,
      "learning_rate": 0.0002977511183218475,
      "loss": 4.097,
      "step": 28380
    },
    {
      "epoch": 0.059145833333333335,
      "grad_norm": 0.8507609963417053,
      "learning_rate": 0.00029774941728602137,
      "loss": 3.9694,
      "step": 28390
    },
    {
      "epoch": 0.059166666666666666,
      "grad_norm": 0.7471102476119995,
      "learning_rate": 0.00029774771561197626,
      "loss": 4.0232,
      "step": 28400
    },
    {
      "epoch": 0.0591875,
      "grad_norm": 0.8396421670913696,
      "learning_rate": 0.0002977460132997195,
      "loss": 3.911,
      "step": 28410
    },
    {
      "epoch": 0.059208333333333335,
      "grad_norm": 0.8948994278907776,
      "learning_rate": 0.00029774431034925846,
      "loss": 4.3207,
      "step": 28420
    },
    {
      "epoch": 0.059229166666666666,
      "grad_norm": 0.649896502494812,
      "learning_rate": 0.00029774260676060046,
      "loss": 4.1688,
      "step": 28430
    },
    {
      "epoch": 0.05925,
      "grad_norm": 0.8756998777389526,
      "learning_rate": 0.00029774090253375287,
      "loss": 3.9492,
      "step": 28440
    },
    {
      "epoch": 0.059270833333333335,
      "grad_norm": 1.0259588956832886,
      "learning_rate": 0.00029773919766872307,
      "loss": 3.9834,
      "step": 28450
    },
    {
      "epoch": 0.059291666666666666,
      "grad_norm": 1.091251015663147,
      "learning_rate": 0.0002977374921655184,
      "loss": 4.0844,
      "step": 28460
    },
    {
      "epoch": 0.0593125,
      "grad_norm": 0.8668212294578552,
      "learning_rate": 0.0002977357860241463,
      "loss": 4.1526,
      "step": 28470
    },
    {
      "epoch": 0.059333333333333335,
      "grad_norm": 0.8509314656257629,
      "learning_rate": 0.00029773407924461404,
      "loss": 3.9016,
      "step": 28480
    },
    {
      "epoch": 0.059354166666666666,
      "grad_norm": 0.8672800660133362,
      "learning_rate": 0.00029773237182692904,
      "loss": 4.1919,
      "step": 28490
    },
    {
      "epoch": 0.059375,
      "grad_norm": 0.8291724324226379,
      "learning_rate": 0.0002977306637710987,
      "loss": 3.9928,
      "step": 28500
    },
    {
      "epoch": 0.059395833333333335,
      "grad_norm": 0.7973001599311829,
      "learning_rate": 0.0002977289550771303,
      "loss": 4.2397,
      "step": 28510
    },
    {
      "epoch": 0.059416666666666666,
      "grad_norm": 0.8378255367279053,
      "learning_rate": 0.00029772724574503133,
      "loss": 4.1656,
      "step": 28520
    },
    {
      "epoch": 0.0594375,
      "grad_norm": 0.7942454218864441,
      "learning_rate": 0.00029772553577480916,
      "loss": 4.1935,
      "step": 28530
    },
    {
      "epoch": 0.059458333333333335,
      "grad_norm": 0.8349277377128601,
      "learning_rate": 0.0002977238251664711,
      "loss": 3.9162,
      "step": 28540
    },
    {
      "epoch": 0.059479166666666666,
      "grad_norm": 0.7770869731903076,
      "learning_rate": 0.0002977221139200246,
      "loss": 4.2089,
      "step": 28550
    },
    {
      "epoch": 0.0595,
      "grad_norm": 0.7684369683265686,
      "learning_rate": 0.0002977204020354771,
      "loss": 4.018,
      "step": 28560
    },
    {
      "epoch": 0.059520833333333335,
      "grad_norm": 0.7355980277061462,
      "learning_rate": 0.00029771868951283586,
      "loss": 4.0613,
      "step": 28570
    },
    {
      "epoch": 0.059541666666666666,
      "grad_norm": 0.7931314706802368,
      "learning_rate": 0.0002977169763521084,
      "loss": 4.1778,
      "step": 28580
    },
    {
      "epoch": 0.0595625,
      "grad_norm": 0.8197821378707886,
      "learning_rate": 0.000297715262553302,
      "loss": 4.0474,
      "step": 28590
    },
    {
      "epoch": 0.059583333333333335,
      "grad_norm": 0.9635288119316101,
      "learning_rate": 0.00029771354811642417,
      "loss": 4.0023,
      "step": 28600
    },
    {
      "epoch": 0.059604166666666666,
      "grad_norm": 0.8888946771621704,
      "learning_rate": 0.0002977118330414823,
      "loss": 4.0462,
      "step": 28610
    },
    {
      "epoch": 0.059625,
      "grad_norm": 0.7992176413536072,
      "learning_rate": 0.0002977101173284838,
      "loss": 3.917,
      "step": 28620
    },
    {
      "epoch": 0.059645833333333335,
      "grad_norm": 0.7799692749977112,
      "learning_rate": 0.000297708400977436,
      "loss": 4.0065,
      "step": 28630
    },
    {
      "epoch": 0.059666666666666666,
      "grad_norm": 0.8649428486824036,
      "learning_rate": 0.00029770668398834644,
      "loss": 4.1142,
      "step": 28640
    },
    {
      "epoch": 0.0596875,
      "grad_norm": 0.7527645230293274,
      "learning_rate": 0.0002977049663612224,
      "loss": 4.0586,
      "step": 28650
    },
    {
      "epoch": 0.059708333333333335,
      "grad_norm": 0.8963967561721802,
      "learning_rate": 0.0002977032480960715,
      "loss": 4.1482,
      "step": 28660
    },
    {
      "epoch": 0.059729166666666667,
      "grad_norm": 0.773729145526886,
      "learning_rate": 0.0002977015291929009,
      "loss": 3.9072,
      "step": 28670
    },
    {
      "epoch": 0.05975,
      "grad_norm": 0.8178229331970215,
      "learning_rate": 0.00029769980965171824,
      "loss": 3.8887,
      "step": 28680
    },
    {
      "epoch": 0.059770833333333336,
      "grad_norm": 0.8257982730865479,
      "learning_rate": 0.0002976980894725308,
      "loss": 3.9644,
      "step": 28690
    },
    {
      "epoch": 0.05979166666666667,
      "grad_norm": 0.686358630657196,
      "learning_rate": 0.0002976963686553461,
      "loss": 4.1402,
      "step": 28700
    },
    {
      "epoch": 0.0598125,
      "grad_norm": 0.7905331254005432,
      "learning_rate": 0.0002976946472001716,
      "loss": 4.0758,
      "step": 28710
    },
    {
      "epoch": 0.059833333333333336,
      "grad_norm": 0.7291516661643982,
      "learning_rate": 0.0002976929251070146,
      "loss": 4.0882,
      "step": 28720
    },
    {
      "epoch": 0.05985416666666667,
      "grad_norm": 0.8644330501556396,
      "learning_rate": 0.0002976912023758827,
      "loss": 4.0914,
      "step": 28730
    },
    {
      "epoch": 0.059875,
      "grad_norm": 0.8880428075790405,
      "learning_rate": 0.0002976894790067832,
      "loss": 3.9662,
      "step": 28740
    },
    {
      "epoch": 0.059895833333333336,
      "grad_norm": 0.8069501519203186,
      "learning_rate": 0.00029768775499972364,
      "loss": 3.9497,
      "step": 28750
    },
    {
      "epoch": 0.05991666666666667,
      "grad_norm": 0.8965879678726196,
      "learning_rate": 0.0002976860303547114,
      "loss": 3.895,
      "step": 28760
    },
    {
      "epoch": 0.0599375,
      "grad_norm": 0.9722900986671448,
      "learning_rate": 0.00029768430507175404,
      "loss": 4.2203,
      "step": 28770
    },
    {
      "epoch": 0.059958333333333336,
      "grad_norm": 0.9029613137245178,
      "learning_rate": 0.0002976825791508589,
      "loss": 3.9507,
      "step": 28780
    },
    {
      "epoch": 0.05997916666666667,
      "grad_norm": 0.9038407802581787,
      "learning_rate": 0.00029768085259203347,
      "loss": 4.0853,
      "step": 28790
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8156259059906006,
      "learning_rate": 0.00029767912539528527,
      "loss": 4.147,
      "step": 28800
    },
    {
      "epoch": 0.060020833333333336,
      "grad_norm": 0.7823668122291565,
      "learning_rate": 0.0002976773975606216,
      "loss": 3.7448,
      "step": 28810
    },
    {
      "epoch": 0.06004166666666667,
      "grad_norm": 0.7521113753318787,
      "learning_rate": 0.0002976756690880501,
      "loss": 4.2022,
      "step": 28820
    },
    {
      "epoch": 0.0600625,
      "grad_norm": 0.7777439951896667,
      "learning_rate": 0.0002976739399775782,
      "loss": 3.8334,
      "step": 28830
    },
    {
      "epoch": 0.060083333333333336,
      "grad_norm": 0.7256953716278076,
      "learning_rate": 0.00029767221022921323,
      "loss": 4.0322,
      "step": 28840
    },
    {
      "epoch": 0.06010416666666667,
      "grad_norm": 0.839480996131897,
      "learning_rate": 0.0002976704798429629,
      "loss": 4.0847,
      "step": 28850
    },
    {
      "epoch": 0.060125,
      "grad_norm": 0.788024365901947,
      "learning_rate": 0.0002976687488188344,
      "loss": 4.1183,
      "step": 28860
    },
    {
      "epoch": 0.060145833333333336,
      "grad_norm": 0.8533191084861755,
      "learning_rate": 0.0002976670171568354,
      "loss": 3.9709,
      "step": 28870
    },
    {
      "epoch": 0.06016666666666667,
      "grad_norm": 0.7956870198249817,
      "learning_rate": 0.0002976652848569734,
      "loss": 3.9244,
      "step": 28880
    },
    {
      "epoch": 0.0601875,
      "grad_norm": 0.8222197890281677,
      "learning_rate": 0.0002976635519192557,
      "loss": 4.0253,
      "step": 28890
    },
    {
      "epoch": 0.060208333333333336,
      "grad_norm": 0.9385104775428772,
      "learning_rate": 0.0002976618183436901,
      "loss": 3.9232,
      "step": 28900
    },
    {
      "epoch": 0.06022916666666667,
      "grad_norm": 0.7920111417770386,
      "learning_rate": 0.0002976600841302837,
      "loss": 3.9925,
      "step": 28910
    },
    {
      "epoch": 0.06025,
      "grad_norm": 0.791247546672821,
      "learning_rate": 0.0002976583492790443,
      "loss": 4.037,
      "step": 28920
    },
    {
      "epoch": 0.060270833333333336,
      "grad_norm": 0.7524693012237549,
      "learning_rate": 0.0002976566137899792,
      "loss": 4.0421,
      "step": 28930
    },
    {
      "epoch": 0.06029166666666667,
      "grad_norm": 0.8059237599372864,
      "learning_rate": 0.00029765487766309607,
      "loss": 4.1032,
      "step": 28940
    },
    {
      "epoch": 0.0603125,
      "grad_norm": 0.731202244758606,
      "learning_rate": 0.00029765314089840226,
      "loss": 4.2398,
      "step": 28950
    },
    {
      "epoch": 0.060333333333333336,
      "grad_norm": 0.8298438787460327,
      "learning_rate": 0.00029765140349590527,
      "loss": 4.0979,
      "step": 28960
    },
    {
      "epoch": 0.06035416666666667,
      "grad_norm": 0.8490571975708008,
      "learning_rate": 0.00029764966545561274,
      "loss": 4.0255,
      "step": 28970
    },
    {
      "epoch": 0.060375,
      "grad_norm": 0.7874022722244263,
      "learning_rate": 0.00029764792677753206,
      "loss": 4.1048,
      "step": 28980
    },
    {
      "epoch": 0.060395833333333336,
      "grad_norm": 0.7926114201545715,
      "learning_rate": 0.0002976461874616708,
      "loss": 3.9858,
      "step": 28990
    },
    {
      "epoch": 0.06041666666666667,
      "grad_norm": 0.8511772751808167,
      "learning_rate": 0.00029764444750803644,
      "loss": 3.9235,
      "step": 29000
    },
    {
      "epoch": 0.06041666666666667,
      "eval_loss": 4.322887420654297,
      "eval_runtime": 11.8134,
      "eval_samples_per_second": 0.846,
      "eval_steps_per_second": 0.254,
      "step": 29000
    },
    {
      "epoch": 0.0604375,
      "grad_norm": 0.7601058483123779,
      "learning_rate": 0.00029764270691663654,
      "loss": 4.1378,
      "step": 29010
    },
    {
      "epoch": 0.060458333333333336,
      "grad_norm": 0.8406563401222229,
      "learning_rate": 0.00029764096568747855,
      "loss": 4.1004,
      "step": 29020
    },
    {
      "epoch": 0.06047916666666667,
      "grad_norm": 0.7866235971450806,
      "learning_rate": 0.00029763922382057003,
      "loss": 3.9188,
      "step": 29030
    },
    {
      "epoch": 0.0605,
      "grad_norm": 0.7315018773078918,
      "learning_rate": 0.00029763748131591855,
      "loss": 4.1622,
      "step": 29040
    },
    {
      "epoch": 0.060520833333333336,
      "grad_norm": 0.8574497699737549,
      "learning_rate": 0.00029763573817353156,
      "loss": 3.9901,
      "step": 29050
    },
    {
      "epoch": 0.06054166666666667,
      "grad_norm": 0.7249524593353271,
      "learning_rate": 0.0002976339943934166,
      "loss": 3.8701,
      "step": 29060
    },
    {
      "epoch": 0.0605625,
      "grad_norm": 0.8211441040039062,
      "learning_rate": 0.00029763224997558124,
      "loss": 3.8699,
      "step": 29070
    },
    {
      "epoch": 0.060583333333333336,
      "grad_norm": 0.9947181344032288,
      "learning_rate": 0.00029763050492003293,
      "loss": 4.1574,
      "step": 29080
    },
    {
      "epoch": 0.06060416666666667,
      "grad_norm": 0.8259121179580688,
      "learning_rate": 0.0002976287592267794,
      "loss": 4.1622,
      "step": 29090
    },
    {
      "epoch": 0.060625,
      "grad_norm": 0.8960739970207214,
      "learning_rate": 0.000297627012895828,
      "loss": 4.2004,
      "step": 29100
    },
    {
      "epoch": 0.060645833333333336,
      "grad_norm": 0.7725949883460999,
      "learning_rate": 0.00029762526592718634,
      "loss": 4.1912,
      "step": 29110
    },
    {
      "epoch": 0.06066666666666667,
      "grad_norm": 0.8095203638076782,
      "learning_rate": 0.00029762351832086193,
      "loss": 3.8589,
      "step": 29120
    },
    {
      "epoch": 0.0606875,
      "grad_norm": 0.8058037161827087,
      "learning_rate": 0.00029762177007686244,
      "loss": 4.1732,
      "step": 29130
    },
    {
      "epoch": 0.060708333333333336,
      "grad_norm": 0.7959723472595215,
      "learning_rate": 0.00029762002119519524,
      "loss": 4.0271,
      "step": 29140
    },
    {
      "epoch": 0.06072916666666667,
      "grad_norm": 0.8201887011528015,
      "learning_rate": 0.00029761827167586804,
      "loss": 3.8185,
      "step": 29150
    },
    {
      "epoch": 0.06075,
      "grad_norm": 0.8226702213287354,
      "learning_rate": 0.00029761652151888835,
      "loss": 4.0489,
      "step": 29160
    },
    {
      "epoch": 0.060770833333333336,
      "grad_norm": 0.9228971004486084,
      "learning_rate": 0.0002976147707242637,
      "loss": 4.0783,
      "step": 29170
    },
    {
      "epoch": 0.06079166666666667,
      "grad_norm": 0.8470959663391113,
      "learning_rate": 0.00029761301929200166,
      "loss": 3.7855,
      "step": 29180
    },
    {
      "epoch": 0.0608125,
      "grad_norm": 0.892784059047699,
      "learning_rate": 0.0002976112672221098,
      "loss": 4.0425,
      "step": 29190
    },
    {
      "epoch": 0.060833333333333336,
      "grad_norm": 0.7882646322250366,
      "learning_rate": 0.0002976095145145957,
      "loss": 4.171,
      "step": 29200
    },
    {
      "epoch": 0.06085416666666667,
      "grad_norm": 0.9007334113121033,
      "learning_rate": 0.00029760776116946695,
      "loss": 4.0816,
      "step": 29210
    },
    {
      "epoch": 0.060875,
      "grad_norm": 0.7402275800704956,
      "learning_rate": 0.00029760600718673104,
      "loss": 4.1153,
      "step": 29220
    },
    {
      "epoch": 0.06089583333333334,
      "grad_norm": 0.7783899903297424,
      "learning_rate": 0.0002976042525663957,
      "loss": 3.9135,
      "step": 29230
    },
    {
      "epoch": 0.06091666666666667,
      "grad_norm": 0.7397148609161377,
      "learning_rate": 0.00029760249730846833,
      "loss": 4.1428,
      "step": 29240
    },
    {
      "epoch": 0.0609375,
      "grad_norm": 0.8965991139411926,
      "learning_rate": 0.0002976007414129566,
      "loss": 3.8902,
      "step": 29250
    },
    {
      "epoch": 0.06095833333333334,
      "grad_norm": 0.8673374056816101,
      "learning_rate": 0.00029759898487986814,
      "loss": 4.1646,
      "step": 29260
    },
    {
      "epoch": 0.06097916666666667,
      "grad_norm": 0.7434284090995789,
      "learning_rate": 0.00029759722770921046,
      "loss": 4.0116,
      "step": 29270
    },
    {
      "epoch": 0.061,
      "grad_norm": 0.7829568982124329,
      "learning_rate": 0.00029759546990099116,
      "loss": 3.921,
      "step": 29280
    },
    {
      "epoch": 0.06102083333333334,
      "grad_norm": 0.7590770721435547,
      "learning_rate": 0.0002975937114552179,
      "loss": 4.0415,
      "step": 29290
    },
    {
      "epoch": 0.06104166666666667,
      "grad_norm": 0.8968276381492615,
      "learning_rate": 0.0002975919523718982,
      "loss": 4.0704,
      "step": 29300
    },
    {
      "epoch": 0.0610625,
      "grad_norm": 0.8446416854858398,
      "learning_rate": 0.0002975901926510397,
      "loss": 3.8829,
      "step": 29310
    },
    {
      "epoch": 0.06108333333333334,
      "grad_norm": 0.9309907555580139,
      "learning_rate": 0.00029758843229264997,
      "loss": 4.2758,
      "step": 29320
    },
    {
      "epoch": 0.06110416666666667,
      "grad_norm": 1.035027265548706,
      "learning_rate": 0.00029758667129673664,
      "loss": 4.248,
      "step": 29330
    },
    {
      "epoch": 0.061125,
      "grad_norm": 0.9120420217514038,
      "learning_rate": 0.00029758490966330734,
      "loss": 3.9837,
      "step": 29340
    },
    {
      "epoch": 0.06114583333333334,
      "grad_norm": 0.7119563221931458,
      "learning_rate": 0.0002975831473923696,
      "loss": 3.9887,
      "step": 29350
    },
    {
      "epoch": 0.06116666666666667,
      "grad_norm": 0.8198143243789673,
      "learning_rate": 0.0002975813844839311,
      "loss": 4.1055,
      "step": 29360
    },
    {
      "epoch": 0.0611875,
      "grad_norm": 0.8531615734100342,
      "learning_rate": 0.00029757962093799944,
      "loss": 3.9404,
      "step": 29370
    },
    {
      "epoch": 0.06120833333333333,
      "grad_norm": 0.8927220106124878,
      "learning_rate": 0.00029757785675458225,
      "loss": 4.2244,
      "step": 29380
    },
    {
      "epoch": 0.06122916666666667,
      "grad_norm": 0.8094875812530518,
      "learning_rate": 0.0002975760919336871,
      "loss": 4.1497,
      "step": 29390
    },
    {
      "epoch": 0.06125,
      "grad_norm": 0.7430135607719421,
      "learning_rate": 0.00029757432647532165,
      "loss": 4.1052,
      "step": 29400
    },
    {
      "epoch": 0.06127083333333333,
      "grad_norm": 0.8661625981330872,
      "learning_rate": 0.00029757256037949353,
      "loss": 3.8259,
      "step": 29410
    },
    {
      "epoch": 0.06129166666666667,
      "grad_norm": 0.7521441578865051,
      "learning_rate": 0.00029757079364621037,
      "loss": 3.9456,
      "step": 29420
    },
    {
      "epoch": 0.0613125,
      "grad_norm": 0.9092415571212769,
      "learning_rate": 0.0002975690262754798,
      "loss": 4.0387,
      "step": 29430
    },
    {
      "epoch": 0.06133333333333333,
      "grad_norm": 0.7576876878738403,
      "learning_rate": 0.00029756725826730944,
      "loss": 4.0582,
      "step": 29440
    },
    {
      "epoch": 0.06135416666666667,
      "grad_norm": 0.7739952802658081,
      "learning_rate": 0.0002975654896217069,
      "loss": 4.265,
      "step": 29450
    },
    {
      "epoch": 0.061375,
      "grad_norm": 0.7803800106048584,
      "learning_rate": 0.0002975637203386799,
      "loss": 3.9619,
      "step": 29460
    },
    {
      "epoch": 0.06139583333333333,
      "grad_norm": 0.7534099221229553,
      "learning_rate": 0.00029756195041823603,
      "loss": 4.1132,
      "step": 29470
    },
    {
      "epoch": 0.06141666666666667,
      "grad_norm": 0.8216633200645447,
      "learning_rate": 0.000297560179860383,
      "loss": 4.0204,
      "step": 29480
    },
    {
      "epoch": 0.0614375,
      "grad_norm": 0.7341957688331604,
      "learning_rate": 0.0002975584086651283,
      "loss": 4.2073,
      "step": 29490
    },
    {
      "epoch": 0.06145833333333333,
      "grad_norm": 0.8970953226089478,
      "learning_rate": 0.00029755663683247974,
      "loss": 4.1837,
      "step": 29500
    },
    {
      "epoch": 0.06147916666666667,
      "grad_norm": 0.7884898781776428,
      "learning_rate": 0.0002975548643624449,
      "loss": 3.8748,
      "step": 29510
    },
    {
      "epoch": 0.0615,
      "grad_norm": 0.7638188004493713,
      "learning_rate": 0.00029755309125503146,
      "loss": 4.1444,
      "step": 29520
    },
    {
      "epoch": 0.06152083333333333,
      "grad_norm": 0.9098157286643982,
      "learning_rate": 0.00029755131751024706,
      "loss": 3.9118,
      "step": 29530
    },
    {
      "epoch": 0.06154166666666667,
      "grad_norm": 0.7245421409606934,
      "learning_rate": 0.0002975495431280994,
      "loss": 4.0327,
      "step": 29540
    },
    {
      "epoch": 0.0615625,
      "grad_norm": 0.8401640057563782,
      "learning_rate": 0.0002975477681085961,
      "loss": 4.1407,
      "step": 29550
    },
    {
      "epoch": 0.06158333333333333,
      "grad_norm": 0.7999250888824463,
      "learning_rate": 0.0002975459924517448,
      "loss": 3.8629,
      "step": 29560
    },
    {
      "epoch": 0.06160416666666667,
      "grad_norm": 0.8138478994369507,
      "learning_rate": 0.00029754421615755324,
      "loss": 4.0969,
      "step": 29570
    },
    {
      "epoch": 0.061625,
      "grad_norm": 0.8567155003547668,
      "learning_rate": 0.0002975424392260291,
      "loss": 3.9414,
      "step": 29580
    },
    {
      "epoch": 0.06164583333333333,
      "grad_norm": 0.8274092674255371,
      "learning_rate": 0.00029754066165718,
      "loss": 3.9926,
      "step": 29590
    },
    {
      "epoch": 0.06166666666666667,
      "grad_norm": 0.8721805214881897,
      "learning_rate": 0.0002975388834510137,
      "loss": 4.1218,
      "step": 29600
    },
    {
      "epoch": 0.0616875,
      "grad_norm": 0.7927626371383667,
      "learning_rate": 0.00029753710460753775,
      "loss": 4.0701,
      "step": 29610
    },
    {
      "epoch": 0.06170833333333333,
      "grad_norm": 0.8384056091308594,
      "learning_rate": 0.0002975353251267599,
      "loss": 4.0369,
      "step": 29620
    },
    {
      "epoch": 0.06172916666666667,
      "grad_norm": 0.7487731575965881,
      "learning_rate": 0.0002975335450086879,
      "loss": 3.9579,
      "step": 29630
    },
    {
      "epoch": 0.06175,
      "grad_norm": 0.7705084681510925,
      "learning_rate": 0.00029753176425332937,
      "loss": 4.0489,
      "step": 29640
    },
    {
      "epoch": 0.06177083333333333,
      "grad_norm": 0.7480839490890503,
      "learning_rate": 0.000297529982860692,
      "loss": 4.1216,
      "step": 29650
    },
    {
      "epoch": 0.06179166666666667,
      "grad_norm": 0.8982182741165161,
      "learning_rate": 0.0002975282008307835,
      "loss": 4.0328,
      "step": 29660
    },
    {
      "epoch": 0.0618125,
      "grad_norm": 0.8441203236579895,
      "learning_rate": 0.00029752641816361154,
      "loss": 4.0597,
      "step": 29670
    },
    {
      "epoch": 0.06183333333333333,
      "grad_norm": 0.7914412617683411,
      "learning_rate": 0.0002975246348591839,
      "loss": 3.9471,
      "step": 29680
    },
    {
      "epoch": 0.06185416666666667,
      "grad_norm": 0.8117268085479736,
      "learning_rate": 0.00029752285091750826,
      "loss": 4.0691,
      "step": 29690
    },
    {
      "epoch": 0.061875,
      "grad_norm": 0.8864880800247192,
      "learning_rate": 0.0002975210663385922,
      "loss": 4.0181,
      "step": 29700
    },
    {
      "epoch": 0.06189583333333333,
      "grad_norm": 0.7351661920547485,
      "learning_rate": 0.0002975192811224436,
      "loss": 4.1602,
      "step": 29710
    },
    {
      "epoch": 0.06191666666666667,
      "grad_norm": 0.8308060765266418,
      "learning_rate": 0.0002975174952690701,
      "loss": 4.0104,
      "step": 29720
    },
    {
      "epoch": 0.0619375,
      "grad_norm": 0.7503709197044373,
      "learning_rate": 0.00029751570877847936,
      "loss": 4.0182,
      "step": 29730
    },
    {
      "epoch": 0.06195833333333333,
      "grad_norm": 0.9317289590835571,
      "learning_rate": 0.0002975139216506792,
      "loss": 4.0455,
      "step": 29740
    },
    {
      "epoch": 0.06197916666666667,
      "grad_norm": 0.7762730717658997,
      "learning_rate": 0.0002975121338856773,
      "loss": 4.0948,
      "step": 29750
    },
    {
      "epoch": 0.062,
      "grad_norm": 0.8129236698150635,
      "learning_rate": 0.00029751034548348125,
      "loss": 3.9879,
      "step": 29760
    },
    {
      "epoch": 0.06202083333333333,
      "grad_norm": 0.8658553957939148,
      "learning_rate": 0.000297508556444099,
      "loss": 4.1238,
      "step": 29770
    },
    {
      "epoch": 0.06204166666666667,
      "grad_norm": 0.8257842659950256,
      "learning_rate": 0.00029750676676753814,
      "loss": 4.1069,
      "step": 29780
    },
    {
      "epoch": 0.0620625,
      "grad_norm": 0.7369842529296875,
      "learning_rate": 0.0002975049764538065,
      "loss": 3.9901,
      "step": 29790
    },
    {
      "epoch": 0.06208333333333333,
      "grad_norm": 0.7898491621017456,
      "learning_rate": 0.0002975031855029117,
      "loss": 4.22,
      "step": 29800
    },
    {
      "epoch": 0.06210416666666667,
      "grad_norm": 0.8031477928161621,
      "learning_rate": 0.00029750139391486154,
      "loss": 4.1133,
      "step": 29810
    },
    {
      "epoch": 0.062125,
      "grad_norm": 0.8880355954170227,
      "learning_rate": 0.00029749960168966365,
      "loss": 3.9919,
      "step": 29820
    },
    {
      "epoch": 0.06214583333333333,
      "grad_norm": 0.8185032606124878,
      "learning_rate": 0.000297497808827326,
      "loss": 4.1218,
      "step": 29830
    },
    {
      "epoch": 0.06216666666666667,
      "grad_norm": 0.7776533961296082,
      "learning_rate": 0.00029749601532785613,
      "loss": 4.1606,
      "step": 29840
    },
    {
      "epoch": 0.0621875,
      "grad_norm": 0.9000627994537354,
      "learning_rate": 0.00029749422119126185,
      "loss": 4.2967,
      "step": 29850
    },
    {
      "epoch": 0.06220833333333333,
      "grad_norm": 0.8902272582054138,
      "learning_rate": 0.00029749242641755096,
      "loss": 4.2825,
      "step": 29860
    },
    {
      "epoch": 0.06222916666666667,
      "grad_norm": 0.7393922209739685,
      "learning_rate": 0.0002974906310067311,
      "loss": 3.9437,
      "step": 29870
    },
    {
      "epoch": 0.06225,
      "grad_norm": 0.7200772762298584,
      "learning_rate": 0.0002974888349588102,
      "loss": 3.8702,
      "step": 29880
    },
    {
      "epoch": 0.06227083333333333,
      "grad_norm": 0.7521827816963196,
      "learning_rate": 0.00029748703827379584,
      "loss": 4.1196,
      "step": 29890
    },
    {
      "epoch": 0.06229166666666667,
      "grad_norm": 0.8694015741348267,
      "learning_rate": 0.0002974852409516958,
      "loss": 4.0499,
      "step": 29900
    },
    {
      "epoch": 0.0623125,
      "grad_norm": 0.9441766738891602,
      "learning_rate": 0.000297483442992518,
      "loss": 4.0785,
      "step": 29910
    },
    {
      "epoch": 0.06233333333333333,
      "grad_norm": 0.7816182374954224,
      "learning_rate": 0.00029748164439627006,
      "loss": 4.078,
      "step": 29920
    },
    {
      "epoch": 0.06235416666666667,
      "grad_norm": 0.9444436430931091,
      "learning_rate": 0.0002974798451629598,
      "loss": 4.0156,
      "step": 29930
    },
    {
      "epoch": 0.062375,
      "grad_norm": 0.9038636684417725,
      "learning_rate": 0.00029747804529259503,
      "loss": 4.0655,
      "step": 29940
    },
    {
      "epoch": 0.06239583333333333,
      "grad_norm": 0.7659188508987427,
      "learning_rate": 0.0002974762447851834,
      "loss": 4.0383,
      "step": 29950
    },
    {
      "epoch": 0.06241666666666667,
      "grad_norm": 0.8716976642608643,
      "learning_rate": 0.0002974744436407328,
      "loss": 4.0691,
      "step": 29960
    },
    {
      "epoch": 0.0624375,
      "grad_norm": 0.7936158776283264,
      "learning_rate": 0.00029747264185925104,
      "loss": 4.0111,
      "step": 29970
    },
    {
      "epoch": 0.06245833333333333,
      "grad_norm": 0.7584034204483032,
      "learning_rate": 0.0002974708394407458,
      "loss": 3.8973,
      "step": 29980
    },
    {
      "epoch": 0.06247916666666667,
      "grad_norm": 0.8849518895149231,
      "learning_rate": 0.0002974690363852248,
      "loss": 4.1221,
      "step": 29990
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.8789483308792114,
      "learning_rate": 0.0002974672326926961,
      "loss": 4.0542,
      "step": 30000
    },
    {
      "epoch": 0.0625,
      "eval_loss": 4.3088226318359375,
      "eval_runtime": 10.3979,
      "eval_samples_per_second": 0.962,
      "eval_steps_per_second": 0.289,
      "step": 30000
    },
    {
      "epoch": 0.06252083333333333,
      "grad_norm": 0.7615856528282166,
      "learning_rate": 0.0002974654283631672,
      "loss": 4.0688,
      "step": 30010
    },
    {
      "epoch": 0.06254166666666666,
      "grad_norm": 0.8719075322151184,
      "learning_rate": 0.00029746362339664613,
      "loss": 3.9027,
      "step": 30020
    },
    {
      "epoch": 0.0625625,
      "grad_norm": 0.7590094208717346,
      "learning_rate": 0.00029746181779314045,
      "loss": 4.1192,
      "step": 30030
    },
    {
      "epoch": 0.06258333333333334,
      "grad_norm": 0.8476407527923584,
      "learning_rate": 0.00029746001155265823,
      "loss": 4.2799,
      "step": 30040
    },
    {
      "epoch": 0.06260416666666667,
      "grad_norm": 0.7637699246406555,
      "learning_rate": 0.000297458204675207,
      "loss": 3.8025,
      "step": 30050
    },
    {
      "epoch": 0.062625,
      "grad_norm": 0.8245696425437927,
      "learning_rate": 0.00029745639716079474,
      "loss": 4.0993,
      "step": 30060
    },
    {
      "epoch": 0.06264583333333333,
      "grad_norm": 0.7953047752380371,
      "learning_rate": 0.00029745458900942923,
      "loss": 3.9929,
      "step": 30070
    },
    {
      "epoch": 0.06266666666666666,
      "grad_norm": 0.854537844657898,
      "learning_rate": 0.00029745278022111826,
      "loss": 4.0205,
      "step": 30080
    },
    {
      "epoch": 0.0626875,
      "grad_norm": 0.7934266924858093,
      "learning_rate": 0.00029745097079586963,
      "loss": 4.0638,
      "step": 30090
    },
    {
      "epoch": 0.06270833333333334,
      "grad_norm": 0.9018909335136414,
      "learning_rate": 0.0002974491607336912,
      "loss": 3.8446,
      "step": 30100
    },
    {
      "epoch": 0.06272916666666667,
      "grad_norm": 0.7847442030906677,
      "learning_rate": 0.0002974473500345907,
      "loss": 4.1644,
      "step": 30110
    },
    {
      "epoch": 0.06275,
      "grad_norm": 0.9136395454406738,
      "learning_rate": 0.0002974455386985761,
      "loss": 4.0613,
      "step": 30120
    },
    {
      "epoch": 0.06277083333333333,
      "grad_norm": 0.8492864370346069,
      "learning_rate": 0.00029744372672565507,
      "loss": 4.0666,
      "step": 30130
    },
    {
      "epoch": 0.06279166666666666,
      "grad_norm": 0.7803292274475098,
      "learning_rate": 0.0002974419141158355,
      "loss": 4.1496,
      "step": 30140
    },
    {
      "epoch": 0.0628125,
      "grad_norm": 0.957654595375061,
      "learning_rate": 0.0002974401008691252,
      "loss": 4.0739,
      "step": 30150
    },
    {
      "epoch": 0.06283333333333334,
      "grad_norm": 0.813822865486145,
      "learning_rate": 0.0002974382869855321,
      "loss": 4.1172,
      "step": 30160
    },
    {
      "epoch": 0.06285416666666667,
      "grad_norm": 0.775952935218811,
      "learning_rate": 0.00029743647246506397,
      "loss": 4.0997,
      "step": 30170
    },
    {
      "epoch": 0.062875,
      "grad_norm": 0.9162753224372864,
      "learning_rate": 0.0002974346573077286,
      "loss": 4.1247,
      "step": 30180
    },
    {
      "epoch": 0.06289583333333333,
      "grad_norm": 0.8309741616249084,
      "learning_rate": 0.00029743284151353386,
      "loss": 4.0527,
      "step": 30190
    },
    {
      "epoch": 0.06291666666666666,
      "grad_norm": 0.7462338805198669,
      "learning_rate": 0.0002974310250824876,
      "loss": 4.0192,
      "step": 30200
    },
    {
      "epoch": 0.0629375,
      "grad_norm": 0.7510952353477478,
      "learning_rate": 0.00029742920801459767,
      "loss": 4.0718,
      "step": 30210
    },
    {
      "epoch": 0.06295833333333334,
      "grad_norm": 0.8406834602355957,
      "learning_rate": 0.00029742739030987194,
      "loss": 4.0744,
      "step": 30220
    },
    {
      "epoch": 0.06297916666666667,
      "grad_norm": 1.1555323600769043,
      "learning_rate": 0.0002974255719683182,
      "loss": 4.0551,
      "step": 30230
    },
    {
      "epoch": 0.063,
      "grad_norm": 0.9106763601303101,
      "learning_rate": 0.0002974237529899444,
      "loss": 4.184,
      "step": 30240
    },
    {
      "epoch": 0.06302083333333333,
      "grad_norm": 0.8510547280311584,
      "learning_rate": 0.00029742193337475826,
      "loss": 3.942,
      "step": 30250
    },
    {
      "epoch": 0.06304166666666666,
      "grad_norm": 0.8301993608474731,
      "learning_rate": 0.00029742011312276783,
      "loss": 4.0557,
      "step": 30260
    },
    {
      "epoch": 0.0630625,
      "grad_norm": 1.0253045558929443,
      "learning_rate": 0.0002974182922339808,
      "loss": 3.9317,
      "step": 30270
    },
    {
      "epoch": 0.06308333333333334,
      "grad_norm": 0.9290629625320435,
      "learning_rate": 0.0002974164707084051,
      "loss": 3.9818,
      "step": 30280
    },
    {
      "epoch": 0.06310416666666667,
      "grad_norm": 0.839447021484375,
      "learning_rate": 0.0002974146485460486,
      "loss": 4.1364,
      "step": 30290
    },
    {
      "epoch": 0.063125,
      "grad_norm": 0.9093735814094543,
      "learning_rate": 0.0002974128257469192,
      "loss": 4.0505,
      "step": 30300
    },
    {
      "epoch": 0.06314583333333333,
      "grad_norm": 0.8682764172554016,
      "learning_rate": 0.00029741100231102467,
      "loss": 4.196,
      "step": 30310
    },
    {
      "epoch": 0.06316666666666666,
      "grad_norm": 1.0093507766723633,
      "learning_rate": 0.000297409178238373,
      "loss": 4.0192,
      "step": 30320
    },
    {
      "epoch": 0.0631875,
      "grad_norm": 0.758405864238739,
      "learning_rate": 0.000297407353528972,
      "loss": 4.1125,
      "step": 30330
    },
    {
      "epoch": 0.06320833333333334,
      "grad_norm": 0.7153067588806152,
      "learning_rate": 0.00029740552818282966,
      "loss": 3.9845,
      "step": 30340
    },
    {
      "epoch": 0.06322916666666667,
      "grad_norm": 1.0695821046829224,
      "learning_rate": 0.00029740370219995374,
      "loss": 4.0491,
      "step": 30350
    },
    {
      "epoch": 0.06325,
      "grad_norm": 0.8226625323295593,
      "learning_rate": 0.0002974018755803522,
      "loss": 4.2443,
      "step": 30360
    },
    {
      "epoch": 0.06327083333333333,
      "grad_norm": 0.7931281328201294,
      "learning_rate": 0.00029740004832403284,
      "loss": 4.0016,
      "step": 30370
    },
    {
      "epoch": 0.06329166666666666,
      "grad_norm": 0.7048029899597168,
      "learning_rate": 0.0002973982204310036,
      "loss": 3.9643,
      "step": 30380
    },
    {
      "epoch": 0.0633125,
      "grad_norm": 0.9208285212516785,
      "learning_rate": 0.0002973963919012725,
      "loss": 4.0966,
      "step": 30390
    },
    {
      "epoch": 0.06333333333333334,
      "grad_norm": 0.8361964821815491,
      "learning_rate": 0.00029739456273484725,
      "loss": 4.143,
      "step": 30400
    },
    {
      "epoch": 0.06335416666666667,
      "grad_norm": 0.9277132749557495,
      "learning_rate": 0.00029739273293173587,
      "loss": 4.0723,
      "step": 30410
    },
    {
      "epoch": 0.063375,
      "grad_norm": 0.8738767504692078,
      "learning_rate": 0.0002973909024919462,
      "loss": 4.1602,
      "step": 30420
    },
    {
      "epoch": 0.06339583333333333,
      "grad_norm": 0.8876873850822449,
      "learning_rate": 0.00029738907141548616,
      "loss": 4.3174,
      "step": 30430
    },
    {
      "epoch": 0.06341666666666666,
      "grad_norm": 0.8104599714279175,
      "learning_rate": 0.00029738723970236373,
      "loss": 4.1129,
      "step": 30440
    },
    {
      "epoch": 0.0634375,
      "grad_norm": 0.827494740486145,
      "learning_rate": 0.0002973854073525868,
      "loss": 3.9899,
      "step": 30450
    },
    {
      "epoch": 0.06345833333333334,
      "grad_norm": 0.7558072209358215,
      "learning_rate": 0.0002973835743661631,
      "loss": 4.0355,
      "step": 30460
    },
    {
      "epoch": 0.06347916666666667,
      "grad_norm": 0.9447765350341797,
      "learning_rate": 0.0002973817407431008,
      "loss": 4.0774,
      "step": 30470
    },
    {
      "epoch": 0.0635,
      "grad_norm": 0.8737657070159912,
      "learning_rate": 0.0002973799064834077,
      "loss": 3.794,
      "step": 30480
    },
    {
      "epoch": 0.06352083333333333,
      "grad_norm": 0.8352288007736206,
      "learning_rate": 0.0002973780715870917,
      "loss": 4.1867,
      "step": 30490
    },
    {
      "epoch": 0.06354166666666666,
      "grad_norm": 0.7322183847427368,
      "learning_rate": 0.00029737623605416083,
      "loss": 4.0311,
      "step": 30500
    },
    {
      "epoch": 0.0635625,
      "grad_norm": 0.7374336123466492,
      "learning_rate": 0.0002973743998846229,
      "loss": 4.1752,
      "step": 30510
    },
    {
      "epoch": 0.06358333333333334,
      "grad_norm": 0.9266337752342224,
      "learning_rate": 0.0002973725630784859,
      "loss": 4.0956,
      "step": 30520
    },
    {
      "epoch": 0.06360416666666667,
      "grad_norm": 0.9650958180427551,
      "learning_rate": 0.00029737072563575784,
      "loss": 4.1907,
      "step": 30530
    },
    {
      "epoch": 0.063625,
      "grad_norm": 0.8382750749588013,
      "learning_rate": 0.0002973688875564465,
      "loss": 4.143,
      "step": 30540
    },
    {
      "epoch": 0.06364583333333333,
      "grad_norm": 0.8110083341598511,
      "learning_rate": 0.00029736704884055995,
      "loss": 4.1531,
      "step": 30550
    },
    {
      "epoch": 0.06366666666666666,
      "grad_norm": 0.8101698756217957,
      "learning_rate": 0.00029736520948810607,
      "loss": 3.9661,
      "step": 30560
    },
    {
      "epoch": 0.0636875,
      "grad_norm": 0.7475102543830872,
      "learning_rate": 0.0002973633694990928,
      "loss": 4.068,
      "step": 30570
    },
    {
      "epoch": 0.06370833333333334,
      "grad_norm": 0.8122192025184631,
      "learning_rate": 0.0002973615288735281,
      "loss": 4.1541,
      "step": 30580
    },
    {
      "epoch": 0.06372916666666667,
      "grad_norm": 0.7345097064971924,
      "learning_rate": 0.0002973596876114199,
      "loss": 4.0125,
      "step": 30590
    },
    {
      "epoch": 0.06375,
      "grad_norm": 0.8869519233703613,
      "learning_rate": 0.0002973578457127763,
      "loss": 4.1472,
      "step": 30600
    },
    {
      "epoch": 0.06377083333333333,
      "grad_norm": 0.8308647274971008,
      "learning_rate": 0.00029735600317760497,
      "loss": 3.9293,
      "step": 30610
    },
    {
      "epoch": 0.06379166666666666,
      "grad_norm": 0.7990361452102661,
      "learning_rate": 0.00029735416000591417,
      "loss": 4.003,
      "step": 30620
    },
    {
      "epoch": 0.0638125,
      "grad_norm": 0.9568301439285278,
      "learning_rate": 0.00029735231619771164,
      "loss": 4.0668,
      "step": 30630
    },
    {
      "epoch": 0.06383333333333334,
      "grad_norm": 0.9603811502456665,
      "learning_rate": 0.0002973504717530054,
      "loss": 4.0397,
      "step": 30640
    },
    {
      "epoch": 0.06385416666666667,
      "grad_norm": 0.8037965297698975,
      "learning_rate": 0.00029734862667180355,
      "loss": 3.96,
      "step": 30650
    },
    {
      "epoch": 0.063875,
      "grad_norm": 0.8071364164352417,
      "learning_rate": 0.00029734678095411386,
      "loss": 4.1265,
      "step": 30660
    },
    {
      "epoch": 0.06389583333333333,
      "grad_norm": 0.9483314156532288,
      "learning_rate": 0.0002973449345999445,
      "loss": 4.0536,
      "step": 30670
    },
    {
      "epoch": 0.06391666666666666,
      "grad_norm": 0.7776271104812622,
      "learning_rate": 0.0002973430876093033,
      "loss": 4.0215,
      "step": 30680
    },
    {
      "epoch": 0.0639375,
      "grad_norm": 0.955297589302063,
      "learning_rate": 0.00029734123998219824,
      "loss": 3.9222,
      "step": 30690
    },
    {
      "epoch": 0.06395833333333334,
      "grad_norm": 0.757895290851593,
      "learning_rate": 0.0002973393917186374,
      "loss": 4.0686,
      "step": 30700
    },
    {
      "epoch": 0.06397916666666667,
      "grad_norm": 1.2091442346572876,
      "learning_rate": 0.0002973375428186287,
      "loss": 4.1071,
      "step": 30710
    },
    {
      "epoch": 0.064,
      "grad_norm": 1.0378495454788208,
      "learning_rate": 0.0002973356932821801,
      "loss": 4.2626,
      "step": 30720
    },
    {
      "epoch": 0.06402083333333333,
      "grad_norm": 0.7644453048706055,
      "learning_rate": 0.00029733384310929965,
      "loss": 3.9924,
      "step": 30730
    },
    {
      "epoch": 0.06404166666666666,
      "grad_norm": 0.8094509840011597,
      "learning_rate": 0.00029733199229999534,
      "loss": 3.9202,
      "step": 30740
    },
    {
      "epoch": 0.0640625,
      "grad_norm": 0.7730520963668823,
      "learning_rate": 0.00029733014085427513,
      "loss": 4.2904,
      "step": 30750
    },
    {
      "epoch": 0.06408333333333334,
      "grad_norm": 0.765953004360199,
      "learning_rate": 0.000297328288772147,
      "loss": 4.0511,
      "step": 30760
    },
    {
      "epoch": 0.06410416666666667,
      "grad_norm": 0.8394192457199097,
      "learning_rate": 0.000297326436053619,
      "loss": 4.2438,
      "step": 30770
    },
    {
      "epoch": 0.064125,
      "grad_norm": 0.7873914241790771,
      "learning_rate": 0.0002973245826986991,
      "loss": 4.1383,
      "step": 30780
    },
    {
      "epoch": 0.06414583333333333,
      "grad_norm": 0.8852495551109314,
      "learning_rate": 0.00029732272870739535,
      "loss": 4.251,
      "step": 30790
    },
    {
      "epoch": 0.06416666666666666,
      "grad_norm": 0.763525128364563,
      "learning_rate": 0.00029732087407971573,
      "loss": 4.0772,
      "step": 30800
    },
    {
      "epoch": 0.0641875,
      "grad_norm": 0.8675146102905273,
      "learning_rate": 0.0002973190188156682,
      "loss": 3.9152,
      "step": 30810
    },
    {
      "epoch": 0.06420833333333334,
      "grad_norm": 0.7569173574447632,
      "learning_rate": 0.00029731716291526083,
      "loss": 3.9699,
      "step": 30820
    },
    {
      "epoch": 0.06422916666666667,
      "grad_norm": 0.8899872303009033,
      "learning_rate": 0.00029731530637850165,
      "loss": 3.9029,
      "step": 30830
    },
    {
      "epoch": 0.06425,
      "grad_norm": 0.8663697242736816,
      "learning_rate": 0.00029731344920539863,
      "loss": 4.0137,
      "step": 30840
    },
    {
      "epoch": 0.06427083333333333,
      "grad_norm": 0.7411839365959167,
      "learning_rate": 0.0002973115913959599,
      "loss": 4.2699,
      "step": 30850
    },
    {
      "epoch": 0.06429166666666666,
      "grad_norm": 0.974566638469696,
      "learning_rate": 0.0002973097329501933,
      "loss": 3.9777,
      "step": 30860
    },
    {
      "epoch": 0.0643125,
      "grad_norm": 0.814213216304779,
      "learning_rate": 0.000297307873868107,
      "loss": 4.0143,
      "step": 30870
    },
    {
      "epoch": 0.06433333333333334,
      "grad_norm": 0.8665851950645447,
      "learning_rate": 0.000297306014149709,
      "loss": 3.9548,
      "step": 30880
    },
    {
      "epoch": 0.06435416666666667,
      "grad_norm": 1.047326683998108,
      "learning_rate": 0.00029730415379500735,
      "loss": 4.0394,
      "step": 30890
    },
    {
      "epoch": 0.064375,
      "grad_norm": 0.7123035788536072,
      "learning_rate": 0.00029730229280401004,
      "loss": 4.1292,
      "step": 30900
    },
    {
      "epoch": 0.06439583333333333,
      "grad_norm": 0.8742004632949829,
      "learning_rate": 0.00029730043117672515,
      "loss": 4.1564,
      "step": 30910
    },
    {
      "epoch": 0.06441666666666666,
      "grad_norm": 0.8704647421836853,
      "learning_rate": 0.00029729856891316065,
      "loss": 4.0216,
      "step": 30920
    },
    {
      "epoch": 0.0644375,
      "grad_norm": 0.8091585636138916,
      "learning_rate": 0.0002972967060133247,
      "loss": 4.0617,
      "step": 30930
    },
    {
      "epoch": 0.06445833333333334,
      "grad_norm": 0.7084479331970215,
      "learning_rate": 0.0002972948424772253,
      "loss": 3.9508,
      "step": 30940
    },
    {
      "epoch": 0.06447916666666667,
      "grad_norm": 0.7011492848396301,
      "learning_rate": 0.0002972929783048704,
      "loss": 4.0573,
      "step": 30950
    },
    {
      "epoch": 0.0645,
      "grad_norm": 0.756658136844635,
      "learning_rate": 0.00029729111349626814,
      "loss": 4.164,
      "step": 30960
    },
    {
      "epoch": 0.06452083333333333,
      "grad_norm": 1.0252101421356201,
      "learning_rate": 0.00029728924805142663,
      "loss": 4.0559,
      "step": 30970
    },
    {
      "epoch": 0.06454166666666666,
      "grad_norm": 0.7813262343406677,
      "learning_rate": 0.00029728738197035387,
      "loss": 3.888,
      "step": 30980
    },
    {
      "epoch": 0.0645625,
      "grad_norm": 0.7838340401649475,
      "learning_rate": 0.0002972855152530579,
      "loss": 4.0857,
      "step": 30990
    },
    {
      "epoch": 0.06458333333333334,
      "grad_norm": 0.8517456650733948,
      "learning_rate": 0.00029728364789954675,
      "loss": 3.995,
      "step": 31000
    },
    {
      "epoch": 0.06458333333333334,
      "eval_loss": 4.327376365661621,
      "eval_runtime": 11.2178,
      "eval_samples_per_second": 0.891,
      "eval_steps_per_second": 0.267,
      "step": 31000
    },
    {
      "epoch": 0.06460416666666667,
      "grad_norm": 0.7699393630027771,
      "learning_rate": 0.0002972817799098286,
      "loss": 3.9777,
      "step": 31010
    },
    {
      "epoch": 0.064625,
      "grad_norm": 0.7769227027893066,
      "learning_rate": 0.00029727991128391146,
      "loss": 4.0379,
      "step": 31020
    },
    {
      "epoch": 0.06464583333333333,
      "grad_norm": 0.7739619612693787,
      "learning_rate": 0.0002972780420218034,
      "loss": 4.1631,
      "step": 31030
    },
    {
      "epoch": 0.06466666666666666,
      "grad_norm": 0.7439864277839661,
      "learning_rate": 0.0002972761721235125,
      "loss": 3.9989,
      "step": 31040
    },
    {
      "epoch": 0.0646875,
      "grad_norm": 0.7921522259712219,
      "learning_rate": 0.0002972743015890468,
      "loss": 3.9507,
      "step": 31050
    },
    {
      "epoch": 0.06470833333333334,
      "grad_norm": 0.8532997965812683,
      "learning_rate": 0.0002972724304184144,
      "loss": 4.215,
      "step": 31060
    },
    {
      "epoch": 0.06472916666666667,
      "grad_norm": 0.7538086175918579,
      "learning_rate": 0.00029727055861162346,
      "loss": 3.9818,
      "step": 31070
    },
    {
      "epoch": 0.06475,
      "grad_norm": 0.8587008118629456,
      "learning_rate": 0.000297268686168682,
      "loss": 3.9471,
      "step": 31080
    },
    {
      "epoch": 0.06477083333333333,
      "grad_norm": 1.573502540588379,
      "learning_rate": 0.000297266813089598,
      "loss": 3.9741,
      "step": 31090
    },
    {
      "epoch": 0.06479166666666666,
      "grad_norm": 0.8328423500061035,
      "learning_rate": 0.00029726493937437976,
      "loss": 3.9454,
      "step": 31100
    },
    {
      "epoch": 0.0648125,
      "grad_norm": 0.8369524478912354,
      "learning_rate": 0.00029726306502303527,
      "loss": 3.9664,
      "step": 31110
    },
    {
      "epoch": 0.06483333333333334,
      "grad_norm": 0.805446207523346,
      "learning_rate": 0.0002972611900355726,
      "loss": 3.9284,
      "step": 31120
    },
    {
      "epoch": 0.06485416666666667,
      "grad_norm": 0.8027258515357971,
      "learning_rate": 0.00029725931441199993,
      "loss": 4.0722,
      "step": 31130
    },
    {
      "epoch": 0.064875,
      "grad_norm": 0.8427593111991882,
      "learning_rate": 0.00029725743815232523,
      "loss": 3.9705,
      "step": 31140
    },
    {
      "epoch": 0.06489583333333333,
      "grad_norm": 0.8590787053108215,
      "learning_rate": 0.00029725556125655676,
      "loss": 4.0192,
      "step": 31150
    },
    {
      "epoch": 0.06491666666666666,
      "grad_norm": 0.7328251004219055,
      "learning_rate": 0.0002972536837247025,
      "loss": 4.0692,
      "step": 31160
    },
    {
      "epoch": 0.0649375,
      "grad_norm": 0.8321552276611328,
      "learning_rate": 0.00029725180555677065,
      "loss": 3.8933,
      "step": 31170
    },
    {
      "epoch": 0.06495833333333334,
      "grad_norm": 0.8210546374320984,
      "learning_rate": 0.0002972499267527692,
      "loss": 3.8613,
      "step": 31180
    },
    {
      "epoch": 0.06497916666666667,
      "grad_norm": 0.7840132117271423,
      "learning_rate": 0.00029724804731270644,
      "loss": 4.1586,
      "step": 31190
    },
    {
      "epoch": 0.065,
      "grad_norm": 0.7932566404342651,
      "learning_rate": 0.0002972461672365904,
      "loss": 3.8534,
      "step": 31200
    },
    {
      "epoch": 0.06502083333333333,
      "grad_norm": 0.8288613557815552,
      "learning_rate": 0.00029724428652442913,
      "loss": 4.308,
      "step": 31210
    },
    {
      "epoch": 0.06504166666666666,
      "grad_norm": 0.749365508556366,
      "learning_rate": 0.0002972424051762309,
      "loss": 4.0178,
      "step": 31220
    },
    {
      "epoch": 0.0650625,
      "grad_norm": 0.6931217908859253,
      "learning_rate": 0.00029724052319200377,
      "loss": 4.23,
      "step": 31230
    },
    {
      "epoch": 0.06508333333333334,
      "grad_norm": 0.8485331535339355,
      "learning_rate": 0.0002972386405717558,
      "loss": 3.8514,
      "step": 31240
    },
    {
      "epoch": 0.06510416666666667,
      "grad_norm": 0.8824385404586792,
      "learning_rate": 0.00029723675731549524,
      "loss": 4.0208,
      "step": 31250
    },
    {
      "epoch": 0.065125,
      "grad_norm": 0.7513061761856079,
      "learning_rate": 0.0002972348734232301,
      "loss": 4.0345,
      "step": 31260
    },
    {
      "epoch": 0.06514583333333333,
      "grad_norm": 0.8242037892341614,
      "learning_rate": 0.00029723298889496865,
      "loss": 4.0345,
      "step": 31270
    },
    {
      "epoch": 0.06516666666666666,
      "grad_norm": 0.8075969815254211,
      "learning_rate": 0.00029723110373071896,
      "loss": 3.943,
      "step": 31280
    },
    {
      "epoch": 0.0651875,
      "grad_norm": 0.8235570192337036,
      "learning_rate": 0.0002972292179304892,
      "loss": 4.1328,
      "step": 31290
    },
    {
      "epoch": 0.06520833333333333,
      "grad_norm": 0.8061322569847107,
      "learning_rate": 0.00029722733149428743,
      "loss": 4.0461,
      "step": 31300
    },
    {
      "epoch": 0.06522916666666667,
      "grad_norm": 0.7223886847496033,
      "learning_rate": 0.0002972254444221219,
      "loss": 4.0573,
      "step": 31310
    },
    {
      "epoch": 0.06525,
      "grad_norm": 0.836357593536377,
      "learning_rate": 0.00029722355671400074,
      "loss": 4.0626,
      "step": 31320
    },
    {
      "epoch": 0.06527083333333333,
      "grad_norm": 0.8263186812400818,
      "learning_rate": 0.00029722166836993206,
      "loss": 4.1345,
      "step": 31330
    },
    {
      "epoch": 0.06529166666666666,
      "grad_norm": 0.7752527594566345,
      "learning_rate": 0.00029721977938992406,
      "loss": 4.0337,
      "step": 31340
    },
    {
      "epoch": 0.0653125,
      "grad_norm": 0.7923381328582764,
      "learning_rate": 0.00029721788977398486,
      "loss": 4.2156,
      "step": 31350
    },
    {
      "epoch": 0.06533333333333333,
      "grad_norm": 0.8020000457763672,
      "learning_rate": 0.0002972159995221227,
      "loss": 4.1175,
      "step": 31360
    },
    {
      "epoch": 0.06535416666666667,
      "grad_norm": 0.7421557903289795,
      "learning_rate": 0.0002972141086343457,
      "loss": 4.0763,
      "step": 31370
    },
    {
      "epoch": 0.065375,
      "grad_norm": 0.8899211883544922,
      "learning_rate": 0.00029721221711066195,
      "loss": 4.1089,
      "step": 31380
    },
    {
      "epoch": 0.06539583333333333,
      "grad_norm": 1.061769962310791,
      "learning_rate": 0.0002972103249510797,
      "loss": 4.0919,
      "step": 31390
    },
    {
      "epoch": 0.06541666666666666,
      "grad_norm": 0.803652286529541,
      "learning_rate": 0.0002972084321556072,
      "loss": 4.0907,
      "step": 31400
    },
    {
      "epoch": 0.0654375,
      "grad_norm": 0.9599441885948181,
      "learning_rate": 0.0002972065387242525,
      "loss": 4.0686,
      "step": 31410
    },
    {
      "epoch": 0.06545833333333333,
      "grad_norm": 1.2810839414596558,
      "learning_rate": 0.0002972046446570238,
      "loss": 4.1072,
      "step": 31420
    },
    {
      "epoch": 0.06547916666666667,
      "grad_norm": 0.772625207901001,
      "learning_rate": 0.0002972027499539293,
      "loss": 4.0324,
      "step": 31430
    },
    {
      "epoch": 0.0655,
      "grad_norm": 0.7917378544807434,
      "learning_rate": 0.0002972008546149772,
      "loss": 3.9718,
      "step": 31440
    },
    {
      "epoch": 0.06552083333333333,
      "grad_norm": 0.7269752025604248,
      "learning_rate": 0.0002971989586401757,
      "loss": 4.0404,
      "step": 31450
    },
    {
      "epoch": 0.06554166666666666,
      "grad_norm": 0.8392676711082458,
      "learning_rate": 0.00029719706202953295,
      "loss": 4.0295,
      "step": 31460
    },
    {
      "epoch": 0.0655625,
      "grad_norm": 0.858913779258728,
      "learning_rate": 0.00029719516478305714,
      "loss": 4.1028,
      "step": 31470
    },
    {
      "epoch": 0.06558333333333333,
      "grad_norm": 0.8909509778022766,
      "learning_rate": 0.0002971932669007565,
      "loss": 4.0115,
      "step": 31480
    },
    {
      "epoch": 0.06560416666666667,
      "grad_norm": 0.7191335558891296,
      "learning_rate": 0.0002971913683826392,
      "loss": 4.1224,
      "step": 31490
    },
    {
      "epoch": 0.065625,
      "grad_norm": 0.8361225128173828,
      "learning_rate": 0.00029718946922871345,
      "loss": 4.0749,
      "step": 31500
    },
    {
      "epoch": 0.06564583333333333,
      "grad_norm": 0.8083269000053406,
      "learning_rate": 0.00029718756943898747,
      "loss": 4.001,
      "step": 31510
    },
    {
      "epoch": 0.06566666666666666,
      "grad_norm": 0.784357488155365,
      "learning_rate": 0.0002971856690134694,
      "loss": 4.1027,
      "step": 31520
    },
    {
      "epoch": 0.0656875,
      "grad_norm": 0.8807656764984131,
      "learning_rate": 0.0002971837679521676,
      "loss": 3.935,
      "step": 31530
    },
    {
      "epoch": 0.06570833333333333,
      "grad_norm": 0.8418789505958557,
      "learning_rate": 0.0002971818662550901,
      "loss": 3.88,
      "step": 31540
    },
    {
      "epoch": 0.06572916666666667,
      "grad_norm": 0.8894891142845154,
      "learning_rate": 0.0002971799639222452,
      "loss": 3.9813,
      "step": 31550
    },
    {
      "epoch": 0.06575,
      "grad_norm": 0.8310811519622803,
      "learning_rate": 0.00029717806095364116,
      "loss": 4.0596,
      "step": 31560
    },
    {
      "epoch": 0.06577083333333333,
      "grad_norm": 0.8758858442306519,
      "learning_rate": 0.00029717615734928607,
      "loss": 3.886,
      "step": 31570
    },
    {
      "epoch": 0.06579166666666666,
      "grad_norm": 1.004859209060669,
      "learning_rate": 0.0002971742531091883,
      "loss": 4.2089,
      "step": 31580
    },
    {
      "epoch": 0.0658125,
      "grad_norm": 0.983969509601593,
      "learning_rate": 0.000297172348233356,
      "loss": 4.005,
      "step": 31590
    },
    {
      "epoch": 0.06583333333333333,
      "grad_norm": 0.7759684324264526,
      "learning_rate": 0.00029717044272179746,
      "loss": 4.0044,
      "step": 31600
    },
    {
      "epoch": 0.06585416666666667,
      "grad_norm": 0.7237251400947571,
      "learning_rate": 0.00029716853657452076,
      "loss": 4.1092,
      "step": 31610
    },
    {
      "epoch": 0.065875,
      "grad_norm": 0.7398350238800049,
      "learning_rate": 0.0002971666297915343,
      "loss": 4.0639,
      "step": 31620
    },
    {
      "epoch": 0.06589583333333333,
      "grad_norm": 0.9780521392822266,
      "learning_rate": 0.00029716472237284626,
      "loss": 4.0527,
      "step": 31630
    },
    {
      "epoch": 0.06591666666666667,
      "grad_norm": 0.8306523561477661,
      "learning_rate": 0.00029716281431846483,
      "loss": 4.0306,
      "step": 31640
    },
    {
      "epoch": 0.0659375,
      "grad_norm": 0.7594656348228455,
      "learning_rate": 0.00029716090562839837,
      "loss": 4.0069,
      "step": 31650
    },
    {
      "epoch": 0.06595833333333333,
      "grad_norm": 0.825843334197998,
      "learning_rate": 0.00029715899630265496,
      "loss": 4.0511,
      "step": 31660
    },
    {
      "epoch": 0.06597916666666667,
      "grad_norm": 0.8742634654045105,
      "learning_rate": 0.00029715708634124295,
      "loss": 4.1882,
      "step": 31670
    },
    {
      "epoch": 0.066,
      "grad_norm": 0.8525441884994507,
      "learning_rate": 0.0002971551757441706,
      "loss": 4.1154,
      "step": 31680
    },
    {
      "epoch": 0.06602083333333333,
      "grad_norm": 0.761658787727356,
      "learning_rate": 0.00029715326451144615,
      "loss": 3.8906,
      "step": 31690
    },
    {
      "epoch": 0.06604166666666667,
      "grad_norm": 0.8600627779960632,
      "learning_rate": 0.0002971513526430778,
      "loss": 4.1001,
      "step": 31700
    },
    {
      "epoch": 0.0660625,
      "grad_norm": 0.8396868705749512,
      "learning_rate": 0.0002971494401390739,
      "loss": 4.0184,
      "step": 31710
    },
    {
      "epoch": 0.06608333333333333,
      "grad_norm": 0.8151586651802063,
      "learning_rate": 0.00029714752699944267,
      "loss": 4.1384,
      "step": 31720
    },
    {
      "epoch": 0.06610416666666667,
      "grad_norm": 0.8682240843772888,
      "learning_rate": 0.00029714561322419236,
      "loss": 3.9103,
      "step": 31730
    },
    {
      "epoch": 0.066125,
      "grad_norm": 0.9842267036437988,
      "learning_rate": 0.0002971436988133312,
      "loss": 3.9658,
      "step": 31740
    },
    {
      "epoch": 0.06614583333333333,
      "grad_norm": 0.7141526341438293,
      "learning_rate": 0.00029714178376686755,
      "loss": 3.7982,
      "step": 31750
    },
    {
      "epoch": 0.06616666666666667,
      "grad_norm": 0.8450179696083069,
      "learning_rate": 0.0002971398680848096,
      "loss": 4.0135,
      "step": 31760
    },
    {
      "epoch": 0.0661875,
      "grad_norm": 0.8115793466567993,
      "learning_rate": 0.0002971379517671657,
      "loss": 4.1593,
      "step": 31770
    },
    {
      "epoch": 0.06620833333333333,
      "grad_norm": 0.8941506743431091,
      "learning_rate": 0.0002971360348139441,
      "loss": 3.9621,
      "step": 31780
    },
    {
      "epoch": 0.06622916666666667,
      "grad_norm": 0.8005551695823669,
      "learning_rate": 0.000297134117225153,
      "loss": 4.0692,
      "step": 31790
    },
    {
      "epoch": 0.06625,
      "grad_norm": 0.838133692741394,
      "learning_rate": 0.0002971321990008008,
      "loss": 4.1592,
      "step": 31800
    },
    {
      "epoch": 0.06627083333333333,
      "grad_norm": 0.6778169274330139,
      "learning_rate": 0.0002971302801408957,
      "loss": 4.1142,
      "step": 31810
    },
    {
      "epoch": 0.06629166666666667,
      "grad_norm": 0.7644655704498291,
      "learning_rate": 0.00029712836064544614,
      "loss": 3.8673,
      "step": 31820
    },
    {
      "epoch": 0.0663125,
      "grad_norm": 0.8340640068054199,
      "learning_rate": 0.0002971264405144602,
      "loss": 4.0668,
      "step": 31830
    },
    {
      "epoch": 0.06633333333333333,
      "grad_norm": 0.8286347985267639,
      "learning_rate": 0.00029712451974794624,
      "loss": 4.0207,
      "step": 31840
    },
    {
      "epoch": 0.06635416666666667,
      "grad_norm": 0.8984985947608948,
      "learning_rate": 0.00029712259834591267,
      "loss": 3.938,
      "step": 31850
    },
    {
      "epoch": 0.066375,
      "grad_norm": 0.7914735078811646,
      "learning_rate": 0.0002971206763083677,
      "loss": 4.1784,
      "step": 31860
    },
    {
      "epoch": 0.06639583333333333,
      "grad_norm": 0.8044353723526001,
      "learning_rate": 0.00029711875363531965,
      "loss": 4.1324,
      "step": 31870
    },
    {
      "epoch": 0.06641666666666667,
      "grad_norm": 0.8105528354644775,
      "learning_rate": 0.0002971168303267768,
      "loss": 3.8935,
      "step": 31880
    },
    {
      "epoch": 0.0664375,
      "grad_norm": 0.868144690990448,
      "learning_rate": 0.00029711490638274746,
      "loss": 4.0305,
      "step": 31890
    },
    {
      "epoch": 0.06645833333333333,
      "grad_norm": 0.808652400970459,
      "learning_rate": 0.00029711298180324,
      "loss": 4.0267,
      "step": 31900
    },
    {
      "epoch": 0.06647916666666667,
      "grad_norm": 0.7524037957191467,
      "learning_rate": 0.00029711105658826264,
      "loss": 4.104,
      "step": 31910
    },
    {
      "epoch": 0.0665,
      "grad_norm": 0.9060965776443481,
      "learning_rate": 0.00029710913073782377,
      "loss": 4.1547,
      "step": 31920
    },
    {
      "epoch": 0.06652083333333333,
      "grad_norm": 0.6752282381057739,
      "learning_rate": 0.0002971072042519317,
      "loss": 4.0694,
      "step": 31930
    },
    {
      "epoch": 0.06654166666666667,
      "grad_norm": 0.8896430730819702,
      "learning_rate": 0.0002971052771305947,
      "loss": 3.8984,
      "step": 31940
    },
    {
      "epoch": 0.0665625,
      "grad_norm": 0.8401201963424683,
      "learning_rate": 0.0002971033493738211,
      "loss": 4.1298,
      "step": 31950
    },
    {
      "epoch": 0.06658333333333333,
      "grad_norm": 0.7810353636741638,
      "learning_rate": 0.00029710142098161933,
      "loss": 4.0069,
      "step": 31960
    },
    {
      "epoch": 0.06660416666666667,
      "grad_norm": 0.8506817817687988,
      "learning_rate": 0.0002970994919539976,
      "loss": 4.0399,
      "step": 31970
    },
    {
      "epoch": 0.066625,
      "grad_norm": 0.7968143224716187,
      "learning_rate": 0.00029709756229096435,
      "loss": 4.0042,
      "step": 31980
    },
    {
      "epoch": 0.06664583333333333,
      "grad_norm": 0.7629056572914124,
      "learning_rate": 0.00029709563199252785,
      "loss": 4.1703,
      "step": 31990
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 0.7136216163635254,
      "learning_rate": 0.0002970937010586964,
      "loss": 3.9575,
      "step": 32000
    },
    {
      "epoch": 0.06666666666666667,
      "eval_loss": 4.317984580993652,
      "eval_runtime": 10.0305,
      "eval_samples_per_second": 0.997,
      "eval_steps_per_second": 0.299,
      "step": 32000
    },
    {
      "epoch": 0.0666875,
      "grad_norm": 0.8806329965591431,
      "learning_rate": 0.0002970917694894784,
      "loss": 3.9776,
      "step": 32010
    },
    {
      "epoch": 0.06670833333333333,
      "grad_norm": 0.8076229691505432,
      "learning_rate": 0.00029708983728488216,
      "loss": 3.833,
      "step": 32020
    },
    {
      "epoch": 0.06672916666666667,
      "grad_norm": 0.7460716962814331,
      "learning_rate": 0.0002970879044449161,
      "loss": 3.978,
      "step": 32030
    },
    {
      "epoch": 0.06675,
      "grad_norm": 0.7601043581962585,
      "learning_rate": 0.00029708597096958847,
      "loss": 4.0981,
      "step": 32040
    },
    {
      "epoch": 0.06677083333333333,
      "grad_norm": 1.3620151281356812,
      "learning_rate": 0.00029708403685890767,
      "loss": 4.0756,
      "step": 32050
    },
    {
      "epoch": 0.06679166666666667,
      "grad_norm": 0.9241359233856201,
      "learning_rate": 0.00029708210211288206,
      "loss": 4.1327,
      "step": 32060
    },
    {
      "epoch": 0.0668125,
      "grad_norm": 0.8080127239227295,
      "learning_rate": 0.00029708016673152,
      "loss": 3.7964,
      "step": 32070
    },
    {
      "epoch": 0.06683333333333333,
      "grad_norm": 0.8615015149116516,
      "learning_rate": 0.0002970782307148298,
      "loss": 4.127,
      "step": 32080
    },
    {
      "epoch": 0.06685416666666667,
      "grad_norm": 0.8855525255203247,
      "learning_rate": 0.0002970762940628199,
      "loss": 4.0057,
      "step": 32090
    },
    {
      "epoch": 0.066875,
      "grad_norm": 0.8995692729949951,
      "learning_rate": 0.0002970743567754986,
      "loss": 4.134,
      "step": 32100
    },
    {
      "epoch": 0.06689583333333333,
      "grad_norm": 0.7830197811126709,
      "learning_rate": 0.0002970724188528743,
      "loss": 4.0404,
      "step": 32110
    },
    {
      "epoch": 0.06691666666666667,
      "grad_norm": 0.836725652217865,
      "learning_rate": 0.00029707048029495536,
      "loss": 4.0553,
      "step": 32120
    },
    {
      "epoch": 0.0669375,
      "grad_norm": 0.9917230010032654,
      "learning_rate": 0.0002970685411017502,
      "loss": 3.9583,
      "step": 32130
    },
    {
      "epoch": 0.06695833333333333,
      "grad_norm": 0.9153820276260376,
      "learning_rate": 0.0002970666012732671,
      "loss": 4.1199,
      "step": 32140
    },
    {
      "epoch": 0.06697916666666667,
      "grad_norm": 0.7497650980949402,
      "learning_rate": 0.00029706466080951457,
      "loss": 4.0236,
      "step": 32150
    },
    {
      "epoch": 0.067,
      "grad_norm": 0.7608867287635803,
      "learning_rate": 0.00029706271971050084,
      "loss": 4.0119,
      "step": 32160
    },
    {
      "epoch": 0.06702083333333334,
      "grad_norm": 0.8883413672447205,
      "learning_rate": 0.0002970607779762344,
      "loss": 3.9867,
      "step": 32170
    },
    {
      "epoch": 0.06704166666666667,
      "grad_norm": 0.7936492562294006,
      "learning_rate": 0.0002970588356067236,
      "loss": 4.2201,
      "step": 32180
    },
    {
      "epoch": 0.0670625,
      "grad_norm": 0.8649752736091614,
      "learning_rate": 0.0002970568926019769,
      "loss": 4.1098,
      "step": 32190
    },
    {
      "epoch": 0.06708333333333333,
      "grad_norm": 0.8336516618728638,
      "learning_rate": 0.00029705494896200256,
      "loss": 3.9697,
      "step": 32200
    },
    {
      "epoch": 0.06710416666666667,
      "grad_norm": 0.8784851431846619,
      "learning_rate": 0.0002970530046868091,
      "loss": 3.9302,
      "step": 32210
    },
    {
      "epoch": 0.067125,
      "grad_norm": 0.7416805624961853,
      "learning_rate": 0.00029705105977640485,
      "loss": 4.0154,
      "step": 32220
    },
    {
      "epoch": 0.06714583333333334,
      "grad_norm": 1.0436137914657593,
      "learning_rate": 0.0002970491142307982,
      "loss": 4.0089,
      "step": 32230
    },
    {
      "epoch": 0.06716666666666667,
      "grad_norm": 0.8003923296928406,
      "learning_rate": 0.0002970471680499976,
      "loss": 4.102,
      "step": 32240
    },
    {
      "epoch": 0.0671875,
      "grad_norm": 0.8729292750358582,
      "learning_rate": 0.00029704522123401143,
      "loss": 3.7755,
      "step": 32250
    },
    {
      "epoch": 0.06720833333333333,
      "grad_norm": 0.7801644802093506,
      "learning_rate": 0.0002970432737828481,
      "loss": 3.9371,
      "step": 32260
    },
    {
      "epoch": 0.06722916666666667,
      "grad_norm": 0.8539013862609863,
      "learning_rate": 0.00029704132569651604,
      "loss": 4.2793,
      "step": 32270
    },
    {
      "epoch": 0.06725,
      "grad_norm": 0.8270050883293152,
      "learning_rate": 0.0002970393769750237,
      "loss": 4.0033,
      "step": 32280
    },
    {
      "epoch": 0.06727083333333334,
      "grad_norm": 0.9147341847419739,
      "learning_rate": 0.00029703742761837945,
      "loss": 3.89,
      "step": 32290
    },
    {
      "epoch": 0.06729166666666667,
      "grad_norm": 0.8416891098022461,
      "learning_rate": 0.00029703547762659167,
      "loss": 4.047,
      "step": 32300
    },
    {
      "epoch": 0.0673125,
      "grad_norm": 0.9025658965110779,
      "learning_rate": 0.0002970335269996688,
      "loss": 3.9372,
      "step": 32310
    },
    {
      "epoch": 0.06733333333333333,
      "grad_norm": 0.7795712351799011,
      "learning_rate": 0.00029703157573761937,
      "loss": 4.0626,
      "step": 32320
    },
    {
      "epoch": 0.06735416666666667,
      "grad_norm": 0.7526452541351318,
      "learning_rate": 0.0002970296238404517,
      "loss": 4.1811,
      "step": 32330
    },
    {
      "epoch": 0.067375,
      "grad_norm": 0.7744480967521667,
      "learning_rate": 0.00029702767130817425,
      "loss": 4.1262,
      "step": 32340
    },
    {
      "epoch": 0.06739583333333334,
      "grad_norm": 0.7511940598487854,
      "learning_rate": 0.0002970257181407955,
      "loss": 3.8759,
      "step": 32350
    },
    {
      "epoch": 0.06741666666666667,
      "grad_norm": 0.8914083242416382,
      "learning_rate": 0.00029702376433832374,
      "loss": 4.0982,
      "step": 32360
    },
    {
      "epoch": 0.0674375,
      "grad_norm": 0.8178173303604126,
      "learning_rate": 0.0002970218099007676,
      "loss": 4.0966,
      "step": 32370
    },
    {
      "epoch": 0.06745833333333333,
      "grad_norm": 0.958595335483551,
      "learning_rate": 0.00029701985482813545,
      "loss": 4.0551,
      "step": 32380
    },
    {
      "epoch": 0.06747916666666667,
      "grad_norm": 0.7528960704803467,
      "learning_rate": 0.00029701789912043566,
      "loss": 4.1179,
      "step": 32390
    },
    {
      "epoch": 0.0675,
      "grad_norm": 0.8234387040138245,
      "learning_rate": 0.0002970159427776768,
      "loss": 4.0874,
      "step": 32400
    },
    {
      "epoch": 0.06752083333333334,
      "grad_norm": 0.8581607341766357,
      "learning_rate": 0.0002970139857998672,
      "loss": 4.0402,
      "step": 32410
    },
    {
      "epoch": 0.06754166666666667,
      "grad_norm": 0.7798576951026917,
      "learning_rate": 0.0002970120281870154,
      "loss": 3.9334,
      "step": 32420
    },
    {
      "epoch": 0.0675625,
      "grad_norm": 0.8752985596656799,
      "learning_rate": 0.00029701006993912985,
      "loss": 3.9642,
      "step": 32430
    },
    {
      "epoch": 0.06758333333333333,
      "grad_norm": 0.9090281128883362,
      "learning_rate": 0.00029700811105621894,
      "loss": 3.96,
      "step": 32440
    },
    {
      "epoch": 0.06760416666666667,
      "grad_norm": 0.8500468730926514,
      "learning_rate": 0.00029700615153829124,
      "loss": 3.9925,
      "step": 32450
    },
    {
      "epoch": 0.067625,
      "grad_norm": 0.7876474261283875,
      "learning_rate": 0.0002970041913853551,
      "loss": 3.8318,
      "step": 32460
    },
    {
      "epoch": 0.06764583333333334,
      "grad_norm": 0.8432392477989197,
      "learning_rate": 0.0002970022305974191,
      "loss": 3.7714,
      "step": 32470
    },
    {
      "epoch": 0.06766666666666667,
      "grad_norm": 0.7286289930343628,
      "learning_rate": 0.0002970002691744916,
      "loss": 4.0779,
      "step": 32480
    },
    {
      "epoch": 0.0676875,
      "grad_norm": 0.7543696165084839,
      "learning_rate": 0.0002969983071165811,
      "loss": 4.0354,
      "step": 32490
    },
    {
      "epoch": 0.06770833333333333,
      "grad_norm": 0.7769435048103333,
      "learning_rate": 0.00029699634442369616,
      "loss": 3.9855,
      "step": 32500
    },
    {
      "epoch": 0.06772916666666666,
      "grad_norm": 0.8413987159729004,
      "learning_rate": 0.00029699438109584517,
      "loss": 4.0958,
      "step": 32510
    },
    {
      "epoch": 0.06775,
      "grad_norm": 0.7596355676651001,
      "learning_rate": 0.00029699241713303665,
      "loss": 3.9752,
      "step": 32520
    },
    {
      "epoch": 0.06777083333333334,
      "grad_norm": 0.9097784757614136,
      "learning_rate": 0.00029699045253527907,
      "loss": 3.9581,
      "step": 32530
    },
    {
      "epoch": 0.06779166666666667,
      "grad_norm": 0.8153075575828552,
      "learning_rate": 0.0002969884873025809,
      "loss": 3.8622,
      "step": 32540
    },
    {
      "epoch": 0.0678125,
      "grad_norm": 0.8951911926269531,
      "learning_rate": 0.00029698652143495067,
      "loss": 4.0406,
      "step": 32550
    },
    {
      "epoch": 0.06783333333333333,
      "grad_norm": 0.8234619498252869,
      "learning_rate": 0.00029698455493239683,
      "loss": 4.0881,
      "step": 32560
    },
    {
      "epoch": 0.06785416666666666,
      "grad_norm": 0.8194829821586609,
      "learning_rate": 0.0002969825877949279,
      "loss": 3.9506,
      "step": 32570
    },
    {
      "epoch": 0.067875,
      "grad_norm": 0.7898656129837036,
      "learning_rate": 0.00029698062002255236,
      "loss": 3.9118,
      "step": 32580
    },
    {
      "epoch": 0.06789583333333334,
      "grad_norm": 0.9381137490272522,
      "learning_rate": 0.00029697865161527876,
      "loss": 3.964,
      "step": 32590
    },
    {
      "epoch": 0.06791666666666667,
      "grad_norm": 0.8576021790504456,
      "learning_rate": 0.0002969766825731155,
      "loss": 4.0403,
      "step": 32600
    },
    {
      "epoch": 0.0679375,
      "grad_norm": 0.836057186126709,
      "learning_rate": 0.0002969747128960712,
      "loss": 4.122,
      "step": 32610
    },
    {
      "epoch": 0.06795833333333333,
      "grad_norm": 0.8609469532966614,
      "learning_rate": 0.0002969727425841543,
      "loss": 4.0805,
      "step": 32620
    },
    {
      "epoch": 0.06797916666666666,
      "grad_norm": 0.8229736089706421,
      "learning_rate": 0.0002969707716373733,
      "loss": 3.9666,
      "step": 32630
    },
    {
      "epoch": 0.068,
      "grad_norm": 1.3043606281280518,
      "learning_rate": 0.0002969688000557368,
      "loss": 4.0234,
      "step": 32640
    },
    {
      "epoch": 0.06802083333333334,
      "grad_norm": 0.829684317111969,
      "learning_rate": 0.0002969668278392532,
      "loss": 4.0865,
      "step": 32650
    },
    {
      "epoch": 0.06804166666666667,
      "grad_norm": 0.874487042427063,
      "learning_rate": 0.00029696485498793113,
      "loss": 4.117,
      "step": 32660
    },
    {
      "epoch": 0.0680625,
      "grad_norm": 0.6601777672767639,
      "learning_rate": 0.0002969628815017791,
      "loss": 3.9687,
      "step": 32670
    },
    {
      "epoch": 0.06808333333333333,
      "grad_norm": 0.8547908067703247,
      "learning_rate": 0.00029696090738080545,
      "loss": 4.038,
      "step": 32680
    },
    {
      "epoch": 0.06810416666666666,
      "grad_norm": 0.7928237318992615,
      "learning_rate": 0.000296958932625019,
      "loss": 4.1302,
      "step": 32690
    },
    {
      "epoch": 0.068125,
      "grad_norm": 0.7978391051292419,
      "learning_rate": 0.00029695695723442803,
      "loss": 4.0002,
      "step": 32700
    },
    {
      "epoch": 0.06814583333333334,
      "grad_norm": 0.8476807475090027,
      "learning_rate": 0.0002969549812090412,
      "loss": 4.1103,
      "step": 32710
    },
    {
      "epoch": 0.06816666666666667,
      "grad_norm": 0.9178527593612671,
      "learning_rate": 0.000296953004548867,
      "loss": 4.0663,
      "step": 32720
    },
    {
      "epoch": 0.0681875,
      "grad_norm": 0.738376259803772,
      "learning_rate": 0.000296951027253914,
      "loss": 4.0339,
      "step": 32730
    },
    {
      "epoch": 0.06820833333333333,
      "grad_norm": 0.8412818908691406,
      "learning_rate": 0.0002969490493241908,
      "loss": 4.0402,
      "step": 32740
    },
    {
      "epoch": 0.06822916666666666,
      "grad_norm": 0.934935450553894,
      "learning_rate": 0.0002969470707597058,
      "loss": 3.901,
      "step": 32750
    },
    {
      "epoch": 0.06825,
      "grad_norm": 0.897495687007904,
      "learning_rate": 0.00029694509156046766,
      "loss": 3.9922,
      "step": 32760
    },
    {
      "epoch": 0.06827083333333334,
      "grad_norm": 0.8871989846229553,
      "learning_rate": 0.00029694311172648487,
      "loss": 3.9878,
      "step": 32770
    },
    {
      "epoch": 0.06829166666666667,
      "grad_norm": 0.719870924949646,
      "learning_rate": 0.000296941131257766,
      "loss": 3.9769,
      "step": 32780
    },
    {
      "epoch": 0.0683125,
      "grad_norm": 0.8276297450065613,
      "learning_rate": 0.0002969391501543196,
      "loss": 4.1362,
      "step": 32790
    },
    {
      "epoch": 0.06833333333333333,
      "grad_norm": 0.8307990431785583,
      "learning_rate": 0.0002969371684161542,
      "loss": 3.9933,
      "step": 32800
    },
    {
      "epoch": 0.06835416666666666,
      "grad_norm": 0.8146401047706604,
      "learning_rate": 0.00029693518604327845,
      "loss": 3.9748,
      "step": 32810
    },
    {
      "epoch": 0.068375,
      "grad_norm": 0.9713392853736877,
      "learning_rate": 0.00029693320303570087,
      "loss": 4.0625,
      "step": 32820
    },
    {
      "epoch": 0.06839583333333334,
      "grad_norm": 1.029344916343689,
      "learning_rate": 0.00029693121939342997,
      "loss": 4.0584,
      "step": 32830
    },
    {
      "epoch": 0.06841666666666667,
      "grad_norm": 0.9031974673271179,
      "learning_rate": 0.0002969292351164744,
      "loss": 3.9429,
      "step": 32840
    },
    {
      "epoch": 0.0684375,
      "grad_norm": 0.7857670187950134,
      "learning_rate": 0.0002969272502048427,
      "loss": 4.0534,
      "step": 32850
    },
    {
      "epoch": 0.06845833333333333,
      "grad_norm": 0.8948509097099304,
      "learning_rate": 0.00029692526465854337,
      "loss": 4.1799,
      "step": 32860
    },
    {
      "epoch": 0.06847916666666666,
      "grad_norm": 0.7429506778717041,
      "learning_rate": 0.00029692327847758506,
      "loss": 3.993,
      "step": 32870
    },
    {
      "epoch": 0.0685,
      "grad_norm": 0.9259060621261597,
      "learning_rate": 0.0002969212916619764,
      "loss": 3.9473,
      "step": 32880
    },
    {
      "epoch": 0.06852083333333334,
      "grad_norm": 0.920107901096344,
      "learning_rate": 0.00029691930421172583,
      "loss": 4.0013,
      "step": 32890
    },
    {
      "epoch": 0.06854166666666667,
      "grad_norm": 0.829792857170105,
      "learning_rate": 0.00029691731612684215,
      "loss": 4.1036,
      "step": 32900
    },
    {
      "epoch": 0.0685625,
      "grad_norm": 0.7543922662734985,
      "learning_rate": 0.00029691532740733375,
      "loss": 4.0015,
      "step": 32910
    },
    {
      "epoch": 0.06858333333333333,
      "grad_norm": 0.7866932153701782,
      "learning_rate": 0.0002969133380532092,
      "loss": 4.0068,
      "step": 32920
    },
    {
      "epoch": 0.06860416666666666,
      "grad_norm": 0.8012253642082214,
      "learning_rate": 0.00029691134806447727,
      "loss": 4.3772,
      "step": 32930
    },
    {
      "epoch": 0.068625,
      "grad_norm": 0.7860134243965149,
      "learning_rate": 0.00029690935744114655,
      "loss": 3.8687,
      "step": 32940
    },
    {
      "epoch": 0.06864583333333334,
      "grad_norm": 0.7570598721504211,
      "learning_rate": 0.00029690736618322546,
      "loss": 4.1057,
      "step": 32950
    },
    {
      "epoch": 0.06866666666666667,
      "grad_norm": 0.856360673904419,
      "learning_rate": 0.0002969053742907227,
      "loss": 4.1768,
      "step": 32960
    },
    {
      "epoch": 0.0686875,
      "grad_norm": 0.8201711177825928,
      "learning_rate": 0.00029690338176364685,
      "loss": 4.129,
      "step": 32970
    },
    {
      "epoch": 0.06870833333333333,
      "grad_norm": 0.8094348311424255,
      "learning_rate": 0.00029690138860200655,
      "loss": 4.0328,
      "step": 32980
    },
    {
      "epoch": 0.06872916666666666,
      "grad_norm": 0.7905895709991455,
      "learning_rate": 0.00029689939480581043,
      "loss": 4.0906,
      "step": 32990
    },
    {
      "epoch": 0.06875,
      "grad_norm": 0.8108993768692017,
      "learning_rate": 0.0002968974003750671,
      "loss": 4.0015,
      "step": 33000
    },
    {
      "epoch": 0.06875,
      "eval_loss": 4.30398416519165,
      "eval_runtime": 9.9665,
      "eval_samples_per_second": 1.003,
      "eval_steps_per_second": 0.301,
      "step": 33000
    },
    {
      "epoch": 0.06877083333333334,
      "grad_norm": 0.8802614808082581,
      "learning_rate": 0.00029689540530978507,
      "loss": 3.9564,
      "step": 33010
    },
    {
      "epoch": 0.06879166666666667,
      "grad_norm": 0.8001412749290466,
      "learning_rate": 0.00029689340960997306,
      "loss": 4.0892,
      "step": 33020
    },
    {
      "epoch": 0.0688125,
      "grad_norm": 0.850569486618042,
      "learning_rate": 0.0002968914132756397,
      "loss": 3.8203,
      "step": 33030
    },
    {
      "epoch": 0.06883333333333333,
      "grad_norm": 0.8175033330917358,
      "learning_rate": 0.00029688941630679356,
      "loss": 4.0917,
      "step": 33040
    },
    {
      "epoch": 0.06885416666666666,
      "grad_norm": 0.7801465392112732,
      "learning_rate": 0.0002968874187034433,
      "loss": 4.0185,
      "step": 33050
    },
    {
      "epoch": 0.068875,
      "grad_norm": 0.9223626852035522,
      "learning_rate": 0.0002968854204655975,
      "loss": 3.9671,
      "step": 33060
    },
    {
      "epoch": 0.06889583333333334,
      "grad_norm": 0.8289282321929932,
      "learning_rate": 0.0002968834215932648,
      "loss": 4.1713,
      "step": 33070
    },
    {
      "epoch": 0.06891666666666667,
      "grad_norm": 0.8045044541358948,
      "learning_rate": 0.00029688142208645393,
      "loss": 3.9174,
      "step": 33080
    },
    {
      "epoch": 0.0689375,
      "grad_norm": 0.8104084730148315,
      "learning_rate": 0.00029687942194517346,
      "loss": 4.0087,
      "step": 33090
    },
    {
      "epoch": 0.06895833333333333,
      "grad_norm": 0.852576494216919,
      "learning_rate": 0.000296877421169432,
      "loss": 3.8957,
      "step": 33100
    },
    {
      "epoch": 0.06897916666666666,
      "grad_norm": 0.7764285802841187,
      "learning_rate": 0.0002968754197592382,
      "loss": 4.0078,
      "step": 33110
    },
    {
      "epoch": 0.069,
      "grad_norm": 0.6912543177604675,
      "learning_rate": 0.0002968734177146007,
      "loss": 3.985,
      "step": 33120
    },
    {
      "epoch": 0.06902083333333334,
      "grad_norm": 0.7757405638694763,
      "learning_rate": 0.0002968714150355282,
      "loss": 3.9926,
      "step": 33130
    },
    {
      "epoch": 0.06904166666666667,
      "grad_norm": 0.8769288659095764,
      "learning_rate": 0.0002968694117220293,
      "loss": 4.0758,
      "step": 33140
    },
    {
      "epoch": 0.0690625,
      "grad_norm": 0.9956322312355042,
      "learning_rate": 0.00029686740777411274,
      "loss": 4.0011,
      "step": 33150
    },
    {
      "epoch": 0.06908333333333333,
      "grad_norm": 0.9630488753318787,
      "learning_rate": 0.0002968654031917871,
      "loss": 4.1207,
      "step": 33160
    },
    {
      "epoch": 0.06910416666666666,
      "grad_norm": 0.730347216129303,
      "learning_rate": 0.00029686339797506097,
      "loss": 3.9294,
      "step": 33170
    },
    {
      "epoch": 0.069125,
      "grad_norm": 0.7564640641212463,
      "learning_rate": 0.00029686139212394317,
      "loss": 4.1184,
      "step": 33180
    },
    {
      "epoch": 0.06914583333333334,
      "grad_norm": 0.9014918804168701,
      "learning_rate": 0.0002968593856384423,
      "loss": 4.1378,
      "step": 33190
    },
    {
      "epoch": 0.06916666666666667,
      "grad_norm": 0.8133769631385803,
      "learning_rate": 0.00029685737851856695,
      "loss": 4.0697,
      "step": 33200
    },
    {
      "epoch": 0.0691875,
      "grad_norm": 0.7749180197715759,
      "learning_rate": 0.0002968553707643259,
      "loss": 3.9783,
      "step": 33210
    },
    {
      "epoch": 0.06920833333333333,
      "grad_norm": 0.7466203570365906,
      "learning_rate": 0.00029685336237572776,
      "loss": 3.9652,
      "step": 33220
    },
    {
      "epoch": 0.06922916666666666,
      "grad_norm": 0.8236038088798523,
      "learning_rate": 0.0002968513533527812,
      "loss": 4.1628,
      "step": 33230
    },
    {
      "epoch": 0.06925,
      "grad_norm": 0.8048877716064453,
      "learning_rate": 0.000296849343695495,
      "loss": 4.2041,
      "step": 33240
    },
    {
      "epoch": 0.06927083333333334,
      "grad_norm": 0.9180687665939331,
      "learning_rate": 0.0002968473334038777,
      "loss": 4.0011,
      "step": 33250
    },
    {
      "epoch": 0.06929166666666667,
      "grad_norm": 0.894702672958374,
      "learning_rate": 0.000296845322477938,
      "loss": 4.0673,
      "step": 33260
    },
    {
      "epoch": 0.0693125,
      "grad_norm": 0.7540309429168701,
      "learning_rate": 0.00029684331091768475,
      "loss": 3.9622,
      "step": 33270
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 0.9511730074882507,
      "learning_rate": 0.0002968412987231265,
      "loss": 4.2008,
      "step": 33280
    },
    {
      "epoch": 0.06935416666666666,
      "grad_norm": 0.717928409576416,
      "learning_rate": 0.00029683928589427193,
      "loss": 4.0966,
      "step": 33290
    },
    {
      "epoch": 0.069375,
      "grad_norm": 0.8435646891593933,
      "learning_rate": 0.00029683727243112973,
      "loss": 4.1442,
      "step": 33300
    },
    {
      "epoch": 0.06939583333333334,
      "grad_norm": 0.9767887592315674,
      "learning_rate": 0.00029683525833370866,
      "loss": 4.1393,
      "step": 33310
    },
    {
      "epoch": 0.06941666666666667,
      "grad_norm": 0.803268313407898,
      "learning_rate": 0.0002968332436020174,
      "loss": 3.9012,
      "step": 33320
    },
    {
      "epoch": 0.0694375,
      "grad_norm": 0.7727909684181213,
      "learning_rate": 0.00029683122823606466,
      "loss": 4.0018,
      "step": 33330
    },
    {
      "epoch": 0.06945833333333333,
      "grad_norm": 0.7855028510093689,
      "learning_rate": 0.0002968292122358591,
      "loss": 3.9996,
      "step": 33340
    },
    {
      "epoch": 0.06947916666666666,
      "grad_norm": 0.8063452243804932,
      "learning_rate": 0.0002968271956014095,
      "loss": 3.8731,
      "step": 33350
    },
    {
      "epoch": 0.0695,
      "grad_norm": 0.7760762572288513,
      "learning_rate": 0.00029682517833272453,
      "loss": 4.1372,
      "step": 33360
    },
    {
      "epoch": 0.06952083333333334,
      "grad_norm": 0.8319500684738159,
      "learning_rate": 0.0002968231604298129,
      "loss": 4.0792,
      "step": 33370
    },
    {
      "epoch": 0.06954166666666667,
      "grad_norm": 0.852035403251648,
      "learning_rate": 0.0002968211418926833,
      "loss": 3.9093,
      "step": 33380
    },
    {
      "epoch": 0.0695625,
      "grad_norm": 0.7542200088500977,
      "learning_rate": 0.0002968191227213445,
      "loss": 4.0235,
      "step": 33390
    },
    {
      "epoch": 0.06958333333333333,
      "grad_norm": 0.8637761473655701,
      "learning_rate": 0.0002968171029158053,
      "loss": 3.9892,
      "step": 33400
    },
    {
      "epoch": 0.06960416666666666,
      "grad_norm": 0.8369530439376831,
      "learning_rate": 0.0002968150824760742,
      "loss": 3.7701,
      "step": 33410
    },
    {
      "epoch": 0.069625,
      "grad_norm": 0.8714974522590637,
      "learning_rate": 0.00029681306140216015,
      "loss": 4.0782,
      "step": 33420
    },
    {
      "epoch": 0.06964583333333334,
      "grad_norm": 0.8339084982872009,
      "learning_rate": 0.0002968110396940717,
      "loss": 4.0547,
      "step": 33430
    },
    {
      "epoch": 0.06966666666666667,
      "grad_norm": 0.7795150279998779,
      "learning_rate": 0.0002968090173518177,
      "loss": 4.1387,
      "step": 33440
    },
    {
      "epoch": 0.0696875,
      "grad_norm": 0.9617117643356323,
      "learning_rate": 0.00029680699437540693,
      "loss": 4.061,
      "step": 33450
    },
    {
      "epoch": 0.06970833333333333,
      "grad_norm": 0.7326298356056213,
      "learning_rate": 0.00029680497076484797,
      "loss": 4.0547,
      "step": 33460
    },
    {
      "epoch": 0.06972916666666666,
      "grad_norm": 0.8423073887825012,
      "learning_rate": 0.0002968029465201497,
      "loss": 4.0466,
      "step": 33470
    },
    {
      "epoch": 0.06975,
      "grad_norm": 0.7888397574424744,
      "learning_rate": 0.0002968009216413208,
      "loss": 3.9723,
      "step": 33480
    },
    {
      "epoch": 0.06977083333333334,
      "grad_norm": 0.9914518594741821,
      "learning_rate": 0.00029679889612836994,
      "loss": 3.8201,
      "step": 33490
    },
    {
      "epoch": 0.06979166666666667,
      "grad_norm": 0.8486353158950806,
      "learning_rate": 0.000296796869981306,
      "loss": 3.9613,
      "step": 33500
    },
    {
      "epoch": 0.0698125,
      "grad_norm": 1.2235668897628784,
      "learning_rate": 0.00029679484320013777,
      "loss": 4.0318,
      "step": 33510
    },
    {
      "epoch": 0.06983333333333333,
      "grad_norm": 0.7431442737579346,
      "learning_rate": 0.0002967928157848739,
      "loss": 4.0536,
      "step": 33520
    },
    {
      "epoch": 0.06985416666666666,
      "grad_norm": 0.875646710395813,
      "learning_rate": 0.0002967907877355231,
      "loss": 4.076,
      "step": 33530
    },
    {
      "epoch": 0.069875,
      "grad_norm": 1.174370288848877,
      "learning_rate": 0.0002967887590520942,
      "loss": 3.9788,
      "step": 33540
    },
    {
      "epoch": 0.06989583333333334,
      "grad_norm": 1.2928259372711182,
      "learning_rate": 0.000296786729734596,
      "loss": 4.1273,
      "step": 33550
    },
    {
      "epoch": 0.06991666666666667,
      "grad_norm": 0.793785035610199,
      "learning_rate": 0.00029678469978303726,
      "loss": 4.2496,
      "step": 33560
    },
    {
      "epoch": 0.0699375,
      "grad_norm": 0.7670491933822632,
      "learning_rate": 0.0002967826691974267,
      "loss": 4.0288,
      "step": 33570
    },
    {
      "epoch": 0.06995833333333333,
      "grad_norm": 0.8878262639045715,
      "learning_rate": 0.00029678063797777306,
      "loss": 3.9737,
      "step": 33580
    },
    {
      "epoch": 0.06997916666666666,
      "grad_norm": 0.7248619198799133,
      "learning_rate": 0.00029677860612408526,
      "loss": 4.2008,
      "step": 33590
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9372048377990723,
      "learning_rate": 0.00029677657363637186,
      "loss": 4.0277,
      "step": 33600
    },
    {
      "epoch": 0.07002083333333334,
      "grad_norm": 0.8380268216133118,
      "learning_rate": 0.0002967745405146418,
      "loss": 4.0995,
      "step": 33610
    },
    {
      "epoch": 0.07004166666666667,
      "grad_norm": 0.8668045997619629,
      "learning_rate": 0.0002967725067589039,
      "loss": 4.0373,
      "step": 33620
    },
    {
      "epoch": 0.0700625,
      "grad_norm": 0.7666056156158447,
      "learning_rate": 0.0002967704723691668,
      "loss": 3.9088,
      "step": 33630
    },
    {
      "epoch": 0.07008333333333333,
      "grad_norm": 0.7111327648162842,
      "learning_rate": 0.00029676843734543937,
      "loss": 3.8105,
      "step": 33640
    },
    {
      "epoch": 0.07010416666666666,
      "grad_norm": 0.7928159832954407,
      "learning_rate": 0.0002967664016877304,
      "loss": 4.1738,
      "step": 33650
    },
    {
      "epoch": 0.070125,
      "grad_norm": 0.9042511582374573,
      "learning_rate": 0.00029676436539604863,
      "loss": 3.9378,
      "step": 33660
    },
    {
      "epoch": 0.07014583333333334,
      "grad_norm": 0.8160687685012817,
      "learning_rate": 0.0002967623284704029,
      "loss": 3.951,
      "step": 33670
    },
    {
      "epoch": 0.07016666666666667,
      "grad_norm": 0.722602128982544,
      "learning_rate": 0.00029676029091080204,
      "loss": 3.9503,
      "step": 33680
    },
    {
      "epoch": 0.0701875,
      "grad_norm": 0.7011421918869019,
      "learning_rate": 0.0002967582527172548,
      "loss": 3.884,
      "step": 33690
    },
    {
      "epoch": 0.07020833333333333,
      "grad_norm": 0.9496217966079712,
      "learning_rate": 0.00029675621388976995,
      "loss": 4.1054,
      "step": 33700
    },
    {
      "epoch": 0.07022916666666666,
      "grad_norm": 0.870117723941803,
      "learning_rate": 0.0002967541744283564,
      "loss": 4.0435,
      "step": 33710
    },
    {
      "epoch": 0.07025,
      "grad_norm": 0.7466534972190857,
      "learning_rate": 0.0002967521343330229,
      "loss": 3.8093,
      "step": 33720
    },
    {
      "epoch": 0.07027083333333334,
      "grad_norm": 0.8525457978248596,
      "learning_rate": 0.00029675009360377824,
      "loss": 3.9675,
      "step": 33730
    },
    {
      "epoch": 0.07029166666666667,
      "grad_norm": 1.002378225326538,
      "learning_rate": 0.00029674805224063136,
      "loss": 3.9346,
      "step": 33740
    },
    {
      "epoch": 0.0703125,
      "grad_norm": 0.8722872734069824,
      "learning_rate": 0.0002967460102435909,
      "loss": 3.9666,
      "step": 33750
    },
    {
      "epoch": 0.07033333333333333,
      "grad_norm": 0.8394680023193359,
      "learning_rate": 0.00029674396761266575,
      "loss": 3.9941,
      "step": 33760
    },
    {
      "epoch": 0.07035416666666666,
      "grad_norm": 0.874859094619751,
      "learning_rate": 0.00029674192434786474,
      "loss": 4.146,
      "step": 33770
    },
    {
      "epoch": 0.070375,
      "grad_norm": 0.7514142394065857,
      "learning_rate": 0.00029673988044919675,
      "loss": 3.9637,
      "step": 33780
    },
    {
      "epoch": 0.07039583333333334,
      "grad_norm": 0.8669379353523254,
      "learning_rate": 0.0002967378359166705,
      "loss": 3.821,
      "step": 33790
    },
    {
      "epoch": 0.07041666666666667,
      "grad_norm": 0.7747814655303955,
      "learning_rate": 0.00029673579075029495,
      "loss": 3.9791,
      "step": 33800
    },
    {
      "epoch": 0.0704375,
      "grad_norm": 0.7659511566162109,
      "learning_rate": 0.00029673374495007887,
      "loss": 4.0308,
      "step": 33810
    },
    {
      "epoch": 0.07045833333333333,
      "grad_norm": 0.7867910861968994,
      "learning_rate": 0.00029673169851603104,
      "loss": 4.0675,
      "step": 33820
    },
    {
      "epoch": 0.07047916666666666,
      "grad_norm": 0.7915265560150146,
      "learning_rate": 0.00029672965144816036,
      "loss": 4.0912,
      "step": 33830
    },
    {
      "epoch": 0.0705,
      "grad_norm": 0.7157679796218872,
      "learning_rate": 0.00029672760374647566,
      "loss": 3.9876,
      "step": 33840
    },
    {
      "epoch": 0.07052083333333334,
      "grad_norm": 0.7815073728561401,
      "learning_rate": 0.00029672555541098583,
      "loss": 4.1667,
      "step": 33850
    },
    {
      "epoch": 0.07054166666666667,
      "grad_norm": 0.8013626337051392,
      "learning_rate": 0.00029672350644169965,
      "loss": 4.152,
      "step": 33860
    },
    {
      "epoch": 0.0705625,
      "grad_norm": 0.8340665698051453,
      "learning_rate": 0.000296721456838626,
      "loss": 3.9851,
      "step": 33870
    },
    {
      "epoch": 0.07058333333333333,
      "grad_norm": 0.8668696284294128,
      "learning_rate": 0.0002967194066017737,
      "loss": 4.168,
      "step": 33880
    },
    {
      "epoch": 0.07060416666666666,
      "grad_norm": 0.9821145534515381,
      "learning_rate": 0.00029671735573115173,
      "loss": 4.0226,
      "step": 33890
    },
    {
      "epoch": 0.070625,
      "grad_norm": 0.6895598769187927,
      "learning_rate": 0.0002967153042267688,
      "loss": 3.8604,
      "step": 33900
    },
    {
      "epoch": 0.07064583333333334,
      "grad_norm": 0.7109642624855042,
      "learning_rate": 0.0002967132520886338,
      "loss": 3.8212,
      "step": 33910
    },
    {
      "epoch": 0.07066666666666667,
      "grad_norm": 0.9442762136459351,
      "learning_rate": 0.00029671119931675566,
      "loss": 4.0117,
      "step": 33920
    },
    {
      "epoch": 0.0706875,
      "grad_norm": 0.8387334942817688,
      "learning_rate": 0.00029670914591114323,
      "loss": 3.9426,
      "step": 33930
    },
    {
      "epoch": 0.07070833333333333,
      "grad_norm": 0.8189740180969238,
      "learning_rate": 0.00029670709187180536,
      "loss": 4.0305,
      "step": 33940
    },
    {
      "epoch": 0.07072916666666666,
      "grad_norm": 0.7688173651695251,
      "learning_rate": 0.00029670503719875083,
      "loss": 3.9379,
      "step": 33950
    },
    {
      "epoch": 0.07075,
      "grad_norm": 0.8473075032234192,
      "learning_rate": 0.00029670298189198876,
      "loss": 4.0834,
      "step": 33960
    },
    {
      "epoch": 0.07077083333333334,
      "grad_norm": 0.7963990569114685,
      "learning_rate": 0.00029670092595152775,
      "loss": 4.0196,
      "step": 33970
    },
    {
      "epoch": 0.07079166666666667,
      "grad_norm": 0.8827261924743652,
      "learning_rate": 0.00029669886937737686,
      "loss": 3.9595,
      "step": 33980
    },
    {
      "epoch": 0.0708125,
      "grad_norm": 0.6806573867797852,
      "learning_rate": 0.00029669681216954493,
      "loss": 3.8904,
      "step": 33990
    },
    {
      "epoch": 0.07083333333333333,
      "grad_norm": 0.8010231852531433,
      "learning_rate": 0.00029669475432804086,
      "loss": 3.8917,
      "step": 34000
    },
    {
      "epoch": 0.07083333333333333,
      "eval_loss": 4.30956506729126,
      "eval_runtime": 8.8143,
      "eval_samples_per_second": 1.135,
      "eval_steps_per_second": 0.34,
      "step": 34000
    },
    {
      "epoch": 0.07085416666666666,
      "grad_norm": 0.7778903841972351,
      "learning_rate": 0.00029669269585287346,
      "loss": 3.9224,
      "step": 34010
    },
    {
      "epoch": 0.070875,
      "grad_norm": 0.9363383054733276,
      "learning_rate": 0.0002966906367440517,
      "loss": 3.9191,
      "step": 34020
    },
    {
      "epoch": 0.07089583333333334,
      "grad_norm": 0.7179674506187439,
      "learning_rate": 0.00029668857700158445,
      "loss": 4.0013,
      "step": 34030
    },
    {
      "epoch": 0.07091666666666667,
      "grad_norm": 0.7650682926177979,
      "learning_rate": 0.0002966865166254806,
      "loss": 4.0714,
      "step": 34040
    },
    {
      "epoch": 0.0709375,
      "grad_norm": 0.9580439329147339,
      "learning_rate": 0.0002966844556157491,
      "loss": 4.0841,
      "step": 34050
    },
    {
      "epoch": 0.07095833333333333,
      "grad_norm": 0.7576990127563477,
      "learning_rate": 0.0002966823939723988,
      "loss": 3.8032,
      "step": 34060
    },
    {
      "epoch": 0.07097916666666666,
      "grad_norm": 0.7621942162513733,
      "learning_rate": 0.0002966803316954386,
      "loss": 4.0872,
      "step": 34070
    },
    {
      "epoch": 0.071,
      "grad_norm": 0.8907612562179565,
      "learning_rate": 0.0002966782687848775,
      "loss": 4.2552,
      "step": 34080
    },
    {
      "epoch": 0.07102083333333334,
      "grad_norm": 0.8342941999435425,
      "learning_rate": 0.0002966762052407242,
      "loss": 4.1747,
      "step": 34090
    },
    {
      "epoch": 0.07104166666666667,
      "grad_norm": 0.7848079800605774,
      "learning_rate": 0.00029667414106298787,
      "loss": 4.1088,
      "step": 34100
    },
    {
      "epoch": 0.0710625,
      "grad_norm": 0.7720039486885071,
      "learning_rate": 0.0002966720762516773,
      "loss": 3.991,
      "step": 34110
    },
    {
      "epoch": 0.07108333333333333,
      "grad_norm": 0.7395342588424683,
      "learning_rate": 0.0002966700108068013,
      "loss": 4.1175,
      "step": 34120
    },
    {
      "epoch": 0.07110416666666666,
      "grad_norm": 0.8203276991844177,
      "learning_rate": 0.00029666794472836907,
      "loss": 3.9117,
      "step": 34130
    },
    {
      "epoch": 0.071125,
      "grad_norm": 0.9160122871398926,
      "learning_rate": 0.00029666587801638924,
      "loss": 4.1776,
      "step": 34140
    },
    {
      "epoch": 0.07114583333333334,
      "grad_norm": 0.7634288668632507,
      "learning_rate": 0.00029666381067087094,
      "loss": 3.7585,
      "step": 34150
    },
    {
      "epoch": 0.07116666666666667,
      "grad_norm": 0.9294099807739258,
      "learning_rate": 0.00029666174269182306,
      "loss": 4.0327,
      "step": 34160
    },
    {
      "epoch": 0.0711875,
      "grad_norm": 0.817876935005188,
      "learning_rate": 0.00029665967407925444,
      "loss": 3.903,
      "step": 34170
    },
    {
      "epoch": 0.07120833333333333,
      "grad_norm": 0.7977610230445862,
      "learning_rate": 0.0002966576048331741,
      "loss": 4.04,
      "step": 34180
    },
    {
      "epoch": 0.07122916666666666,
      "grad_norm": 0.8410491943359375,
      "learning_rate": 0.00029665553495359097,
      "loss": 3.9731,
      "step": 34190
    },
    {
      "epoch": 0.07125,
      "grad_norm": 0.7685146927833557,
      "learning_rate": 0.00029665346444051395,
      "loss": 4.2364,
      "step": 34200
    },
    {
      "epoch": 0.07127083333333334,
      "grad_norm": 0.8239428400993347,
      "learning_rate": 0.0002966513932939521,
      "loss": 4.0998,
      "step": 34210
    },
    {
      "epoch": 0.07129166666666667,
      "grad_norm": 0.8673047423362732,
      "learning_rate": 0.00029664932151391414,
      "loss": 4.0048,
      "step": 34220
    },
    {
      "epoch": 0.0713125,
      "grad_norm": 0.8363068699836731,
      "learning_rate": 0.0002966472491004093,
      "loss": 4.0507,
      "step": 34230
    },
    {
      "epoch": 0.07133333333333333,
      "grad_norm": 0.8142035007476807,
      "learning_rate": 0.0002966451760534463,
      "loss": 3.991,
      "step": 34240
    },
    {
      "epoch": 0.07135416666666666,
      "grad_norm": 0.7678346633911133,
      "learning_rate": 0.00029664310237303423,
      "loss": 4.0147,
      "step": 34250
    },
    {
      "epoch": 0.071375,
      "grad_norm": 0.9523639678955078,
      "learning_rate": 0.000296641028059182,
      "loss": 4.0481,
      "step": 34260
    },
    {
      "epoch": 0.07139583333333334,
      "grad_norm": 0.9097340703010559,
      "learning_rate": 0.00029663895311189854,
      "loss": 4.1269,
      "step": 34270
    },
    {
      "epoch": 0.07141666666666667,
      "grad_norm": 0.7901546955108643,
      "learning_rate": 0.0002966368775311928,
      "loss": 3.9693,
      "step": 34280
    },
    {
      "epoch": 0.0714375,
      "grad_norm": 0.8100095987319946,
      "learning_rate": 0.0002966348013170739,
      "loss": 4.1189,
      "step": 34290
    },
    {
      "epoch": 0.07145833333333333,
      "grad_norm": 0.8052130937576294,
      "learning_rate": 0.00029663272446955066,
      "loss": 3.9931,
      "step": 34300
    },
    {
      "epoch": 0.07147916666666666,
      "grad_norm": 0.7385896444320679,
      "learning_rate": 0.0002966306469886321,
      "loss": 4.0292,
      "step": 34310
    },
    {
      "epoch": 0.0715,
      "grad_norm": 0.7445738315582275,
      "learning_rate": 0.00029662856887432715,
      "loss": 4.0386,
      "step": 34320
    },
    {
      "epoch": 0.07152083333333334,
      "grad_norm": 0.8286782503128052,
      "learning_rate": 0.00029662649012664487,
      "loss": 4.1846,
      "step": 34330
    },
    {
      "epoch": 0.07154166666666667,
      "grad_norm": 0.835978627204895,
      "learning_rate": 0.00029662441074559416,
      "loss": 4.0104,
      "step": 34340
    },
    {
      "epoch": 0.0715625,
      "grad_norm": 0.7241278290748596,
      "learning_rate": 0.000296622330731184,
      "loss": 3.9984,
      "step": 34350
    },
    {
      "epoch": 0.07158333333333333,
      "grad_norm": 0.7916358113288879,
      "learning_rate": 0.00029662025008342347,
      "loss": 3.9964,
      "step": 34360
    },
    {
      "epoch": 0.07160416666666666,
      "grad_norm": 0.8084188103675842,
      "learning_rate": 0.00029661816880232147,
      "loss": 3.9023,
      "step": 34370
    },
    {
      "epoch": 0.071625,
      "grad_norm": 0.9834280014038086,
      "learning_rate": 0.000296616086887887,
      "loss": 4.1501,
      "step": 34380
    },
    {
      "epoch": 0.07164583333333334,
      "grad_norm": 1.250417947769165,
      "learning_rate": 0.0002966140043401291,
      "loss": 3.9661,
      "step": 34390
    },
    {
      "epoch": 0.07166666666666667,
      "grad_norm": 0.8166579008102417,
      "learning_rate": 0.0002966119211590567,
      "loss": 4.2811,
      "step": 34400
    },
    {
      "epoch": 0.0716875,
      "grad_norm": 0.795012354850769,
      "learning_rate": 0.0002966098373446789,
      "loss": 3.9427,
      "step": 34410
    },
    {
      "epoch": 0.07170833333333333,
      "grad_norm": 0.7691431641578674,
      "learning_rate": 0.0002966077528970046,
      "loss": 4.0989,
      "step": 34420
    },
    {
      "epoch": 0.07172916666666666,
      "grad_norm": 0.8499016165733337,
      "learning_rate": 0.00029660566781604283,
      "loss": 4.007,
      "step": 34430
    },
    {
      "epoch": 0.07175,
      "grad_norm": 1.0078589916229248,
      "learning_rate": 0.00029660358210180257,
      "loss": 4.018,
      "step": 34440
    },
    {
      "epoch": 0.07177083333333334,
      "grad_norm": 0.9950017333030701,
      "learning_rate": 0.00029660149575429294,
      "loss": 4.0182,
      "step": 34450
    },
    {
      "epoch": 0.07179166666666667,
      "grad_norm": 0.8495825529098511,
      "learning_rate": 0.0002965994087735228,
      "loss": 3.9463,
      "step": 34460
    },
    {
      "epoch": 0.0718125,
      "grad_norm": 0.8476213812828064,
      "learning_rate": 0.00029659732115950134,
      "loss": 4.0219,
      "step": 34470
    },
    {
      "epoch": 0.07183333333333333,
      "grad_norm": 0.8481163382530212,
      "learning_rate": 0.00029659523291223743,
      "loss": 3.997,
      "step": 34480
    },
    {
      "epoch": 0.07185416666666666,
      "grad_norm": 0.784838080406189,
      "learning_rate": 0.0002965931440317401,
      "loss": 3.9901,
      "step": 34490
    },
    {
      "epoch": 0.071875,
      "grad_norm": 0.7931450605392456,
      "learning_rate": 0.00029659105451801843,
      "loss": 4.0337,
      "step": 34500
    },
    {
      "epoch": 0.07189583333333334,
      "grad_norm": 0.7204222679138184,
      "learning_rate": 0.00029658896437108145,
      "loss": 4.1675,
      "step": 34510
    },
    {
      "epoch": 0.07191666666666667,
      "grad_norm": 0.8351861238479614,
      "learning_rate": 0.0002965868735909382,
      "loss": 4.1174,
      "step": 34520
    },
    {
      "epoch": 0.0719375,
      "grad_norm": 0.844732940196991,
      "learning_rate": 0.0002965847821775976,
      "loss": 4.0976,
      "step": 34530
    },
    {
      "epoch": 0.07195833333333333,
      "grad_norm": 0.7252404093742371,
      "learning_rate": 0.0002965826901310688,
      "loss": 3.8816,
      "step": 34540
    },
    {
      "epoch": 0.07197916666666666,
      "grad_norm": 0.7991320490837097,
      "learning_rate": 0.00029658059745136086,
      "loss": 4.0478,
      "step": 34550
    },
    {
      "epoch": 0.072,
      "grad_norm": 0.9043586850166321,
      "learning_rate": 0.0002965785041384827,
      "loss": 3.8861,
      "step": 34560
    },
    {
      "epoch": 0.07202083333333334,
      "grad_norm": 0.8165860176086426,
      "learning_rate": 0.0002965764101924434,
      "loss": 3.9754,
      "step": 34570
    },
    {
      "epoch": 0.07204166666666667,
      "grad_norm": 0.7429885864257812,
      "learning_rate": 0.00029657431561325203,
      "loss": 3.8601,
      "step": 34580
    },
    {
      "epoch": 0.0720625,
      "grad_norm": 0.7756181359291077,
      "learning_rate": 0.00029657222040091767,
      "loss": 4.0326,
      "step": 34590
    },
    {
      "epoch": 0.07208333333333333,
      "grad_norm": 0.7901198267936707,
      "learning_rate": 0.00029657012455544936,
      "loss": 3.8946,
      "step": 34600
    },
    {
      "epoch": 0.07210416666666666,
      "grad_norm": 0.9060100317001343,
      "learning_rate": 0.0002965680280768561,
      "loss": 3.9984,
      "step": 34610
    },
    {
      "epoch": 0.072125,
      "grad_norm": 0.8289158940315247,
      "learning_rate": 0.000296565930965147,
      "loss": 3.9317,
      "step": 34620
    },
    {
      "epoch": 0.07214583333333334,
      "grad_norm": 0.7244383692741394,
      "learning_rate": 0.000296563833220331,
      "loss": 3.9479,
      "step": 34630
    },
    {
      "epoch": 0.07216666666666667,
      "grad_norm": 0.9270050525665283,
      "learning_rate": 0.00029656173484241737,
      "loss": 4.2067,
      "step": 34640
    },
    {
      "epoch": 0.0721875,
      "grad_norm": 0.7597124576568604,
      "learning_rate": 0.0002965596358314149,
      "loss": 3.9662,
      "step": 34650
    },
    {
      "epoch": 0.07220833333333333,
      "grad_norm": 0.7923332452774048,
      "learning_rate": 0.00029655753618733295,
      "loss": 4.0753,
      "step": 34660
    },
    {
      "epoch": 0.07222916666666666,
      "grad_norm": 0.8057259917259216,
      "learning_rate": 0.00029655543591018045,
      "loss": 3.9184,
      "step": 34670
    },
    {
      "epoch": 0.07225,
      "grad_norm": 0.752720057964325,
      "learning_rate": 0.0002965533349999664,
      "loss": 4.2899,
      "step": 34680
    },
    {
      "epoch": 0.07227083333333334,
      "grad_norm": 0.8049156665802002,
      "learning_rate": 0.0002965512334567001,
      "loss": 3.9185,
      "step": 34690
    },
    {
      "epoch": 0.07229166666666667,
      "grad_norm": 0.9156242609024048,
      "learning_rate": 0.0002965491312803903,
      "loss": 4.047,
      "step": 34700
    },
    {
      "epoch": 0.0723125,
      "grad_norm": 0.9886599183082581,
      "learning_rate": 0.0002965470284710464,
      "loss": 4.0564,
      "step": 34710
    },
    {
      "epoch": 0.07233333333333333,
      "grad_norm": 0.8577404618263245,
      "learning_rate": 0.0002965449250286773,
      "loss": 4.1354,
      "step": 34720
    },
    {
      "epoch": 0.07235416666666666,
      "grad_norm": 0.7323829531669617,
      "learning_rate": 0.00029654282095329206,
      "loss": 3.9785,
      "step": 34730
    },
    {
      "epoch": 0.072375,
      "grad_norm": 0.8211647272109985,
      "learning_rate": 0.00029654071624489995,
      "loss": 3.8582,
      "step": 34740
    },
    {
      "epoch": 0.07239583333333334,
      "grad_norm": 0.7520632147789001,
      "learning_rate": 0.00029653861090350985,
      "loss": 4.0582,
      "step": 34750
    },
    {
      "epoch": 0.07241666666666667,
      "grad_norm": 0.8814414739608765,
      "learning_rate": 0.000296536504929131,
      "loss": 3.8657,
      "step": 34760
    },
    {
      "epoch": 0.0724375,
      "grad_norm": 0.8057808876037598,
      "learning_rate": 0.0002965343983217725,
      "loss": 4.0863,
      "step": 34770
    },
    {
      "epoch": 0.07245833333333333,
      "grad_norm": 0.9344736337661743,
      "learning_rate": 0.00029653229108144336,
      "loss": 4.1154,
      "step": 34780
    },
    {
      "epoch": 0.07247916666666666,
      "grad_norm": 0.7676615715026855,
      "learning_rate": 0.00029653018320815273,
      "loss": 4.0494,
      "step": 34790
    },
    {
      "epoch": 0.0725,
      "grad_norm": 0.8011816143989563,
      "learning_rate": 0.00029652807470190965,
      "loss": 4.0338,
      "step": 34800
    },
    {
      "epoch": 0.07252083333333334,
      "grad_norm": 0.8048277497291565,
      "learning_rate": 0.0002965259655627234,
      "loss": 4.198,
      "step": 34810
    },
    {
      "epoch": 0.07254166666666667,
      "grad_norm": 0.9864151477813721,
      "learning_rate": 0.0002965238557906029,
      "loss": 3.9156,
      "step": 34820
    },
    {
      "epoch": 0.0725625,
      "grad_norm": 0.7824810147285461,
      "learning_rate": 0.0002965217453855573,
      "loss": 4.0586,
      "step": 34830
    },
    {
      "epoch": 0.07258333333333333,
      "grad_norm": 0.7975809574127197,
      "learning_rate": 0.00029651963434759585,
      "loss": 4.0375,
      "step": 34840
    },
    {
      "epoch": 0.07260416666666666,
      "grad_norm": 0.8203453421592712,
      "learning_rate": 0.0002965175226767276,
      "loss": 4.2048,
      "step": 34850
    },
    {
      "epoch": 0.072625,
      "grad_norm": 0.8084617853164673,
      "learning_rate": 0.00029651541037296154,
      "loss": 4.1456,
      "step": 34860
    },
    {
      "epoch": 0.07264583333333334,
      "grad_norm": 0.7126981616020203,
      "learning_rate": 0.00029651329743630696,
      "loss": 4.0064,
      "step": 34870
    },
    {
      "epoch": 0.07266666666666667,
      "grad_norm": 0.8411117792129517,
      "learning_rate": 0.0002965111838667729,
      "loss": 4.0272,
      "step": 34880
    },
    {
      "epoch": 0.0726875,
      "grad_norm": 1.056633472442627,
      "learning_rate": 0.00029650906966436854,
      "loss": 4.1501,
      "step": 34890
    },
    {
      "epoch": 0.07270833333333333,
      "grad_norm": 0.7296987771987915,
      "learning_rate": 0.000296506954829103,
      "loss": 3.918,
      "step": 34900
    },
    {
      "epoch": 0.07272916666666666,
      "grad_norm": 0.8309071063995361,
      "learning_rate": 0.0002965048393609854,
      "loss": 4.0558,
      "step": 34910
    },
    {
      "epoch": 0.07275,
      "grad_norm": 0.7744765281677246,
      "learning_rate": 0.00029650272326002487,
      "loss": 3.999,
      "step": 34920
    },
    {
      "epoch": 0.07277083333333334,
      "grad_norm": 0.8296480178833008,
      "learning_rate": 0.0002965006065262306,
      "loss": 4.1963,
      "step": 34930
    },
    {
      "epoch": 0.07279166666666667,
      "grad_norm": 0.7535804510116577,
      "learning_rate": 0.00029649848915961165,
      "loss": 4.1776,
      "step": 34940
    },
    {
      "epoch": 0.0728125,
      "grad_norm": 0.7694225907325745,
      "learning_rate": 0.00029649637116017723,
      "loss": 3.9261,
      "step": 34950
    },
    {
      "epoch": 0.07283333333333333,
      "grad_norm": 0.9155572056770325,
      "learning_rate": 0.0002964942525279365,
      "loss": 4.146,
      "step": 34960
    },
    {
      "epoch": 0.07285416666666666,
      "grad_norm": 0.9715854525566101,
      "learning_rate": 0.0002964921332628986,
      "loss": 4.0463,
      "step": 34970
    },
    {
      "epoch": 0.072875,
      "grad_norm": 0.7245194911956787,
      "learning_rate": 0.0002964900133650726,
      "loss": 4.0114,
      "step": 34980
    },
    {
      "epoch": 0.07289583333333334,
      "grad_norm": 0.7836931347846985,
      "learning_rate": 0.00029648789283446777,
      "loss": 4.0209,
      "step": 34990
    },
    {
      "epoch": 0.07291666666666667,
      "grad_norm": 0.7943224906921387,
      "learning_rate": 0.0002964857716710932,
      "loss": 4.0533,
      "step": 35000
    },
    {
      "epoch": 0.07291666666666667,
      "eval_loss": 4.305691719055176,
      "eval_runtime": 9.7859,
      "eval_samples_per_second": 1.022,
      "eval_steps_per_second": 0.307,
      "step": 35000
    },
    {
      "epoch": 0.0729375,
      "grad_norm": 0.7306997776031494,
      "learning_rate": 0.00029648364987495816,
      "loss": 3.9367,
      "step": 35010
    },
    {
      "epoch": 0.07295833333333333,
      "grad_norm": 0.7793446779251099,
      "learning_rate": 0.00029648152744607165,
      "loss": 4.2814,
      "step": 35020
    },
    {
      "epoch": 0.07297916666666666,
      "grad_norm": 0.7725879549980164,
      "learning_rate": 0.00029647940438444297,
      "loss": 3.8449,
      "step": 35030
    },
    {
      "epoch": 0.073,
      "grad_norm": 0.7934012413024902,
      "learning_rate": 0.00029647728069008116,
      "loss": 3.8821,
      "step": 35040
    },
    {
      "epoch": 0.07302083333333333,
      "grad_norm": 0.8492363691329956,
      "learning_rate": 0.00029647515636299556,
      "loss": 4.1515,
      "step": 35050
    },
    {
      "epoch": 0.07304166666666667,
      "grad_norm": 0.8373302221298218,
      "learning_rate": 0.0002964730314031953,
      "loss": 4.0603,
      "step": 35060
    },
    {
      "epoch": 0.0730625,
      "grad_norm": 0.7923370003700256,
      "learning_rate": 0.00029647090581068943,
      "loss": 4.2322,
      "step": 35070
    },
    {
      "epoch": 0.07308333333333333,
      "grad_norm": 0.7685287594795227,
      "learning_rate": 0.00029646877958548724,
      "loss": 4.0921,
      "step": 35080
    },
    {
      "epoch": 0.07310416666666666,
      "grad_norm": 0.9121419787406921,
      "learning_rate": 0.000296466652727598,
      "loss": 4.1951,
      "step": 35090
    },
    {
      "epoch": 0.073125,
      "grad_norm": 0.7648252248764038,
      "learning_rate": 0.00029646452523703065,
      "loss": 4.078,
      "step": 35100
    },
    {
      "epoch": 0.07314583333333333,
      "grad_norm": 0.781970202922821,
      "learning_rate": 0.00029646239711379464,
      "loss": 3.9369,
      "step": 35110
    },
    {
      "epoch": 0.07316666666666667,
      "grad_norm": 0.8711278438568115,
      "learning_rate": 0.00029646026835789896,
      "loss": 3.9517,
      "step": 35120
    },
    {
      "epoch": 0.0731875,
      "grad_norm": 0.7999338507652283,
      "learning_rate": 0.00029645813896935294,
      "loss": 3.9792,
      "step": 35130
    },
    {
      "epoch": 0.07320833333333333,
      "grad_norm": 0.9928709268569946,
      "learning_rate": 0.00029645600894816573,
      "loss": 4.1135,
      "step": 35140
    },
    {
      "epoch": 0.07322916666666666,
      "grad_norm": 0.8712597489356995,
      "learning_rate": 0.0002964538782943465,
      "loss": 4.2042,
      "step": 35150
    },
    {
      "epoch": 0.07325,
      "grad_norm": 0.7487674951553345,
      "learning_rate": 0.0002964517470079045,
      "loss": 3.9612,
      "step": 35160
    },
    {
      "epoch": 0.07327083333333333,
      "grad_norm": 0.8097735047340393,
      "learning_rate": 0.000296449615088849,
      "loss": 4.0626,
      "step": 35170
    },
    {
      "epoch": 0.07329166666666667,
      "grad_norm": 0.7810301184654236,
      "learning_rate": 0.00029644748253718906,
      "loss": 4.024,
      "step": 35180
    },
    {
      "epoch": 0.0733125,
      "grad_norm": 0.7320312857627869,
      "learning_rate": 0.00029644534935293395,
      "loss": 3.9831,
      "step": 35190
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 0.7716202735900879,
      "learning_rate": 0.0002964432155360929,
      "loss": 3.9052,
      "step": 35200
    },
    {
      "epoch": 0.07335416666666666,
      "grad_norm": 0.7827876210212708,
      "learning_rate": 0.0002964410810866751,
      "loss": 4.0381,
      "step": 35210
    },
    {
      "epoch": 0.073375,
      "grad_norm": 0.8971740007400513,
      "learning_rate": 0.0002964389460046899,
      "loss": 3.9978,
      "step": 35220
    },
    {
      "epoch": 0.07339583333333333,
      "grad_norm": 0.9332857728004456,
      "learning_rate": 0.00029643681029014636,
      "loss": 3.9959,
      "step": 35230
    },
    {
      "epoch": 0.07341666666666667,
      "grad_norm": 0.764346182346344,
      "learning_rate": 0.00029643467394305375,
      "loss": 4.0156,
      "step": 35240
    },
    {
      "epoch": 0.0734375,
      "grad_norm": 0.8342650532722473,
      "learning_rate": 0.00029643253696342133,
      "loss": 4.081,
      "step": 35250
    },
    {
      "epoch": 0.07345833333333333,
      "grad_norm": 0.7679824233055115,
      "learning_rate": 0.0002964303993512583,
      "loss": 4.0621,
      "step": 35260
    },
    {
      "epoch": 0.07347916666666666,
      "grad_norm": 0.7782136797904968,
      "learning_rate": 0.0002964282611065739,
      "loss": 4.0428,
      "step": 35270
    },
    {
      "epoch": 0.0735,
      "grad_norm": 0.7785505056381226,
      "learning_rate": 0.0002964261222293774,
      "loss": 4.0503,
      "step": 35280
    },
    {
      "epoch": 0.07352083333333333,
      "grad_norm": 0.7279910445213318,
      "learning_rate": 0.000296423982719678,
      "loss": 4.0955,
      "step": 35290
    },
    {
      "epoch": 0.07354166666666667,
      "grad_norm": 0.921248733997345,
      "learning_rate": 0.00029642184257748494,
      "loss": 4.0726,
      "step": 35300
    },
    {
      "epoch": 0.0735625,
      "grad_norm": 0.8328261375427246,
      "learning_rate": 0.0002964197018028075,
      "loss": 3.8495,
      "step": 35310
    },
    {
      "epoch": 0.07358333333333333,
      "grad_norm": 0.6995542645454407,
      "learning_rate": 0.0002964175603956549,
      "loss": 3.9838,
      "step": 35320
    },
    {
      "epoch": 0.07360416666666666,
      "grad_norm": 0.8579522371292114,
      "learning_rate": 0.00029641541835603635,
      "loss": 3.9773,
      "step": 35330
    },
    {
      "epoch": 0.073625,
      "grad_norm": 0.9279875755310059,
      "learning_rate": 0.00029641327568396116,
      "loss": 3.9344,
      "step": 35340
    },
    {
      "epoch": 0.07364583333333333,
      "grad_norm": 0.9031012654304504,
      "learning_rate": 0.00029641113237943863,
      "loss": 4.1148,
      "step": 35350
    },
    {
      "epoch": 0.07366666666666667,
      "grad_norm": 0.7149977684020996,
      "learning_rate": 0.00029640898844247794,
      "loss": 4.0075,
      "step": 35360
    },
    {
      "epoch": 0.0736875,
      "grad_norm": 0.7964022755622864,
      "learning_rate": 0.00029640684387308836,
      "loss": 4.0426,
      "step": 35370
    },
    {
      "epoch": 0.07370833333333333,
      "grad_norm": 0.8121726512908936,
      "learning_rate": 0.00029640469867127915,
      "loss": 3.9129,
      "step": 35380
    },
    {
      "epoch": 0.07372916666666667,
      "grad_norm": 0.755895733833313,
      "learning_rate": 0.00029640255283705963,
      "loss": 3.9886,
      "step": 35390
    },
    {
      "epoch": 0.07375,
      "grad_norm": 0.7760776877403259,
      "learning_rate": 0.00029640040637043903,
      "loss": 4.0111,
      "step": 35400
    },
    {
      "epoch": 0.07377083333333333,
      "grad_norm": 0.9190277457237244,
      "learning_rate": 0.0002963982592714266,
      "loss": 4.1372,
      "step": 35410
    },
    {
      "epoch": 0.07379166666666667,
      "grad_norm": 0.861737847328186,
      "learning_rate": 0.00029639611154003165,
      "loss": 3.989,
      "step": 35420
    },
    {
      "epoch": 0.0738125,
      "grad_norm": 0.8301714658737183,
      "learning_rate": 0.0002963939631762634,
      "loss": 3.9743,
      "step": 35430
    },
    {
      "epoch": 0.07383333333333333,
      "grad_norm": 0.7350360155105591,
      "learning_rate": 0.0002963918141801312,
      "loss": 3.9452,
      "step": 35440
    },
    {
      "epoch": 0.07385416666666667,
      "grad_norm": 0.8459472060203552,
      "learning_rate": 0.00029638966455164433,
      "loss": 4.1029,
      "step": 35450
    },
    {
      "epoch": 0.073875,
      "grad_norm": 0.8764699697494507,
      "learning_rate": 0.0002963875142908121,
      "loss": 3.9305,
      "step": 35460
    },
    {
      "epoch": 0.07389583333333333,
      "grad_norm": 0.7529707551002502,
      "learning_rate": 0.00029638536339764366,
      "loss": 3.9423,
      "step": 35470
    },
    {
      "epoch": 0.07391666666666667,
      "grad_norm": 0.872035562992096,
      "learning_rate": 0.00029638321187214846,
      "loss": 3.9666,
      "step": 35480
    },
    {
      "epoch": 0.0739375,
      "grad_norm": 0.8320852518081665,
      "learning_rate": 0.0002963810597143357,
      "loss": 4.242,
      "step": 35490
    },
    {
      "epoch": 0.07395833333333333,
      "grad_norm": 0.7556165456771851,
      "learning_rate": 0.0002963789069242147,
      "loss": 4.1042,
      "step": 35500
    },
    {
      "epoch": 0.07397916666666667,
      "grad_norm": 0.7183017134666443,
      "learning_rate": 0.00029637675350179476,
      "loss": 3.8368,
      "step": 35510
    },
    {
      "epoch": 0.074,
      "grad_norm": 0.8620455861091614,
      "learning_rate": 0.0002963745994470852,
      "loss": 3.9178,
      "step": 35520
    },
    {
      "epoch": 0.07402083333333333,
      "grad_norm": 0.7336896061897278,
      "learning_rate": 0.00029637244476009533,
      "loss": 4.1052,
      "step": 35530
    },
    {
      "epoch": 0.07404166666666667,
      "grad_norm": 0.848529577255249,
      "learning_rate": 0.00029637028944083443,
      "loss": 4.0174,
      "step": 35540
    },
    {
      "epoch": 0.0740625,
      "grad_norm": 1.0079830884933472,
      "learning_rate": 0.00029636813348931176,
      "loss": 4.097,
      "step": 35550
    },
    {
      "epoch": 0.07408333333333333,
      "grad_norm": 0.8438879251480103,
      "learning_rate": 0.00029636597690553676,
      "loss": 4.1545,
      "step": 35560
    },
    {
      "epoch": 0.07410416666666667,
      "grad_norm": 0.7041335105895996,
      "learning_rate": 0.0002963638196895186,
      "loss": 4.0444,
      "step": 35570
    },
    {
      "epoch": 0.074125,
      "grad_norm": 1.1556686162948608,
      "learning_rate": 0.0002963616618412667,
      "loss": 4.0741,
      "step": 35580
    },
    {
      "epoch": 0.07414583333333333,
      "grad_norm": 0.8188339471817017,
      "learning_rate": 0.00029635950336079044,
      "loss": 4.1731,
      "step": 35590
    },
    {
      "epoch": 0.07416666666666667,
      "grad_norm": 0.9124742746353149,
      "learning_rate": 0.00029635734424809896,
      "loss": 4.0729,
      "step": 35600
    },
    {
      "epoch": 0.0741875,
      "grad_norm": 0.8401139378547668,
      "learning_rate": 0.0002963551845032017,
      "loss": 4.0203,
      "step": 35610
    },
    {
      "epoch": 0.07420833333333333,
      "grad_norm": 0.7535160779953003,
      "learning_rate": 0.00029635302412610797,
      "loss": 3.9809,
      "step": 35620
    },
    {
      "epoch": 0.07422916666666667,
      "grad_norm": 0.8272704482078552,
      "learning_rate": 0.0002963508631168271,
      "loss": 3.9414,
      "step": 35630
    },
    {
      "epoch": 0.07425,
      "grad_norm": 0.8048223257064819,
      "learning_rate": 0.0002963487014753685,
      "loss": 3.895,
      "step": 35640
    },
    {
      "epoch": 0.07427083333333333,
      "grad_norm": 0.6860840320587158,
      "learning_rate": 0.00029634653920174143,
      "loss": 3.9506,
      "step": 35650
    },
    {
      "epoch": 0.07429166666666667,
      "grad_norm": 0.848264217376709,
      "learning_rate": 0.00029634437629595515,
      "loss": 4.1003,
      "step": 35660
    },
    {
      "epoch": 0.0743125,
      "grad_norm": 0.8062774538993835,
      "learning_rate": 0.00029634221275801916,
      "loss": 3.8597,
      "step": 35670
    },
    {
      "epoch": 0.07433333333333333,
      "grad_norm": 0.8030310273170471,
      "learning_rate": 0.0002963400485879427,
      "loss": 3.9421,
      "step": 35680
    },
    {
      "epoch": 0.07435416666666667,
      "grad_norm": 0.8365631103515625,
      "learning_rate": 0.0002963378837857352,
      "loss": 3.9952,
      "step": 35690
    },
    {
      "epoch": 0.074375,
      "grad_norm": 0.9957694411277771,
      "learning_rate": 0.000296335718351406,
      "loss": 4.0493,
      "step": 35700
    },
    {
      "epoch": 0.07439583333333333,
      "grad_norm": 0.7643691897392273,
      "learning_rate": 0.0002963335522849643,
      "loss": 4.2126,
      "step": 35710
    },
    {
      "epoch": 0.07441666666666667,
      "grad_norm": 0.8527258634567261,
      "learning_rate": 0.00029633138558641967,
      "loss": 4.12,
      "step": 35720
    },
    {
      "epoch": 0.0744375,
      "grad_norm": 0.877537190914154,
      "learning_rate": 0.00029632921825578136,
      "loss": 4.0202,
      "step": 35730
    },
    {
      "epoch": 0.07445833333333333,
      "grad_norm": 0.726547360420227,
      "learning_rate": 0.0002963270502930587,
      "loss": 4.1443,
      "step": 35740
    },
    {
      "epoch": 0.07447916666666667,
      "grad_norm": 0.7473787069320679,
      "learning_rate": 0.00029632488169826116,
      "loss": 3.9678,
      "step": 35750
    },
    {
      "epoch": 0.0745,
      "grad_norm": 0.7974646091461182,
      "learning_rate": 0.00029632271247139803,
      "loss": 3.9869,
      "step": 35760
    },
    {
      "epoch": 0.07452083333333333,
      "grad_norm": 0.7550406455993652,
      "learning_rate": 0.00029632054261247864,
      "loss": 3.9846,
      "step": 35770
    },
    {
      "epoch": 0.07454166666666667,
      "grad_norm": 0.842200756072998,
      "learning_rate": 0.00029631837212151254,
      "loss": 3.9496,
      "step": 35780
    },
    {
      "epoch": 0.0745625,
      "grad_norm": 0.779826819896698,
      "learning_rate": 0.00029631620099850893,
      "loss": 3.9756,
      "step": 35790
    },
    {
      "epoch": 0.07458333333333333,
      "grad_norm": 0.7636182308197021,
      "learning_rate": 0.00029631402924347726,
      "loss": 3.994,
      "step": 35800
    },
    {
      "epoch": 0.07460416666666667,
      "grad_norm": 0.7469265460968018,
      "learning_rate": 0.00029631185685642685,
      "loss": 3.908,
      "step": 35810
    },
    {
      "epoch": 0.074625,
      "grad_norm": 0.9977638125419617,
      "learning_rate": 0.0002963096838373672,
      "loss": 3.9486,
      "step": 35820
    },
    {
      "epoch": 0.07464583333333333,
      "grad_norm": 0.776183009147644,
      "learning_rate": 0.0002963075101863076,
      "loss": 3.9755,
      "step": 35830
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 0.8263929486274719,
      "learning_rate": 0.0002963053359032575,
      "loss": 4.0692,
      "step": 35840
    },
    {
      "epoch": 0.0746875,
      "grad_norm": 0.8160837888717651,
      "learning_rate": 0.0002963031609882262,
      "loss": 4.0548,
      "step": 35850
    },
    {
      "epoch": 0.07470833333333333,
      "grad_norm": 0.7614683508872986,
      "learning_rate": 0.0002963009854412232,
      "loss": 4.0331,
      "step": 35860
    },
    {
      "epoch": 0.07472916666666667,
      "grad_norm": 0.7082501649856567,
      "learning_rate": 0.00029629880926225786,
      "loss": 4.0458,
      "step": 35870
    },
    {
      "epoch": 0.07475,
      "grad_norm": 0.7138420343399048,
      "learning_rate": 0.00029629663245133955,
      "loss": 4.002,
      "step": 35880
    },
    {
      "epoch": 0.07477083333333333,
      "grad_norm": 0.7747806310653687,
      "learning_rate": 0.0002962944550084776,
      "loss": 4.0928,
      "step": 35890
    },
    {
      "epoch": 0.07479166666666667,
      "grad_norm": 0.8437674641609192,
      "learning_rate": 0.00029629227693368164,
      "loss": 4.1077,
      "step": 35900
    },
    {
      "epoch": 0.0748125,
      "grad_norm": 0.7835533022880554,
      "learning_rate": 0.00029629009822696096,
      "loss": 3.8493,
      "step": 35910
    },
    {
      "epoch": 0.07483333333333334,
      "grad_norm": 0.8468340635299683,
      "learning_rate": 0.0002962879188883249,
      "loss": 4.1164,
      "step": 35920
    },
    {
      "epoch": 0.07485416666666667,
      "grad_norm": 0.8024889826774597,
      "learning_rate": 0.000296285738917783,
      "loss": 4.0396,
      "step": 35930
    },
    {
      "epoch": 0.074875,
      "grad_norm": 0.7800811529159546,
      "learning_rate": 0.00029628355831534453,
      "loss": 4.0764,
      "step": 35940
    },
    {
      "epoch": 0.07489583333333333,
      "grad_norm": 0.7939956188201904,
      "learning_rate": 0.00029628137708101904,
      "loss": 3.9092,
      "step": 35950
    },
    {
      "epoch": 0.07491666666666667,
      "grad_norm": 0.671669065952301,
      "learning_rate": 0.00029627919521481587,
      "loss": 4.2676,
      "step": 35960
    },
    {
      "epoch": 0.0749375,
      "grad_norm": 0.7691323757171631,
      "learning_rate": 0.0002962770127167445,
      "loss": 4.0801,
      "step": 35970
    },
    {
      "epoch": 0.07495833333333334,
      "grad_norm": 0.7836569547653198,
      "learning_rate": 0.00029627482958681435,
      "loss": 3.9632,
      "step": 35980
    },
    {
      "epoch": 0.07497916666666667,
      "grad_norm": 0.8050476312637329,
      "learning_rate": 0.0002962726458250348,
      "loss": 4.035,
      "step": 35990
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.7917085289955139,
      "learning_rate": 0.0002962704614314154,
      "loss": 4.0497,
      "step": 36000
    },
    {
      "epoch": 0.075,
      "eval_loss": 4.300467491149902,
      "eval_runtime": 9.4204,
      "eval_samples_per_second": 1.062,
      "eval_steps_per_second": 0.318,
      "step": 36000
    },
    {
      "epoch": 0.07502083333333333,
      "grad_norm": 0.738937258720398,
      "learning_rate": 0.0002962682764059654,
      "loss": 4.1442,
      "step": 36010
    },
    {
      "epoch": 0.07504166666666667,
      "grad_norm": 0.8388813138008118,
      "learning_rate": 0.00029626609074869437,
      "loss": 4.0227,
      "step": 36020
    },
    {
      "epoch": 0.0750625,
      "grad_norm": 0.8582183718681335,
      "learning_rate": 0.00029626390445961176,
      "loss": 4.1786,
      "step": 36030
    },
    {
      "epoch": 0.07508333333333334,
      "grad_norm": 1.169152021408081,
      "learning_rate": 0.000296261717538727,
      "loss": 3.8671,
      "step": 36040
    },
    {
      "epoch": 0.07510416666666667,
      "grad_norm": 0.8342555165290833,
      "learning_rate": 0.0002962595299860494,
      "loss": 3.9194,
      "step": 36050
    },
    {
      "epoch": 0.075125,
      "grad_norm": 0.944935142993927,
      "learning_rate": 0.0002962573418015886,
      "loss": 3.8282,
      "step": 36060
    },
    {
      "epoch": 0.07514583333333333,
      "grad_norm": 0.7791286706924438,
      "learning_rate": 0.00029625515298535403,
      "loss": 3.842,
      "step": 36070
    },
    {
      "epoch": 0.07516666666666667,
      "grad_norm": 0.7628130912780762,
      "learning_rate": 0.00029625296353735504,
      "loss": 3.9589,
      "step": 36080
    },
    {
      "epoch": 0.0751875,
      "grad_norm": 0.7664324045181274,
      "learning_rate": 0.0002962507734576011,
      "loss": 4.0628,
      "step": 36090
    },
    {
      "epoch": 0.07520833333333334,
      "grad_norm": 0.8196033835411072,
      "learning_rate": 0.00029624858274610174,
      "loss": 3.9964,
      "step": 36100
    },
    {
      "epoch": 0.07522916666666667,
      "grad_norm": 0.8291841149330139,
      "learning_rate": 0.0002962463914028664,
      "loss": 4.1657,
      "step": 36110
    },
    {
      "epoch": 0.07525,
      "grad_norm": 0.9361351728439331,
      "learning_rate": 0.00029624419942790456,
      "loss": 3.8748,
      "step": 36120
    },
    {
      "epoch": 0.07527083333333333,
      "grad_norm": 0.7884825468063354,
      "learning_rate": 0.0002962420068212256,
      "loss": 4.0064,
      "step": 36130
    },
    {
      "epoch": 0.07529166666666667,
      "grad_norm": 0.8539175391197205,
      "learning_rate": 0.0002962398135828391,
      "loss": 3.9583,
      "step": 36140
    },
    {
      "epoch": 0.0753125,
      "grad_norm": 0.8156542181968689,
      "learning_rate": 0.0002962376197127545,
      "loss": 3.9116,
      "step": 36150
    },
    {
      "epoch": 0.07533333333333334,
      "grad_norm": 0.8740443587303162,
      "learning_rate": 0.0002962354252109812,
      "loss": 3.9896,
      "step": 36160
    },
    {
      "epoch": 0.07535416666666667,
      "grad_norm": 0.8404247760772705,
      "learning_rate": 0.00029623323007752883,
      "loss": 4.1796,
      "step": 36170
    },
    {
      "epoch": 0.075375,
      "grad_norm": 0.8641976714134216,
      "learning_rate": 0.0002962310343124068,
      "loss": 3.8365,
      "step": 36180
    },
    {
      "epoch": 0.07539583333333333,
      "grad_norm": 0.8248933553695679,
      "learning_rate": 0.0002962288379156245,
      "loss": 4.1353,
      "step": 36190
    },
    {
      "epoch": 0.07541666666666667,
      "grad_norm": 0.7754831910133362,
      "learning_rate": 0.0002962266408871916,
      "loss": 3.856,
      "step": 36200
    },
    {
      "epoch": 0.0754375,
      "grad_norm": 0.8486154079437256,
      "learning_rate": 0.00029622444322711743,
      "loss": 3.8701,
      "step": 36210
    },
    {
      "epoch": 0.07545833333333334,
      "grad_norm": 0.7412910461425781,
      "learning_rate": 0.00029622224493541154,
      "loss": 4.0491,
      "step": 36220
    },
    {
      "epoch": 0.07547916666666667,
      "grad_norm": 0.7294564247131348,
      "learning_rate": 0.00029622004601208345,
      "loss": 3.9166,
      "step": 36230
    },
    {
      "epoch": 0.0755,
      "grad_norm": 0.8076752424240112,
      "learning_rate": 0.0002962178464571426,
      "loss": 4.0313,
      "step": 36240
    },
    {
      "epoch": 0.07552083333333333,
      "grad_norm": 0.8667954206466675,
      "learning_rate": 0.00029621564627059857,
      "loss": 4.0789,
      "step": 36250
    },
    {
      "epoch": 0.07554166666666666,
      "grad_norm": 0.7598586082458496,
      "learning_rate": 0.0002962134454524608,
      "loss": 4.0216,
      "step": 36260
    },
    {
      "epoch": 0.0755625,
      "grad_norm": 0.9358484148979187,
      "learning_rate": 0.00029621124400273886,
      "loss": 4.0297,
      "step": 36270
    },
    {
      "epoch": 0.07558333333333334,
      "grad_norm": 0.849852979183197,
      "learning_rate": 0.0002962090419214422,
      "loss": 4.1254,
      "step": 36280
    },
    {
      "epoch": 0.07560416666666667,
      "grad_norm": 0.7753157019615173,
      "learning_rate": 0.00029620683920858037,
      "loss": 3.9684,
      "step": 36290
    },
    {
      "epoch": 0.075625,
      "grad_norm": 0.84865802526474,
      "learning_rate": 0.0002962046358641628,
      "loss": 4.0145,
      "step": 36300
    },
    {
      "epoch": 0.07564583333333333,
      "grad_norm": 0.9601401686668396,
      "learning_rate": 0.00029620243188819916,
      "loss": 4.1134,
      "step": 36310
    },
    {
      "epoch": 0.07566666666666666,
      "grad_norm": 0.9930610060691833,
      "learning_rate": 0.00029620022728069886,
      "loss": 3.8587,
      "step": 36320
    },
    {
      "epoch": 0.0756875,
      "grad_norm": 0.7303016781806946,
      "learning_rate": 0.0002961980220416714,
      "loss": 4.1542,
      "step": 36330
    },
    {
      "epoch": 0.07570833333333334,
      "grad_norm": 0.7336821556091309,
      "learning_rate": 0.0002961958161711264,
      "loss": 4.0211,
      "step": 36340
    },
    {
      "epoch": 0.07572916666666667,
      "grad_norm": 0.9012675285339355,
      "learning_rate": 0.00029619360966907335,
      "loss": 4.027,
      "step": 36350
    },
    {
      "epoch": 0.07575,
      "grad_norm": 0.7260995507240295,
      "learning_rate": 0.00029619140253552174,
      "loss": 4.0522,
      "step": 36360
    },
    {
      "epoch": 0.07577083333333333,
      "grad_norm": 0.7804322838783264,
      "learning_rate": 0.0002961891947704812,
      "loss": 3.9825,
      "step": 36370
    },
    {
      "epoch": 0.07579166666666666,
      "grad_norm": 0.728702962398529,
      "learning_rate": 0.0002961869863739611,
      "loss": 3.7808,
      "step": 36380
    },
    {
      "epoch": 0.0758125,
      "grad_norm": 0.7990889549255371,
      "learning_rate": 0.00029618477734597113,
      "loss": 4.0985,
      "step": 36390
    },
    {
      "epoch": 0.07583333333333334,
      "grad_norm": 0.8330264687538147,
      "learning_rate": 0.0002961825676865208,
      "loss": 3.9572,
      "step": 36400
    },
    {
      "epoch": 0.07585416666666667,
      "grad_norm": 0.7718349099159241,
      "learning_rate": 0.0002961803573956197,
      "loss": 3.902,
      "step": 36410
    },
    {
      "epoch": 0.075875,
      "grad_norm": 0.8250359296798706,
      "learning_rate": 0.0002961781464732772,
      "loss": 4.156,
      "step": 36420
    },
    {
      "epoch": 0.07589583333333333,
      "grad_norm": 0.8182675838470459,
      "learning_rate": 0.00029617593491950306,
      "loss": 3.907,
      "step": 36430
    },
    {
      "epoch": 0.07591666666666666,
      "grad_norm": 0.7601507306098938,
      "learning_rate": 0.0002961737227343067,
      "loss": 3.9524,
      "step": 36440
    },
    {
      "epoch": 0.0759375,
      "grad_norm": 0.8122261166572571,
      "learning_rate": 0.0002961715099176977,
      "loss": 3.825,
      "step": 36450
    },
    {
      "epoch": 0.07595833333333334,
      "grad_norm": 0.8997005820274353,
      "learning_rate": 0.0002961692964696857,
      "loss": 4.0245,
      "step": 36460
    },
    {
      "epoch": 0.07597916666666667,
      "grad_norm": 0.9487331509590149,
      "learning_rate": 0.00029616708239028016,
      "loss": 4.0542,
      "step": 36470
    },
    {
      "epoch": 0.076,
      "grad_norm": 0.8770477771759033,
      "learning_rate": 0.00029616486767949067,
      "loss": 3.8533,
      "step": 36480
    },
    {
      "epoch": 0.07602083333333333,
      "grad_norm": 0.7269647717475891,
      "learning_rate": 0.0002961626523373268,
      "loss": 3.9401,
      "step": 36490
    },
    {
      "epoch": 0.07604166666666666,
      "grad_norm": 0.8264038562774658,
      "learning_rate": 0.00029616043636379813,
      "loss": 3.9713,
      "step": 36500
    },
    {
      "epoch": 0.0760625,
      "grad_norm": 0.8643702864646912,
      "learning_rate": 0.0002961582197589142,
      "loss": 4.0293,
      "step": 36510
    },
    {
      "epoch": 0.07608333333333334,
      "grad_norm": 0.7657296061515808,
      "learning_rate": 0.0002961560025226847,
      "loss": 3.9293,
      "step": 36520
    },
    {
      "epoch": 0.07610416666666667,
      "grad_norm": 0.7731497883796692,
      "learning_rate": 0.0002961537846551191,
      "loss": 3.7988,
      "step": 36530
    },
    {
      "epoch": 0.076125,
      "grad_norm": 0.8306047916412354,
      "learning_rate": 0.00029615156615622697,
      "loss": 4.0641,
      "step": 36540
    },
    {
      "epoch": 0.07614583333333333,
      "grad_norm": 0.8543121218681335,
      "learning_rate": 0.0002961493470260179,
      "loss": 4.0031,
      "step": 36550
    },
    {
      "epoch": 0.07616666666666666,
      "grad_norm": 0.8059775829315186,
      "learning_rate": 0.0002961471272645016,
      "loss": 4.0376,
      "step": 36560
    },
    {
      "epoch": 0.0761875,
      "grad_norm": 0.785234808921814,
      "learning_rate": 0.0002961449068716875,
      "loss": 4.1641,
      "step": 36570
    },
    {
      "epoch": 0.07620833333333334,
      "grad_norm": 0.9886530041694641,
      "learning_rate": 0.0002961426858475852,
      "loss": 4.0072,
      "step": 36580
    },
    {
      "epoch": 0.07622916666666667,
      "grad_norm": 0.8501163721084595,
      "learning_rate": 0.0002961404641922044,
      "loss": 4.1371,
      "step": 36590
    },
    {
      "epoch": 0.07625,
      "grad_norm": 0.7805602550506592,
      "learning_rate": 0.00029613824190555466,
      "loss": 3.9913,
      "step": 36600
    },
    {
      "epoch": 0.07627083333333333,
      "grad_norm": 0.7363852858543396,
      "learning_rate": 0.0002961360189876455,
      "loss": 3.7785,
      "step": 36610
    },
    {
      "epoch": 0.07629166666666666,
      "grad_norm": 0.8388037085533142,
      "learning_rate": 0.00029613379543848664,
      "loss": 4.0168,
      "step": 36620
    },
    {
      "epoch": 0.0763125,
      "grad_norm": 1.0611220598220825,
      "learning_rate": 0.0002961315712580876,
      "loss": 3.8934,
      "step": 36630
    },
    {
      "epoch": 0.07633333333333334,
      "grad_norm": 0.756959855556488,
      "learning_rate": 0.00029612934644645796,
      "loss": 3.9728,
      "step": 36640
    },
    {
      "epoch": 0.07635416666666667,
      "grad_norm": 0.7098036408424377,
      "learning_rate": 0.0002961271210036075,
      "loss": 4.0563,
      "step": 36650
    },
    {
      "epoch": 0.076375,
      "grad_norm": 0.7992086410522461,
      "learning_rate": 0.00029612489492954566,
      "loss": 4.1365,
      "step": 36660
    },
    {
      "epoch": 0.07639583333333333,
      "grad_norm": 0.7532985210418701,
      "learning_rate": 0.00029612266822428207,
      "loss": 4.1396,
      "step": 36670
    },
    {
      "epoch": 0.07641666666666666,
      "grad_norm": 0.7035313844680786,
      "learning_rate": 0.00029612044088782644,
      "loss": 3.9514,
      "step": 36680
    },
    {
      "epoch": 0.0764375,
      "grad_norm": 0.775600254535675,
      "learning_rate": 0.00029611821292018837,
      "loss": 4.1449,
      "step": 36690
    },
    {
      "epoch": 0.07645833333333334,
      "grad_norm": 0.7044334411621094,
      "learning_rate": 0.00029611598432137745,
      "loss": 4.0229,
      "step": 36700
    },
    {
      "epoch": 0.07647916666666667,
      "grad_norm": 0.8057827949523926,
      "learning_rate": 0.0002961137550914033,
      "loss": 4.044,
      "step": 36710
    },
    {
      "epoch": 0.0765,
      "grad_norm": 0.7750446796417236,
      "learning_rate": 0.0002961115252302755,
      "loss": 3.8684,
      "step": 36720
    },
    {
      "epoch": 0.07652083333333333,
      "grad_norm": 0.8386626243591309,
      "learning_rate": 0.0002961092947380038,
      "loss": 4.1276,
      "step": 36730
    },
    {
      "epoch": 0.07654166666666666,
      "grad_norm": 0.7107052206993103,
      "learning_rate": 0.0002961070636145978,
      "loss": 3.8592,
      "step": 36740
    },
    {
      "epoch": 0.0765625,
      "grad_norm": 0.9275119304656982,
      "learning_rate": 0.0002961048318600671,
      "loss": 4.0631,
      "step": 36750
    },
    {
      "epoch": 0.07658333333333334,
      "grad_norm": 0.8354018926620483,
      "learning_rate": 0.0002961025994744214,
      "loss": 3.9175,
      "step": 36760
    },
    {
      "epoch": 0.07660416666666667,
      "grad_norm": 0.7953336238861084,
      "learning_rate": 0.0002961003664576702,
      "loss": 3.8631,
      "step": 36770
    },
    {
      "epoch": 0.076625,
      "grad_norm": 0.924675464630127,
      "learning_rate": 0.0002960981328098233,
      "loss": 3.953,
      "step": 36780
    },
    {
      "epoch": 0.07664583333333333,
      "grad_norm": 0.8692046999931335,
      "learning_rate": 0.00029609589853089033,
      "loss": 3.9594,
      "step": 36790
    },
    {
      "epoch": 0.07666666666666666,
      "grad_norm": 0.8744808435440063,
      "learning_rate": 0.0002960936636208809,
      "loss": 4.0827,
      "step": 36800
    },
    {
      "epoch": 0.0766875,
      "grad_norm": 0.8684138059616089,
      "learning_rate": 0.0002960914280798047,
      "loss": 3.976,
      "step": 36810
    },
    {
      "epoch": 0.07670833333333334,
      "grad_norm": 0.8174667954444885,
      "learning_rate": 0.00029608919190767126,
      "loss": 4.158,
      "step": 36820
    },
    {
      "epoch": 0.07672916666666667,
      "grad_norm": 0.7397491335868835,
      "learning_rate": 0.00029608695510449043,
      "loss": 3.9984,
      "step": 36830
    },
    {
      "epoch": 0.07675,
      "grad_norm": 0.8393524289131165,
      "learning_rate": 0.0002960847176702717,
      "loss": 3.9714,
      "step": 36840
    },
    {
      "epoch": 0.07677083333333333,
      "grad_norm": 0.6774730086326599,
      "learning_rate": 0.00029608247960502483,
      "loss": 4.0747,
      "step": 36850
    },
    {
      "epoch": 0.07679166666666666,
      "grad_norm": 0.8538318872451782,
      "learning_rate": 0.0002960802409087596,
      "loss": 4.055,
      "step": 36860
    },
    {
      "epoch": 0.0768125,
      "grad_norm": 0.81735759973526,
      "learning_rate": 0.00029607800158148534,
      "loss": 4.1263,
      "step": 36870
    },
    {
      "epoch": 0.07683333333333334,
      "grad_norm": 0.9084687829017639,
      "learning_rate": 0.00029607576162321206,
      "loss": 3.9921,
      "step": 36880
    },
    {
      "epoch": 0.07685416666666667,
      "grad_norm": 0.7403016686439514,
      "learning_rate": 0.00029607352103394927,
      "loss": 4.0089,
      "step": 36890
    },
    {
      "epoch": 0.076875,
      "grad_norm": 0.7804655432701111,
      "learning_rate": 0.00029607127981370673,
      "loss": 3.9077,
      "step": 36900
    },
    {
      "epoch": 0.07689583333333333,
      "grad_norm": 0.7995839715003967,
      "learning_rate": 0.0002960690379624941,
      "loss": 3.9604,
      "step": 36910
    },
    {
      "epoch": 0.07691666666666666,
      "grad_norm": 0.7769097685813904,
      "learning_rate": 0.000296066795480321,
      "loss": 3.9761,
      "step": 36920
    },
    {
      "epoch": 0.0769375,
      "grad_norm": 0.8375133275985718,
      "learning_rate": 0.00029606455236719714,
      "loss": 4.0559,
      "step": 36930
    },
    {
      "epoch": 0.07695833333333334,
      "grad_norm": 0.7096104621887207,
      "learning_rate": 0.0002960623086231323,
      "loss": 4.0807,
      "step": 36940
    },
    {
      "epoch": 0.07697916666666667,
      "grad_norm": 0.8935699462890625,
      "learning_rate": 0.000296060064248136,
      "loss": 3.9905,
      "step": 36950
    },
    {
      "epoch": 0.077,
      "grad_norm": 0.8278427124023438,
      "learning_rate": 0.00029605781924221813,
      "loss": 3.8517,
      "step": 36960
    },
    {
      "epoch": 0.07702083333333333,
      "grad_norm": 0.7334986925125122,
      "learning_rate": 0.0002960555736053882,
      "loss": 4.1174,
      "step": 36970
    },
    {
      "epoch": 0.07704166666666666,
      "grad_norm": 0.8122662305831909,
      "learning_rate": 0.00029605332733765606,
      "loss": 4.0126,
      "step": 36980
    },
    {
      "epoch": 0.0770625,
      "grad_norm": 0.8243107795715332,
      "learning_rate": 0.0002960510804390314,
      "loss": 4.1348,
      "step": 36990
    },
    {
      "epoch": 0.07708333333333334,
      "grad_norm": 0.9356787204742432,
      "learning_rate": 0.00029604883290952383,
      "loss": 3.9832,
      "step": 37000
    },
    {
      "epoch": 0.07708333333333334,
      "eval_loss": 4.303212642669678,
      "eval_runtime": 9.645,
      "eval_samples_per_second": 1.037,
      "eval_steps_per_second": 0.311,
      "step": 37000
    },
    {
      "epoch": 0.07710416666666667,
      "grad_norm": 0.8894367218017578,
      "learning_rate": 0.00029604658474914315,
      "loss": 3.8955,
      "step": 37010
    },
    {
      "epoch": 0.077125,
      "grad_norm": 0.7301793098449707,
      "learning_rate": 0.000296044335957899,
      "loss": 4.0434,
      "step": 37020
    },
    {
      "epoch": 0.07714583333333333,
      "grad_norm": 0.8568573594093323,
      "learning_rate": 0.00029604208653580114,
      "loss": 3.8931,
      "step": 37030
    },
    {
      "epoch": 0.07716666666666666,
      "grad_norm": 0.8391117453575134,
      "learning_rate": 0.00029603983648285927,
      "loss": 3.9051,
      "step": 37040
    },
    {
      "epoch": 0.0771875,
      "grad_norm": 0.784164309501648,
      "learning_rate": 0.0002960375857990831,
      "loss": 3.9916,
      "step": 37050
    },
    {
      "epoch": 0.07720833333333334,
      "grad_norm": 0.7964832782745361,
      "learning_rate": 0.00029603533448448237,
      "loss": 4.0086,
      "step": 37060
    },
    {
      "epoch": 0.07722916666666667,
      "grad_norm": 0.8854414224624634,
      "learning_rate": 0.0002960330825390668,
      "loss": 3.83,
      "step": 37070
    },
    {
      "epoch": 0.07725,
      "grad_norm": 0.7870660424232483,
      "learning_rate": 0.00029603082996284614,
      "loss": 4.067,
      "step": 37080
    },
    {
      "epoch": 0.07727083333333333,
      "grad_norm": 1.0131460428237915,
      "learning_rate": 0.0002960285767558301,
      "loss": 4.0958,
      "step": 37090
    },
    {
      "epoch": 0.07729166666666666,
      "grad_norm": 0.8952473402023315,
      "learning_rate": 0.0002960263229180284,
      "loss": 3.9738,
      "step": 37100
    },
    {
      "epoch": 0.0773125,
      "grad_norm": 0.7505180835723877,
      "learning_rate": 0.0002960240684494508,
      "loss": 3.9285,
      "step": 37110
    },
    {
      "epoch": 0.07733333333333334,
      "grad_norm": 0.7252408266067505,
      "learning_rate": 0.000296021813350107,
      "loss": 4.0219,
      "step": 37120
    },
    {
      "epoch": 0.07735416666666667,
      "grad_norm": 0.9749805927276611,
      "learning_rate": 0.00029601955762000677,
      "loss": 3.9056,
      "step": 37130
    },
    {
      "epoch": 0.077375,
      "grad_norm": 0.7523090243339539,
      "learning_rate": 0.00029601730125915985,
      "loss": 3.9569,
      "step": 37140
    },
    {
      "epoch": 0.07739583333333333,
      "grad_norm": 0.7962819337844849,
      "learning_rate": 0.000296015044267576,
      "loss": 4.0049,
      "step": 37150
    },
    {
      "epoch": 0.07741666666666666,
      "grad_norm": 0.7877984642982483,
      "learning_rate": 0.00029601278664526494,
      "loss": 3.9931,
      "step": 37160
    },
    {
      "epoch": 0.0774375,
      "grad_norm": 0.8227845430374146,
      "learning_rate": 0.0002960105283922364,
      "loss": 4.0331,
      "step": 37170
    },
    {
      "epoch": 0.07745833333333334,
      "grad_norm": 0.7852182984352112,
      "learning_rate": 0.00029600826950850026,
      "loss": 3.955,
      "step": 37180
    },
    {
      "epoch": 0.07747916666666667,
      "grad_norm": 0.8177304863929749,
      "learning_rate": 0.0002960060099940661,
      "loss": 3.9852,
      "step": 37190
    },
    {
      "epoch": 0.0775,
      "grad_norm": 0.7786300778388977,
      "learning_rate": 0.0002960037498489438,
      "loss": 4.1275,
      "step": 37200
    },
    {
      "epoch": 0.07752083333333333,
      "grad_norm": 0.7030205130577087,
      "learning_rate": 0.00029600148907314315,
      "loss": 4.0328,
      "step": 37210
    },
    {
      "epoch": 0.07754166666666666,
      "grad_norm": 0.8485303521156311,
      "learning_rate": 0.0002959992276666738,
      "loss": 3.936,
      "step": 37220
    },
    {
      "epoch": 0.0775625,
      "grad_norm": 0.7638468146324158,
      "learning_rate": 0.0002959969656295456,
      "loss": 3.9583,
      "step": 37230
    },
    {
      "epoch": 0.07758333333333334,
      "grad_norm": 0.7291339635848999,
      "learning_rate": 0.0002959947029617683,
      "loss": 4.0612,
      "step": 37240
    },
    {
      "epoch": 0.07760416666666667,
      "grad_norm": 0.7313277125358582,
      "learning_rate": 0.00029599243966335165,
      "loss": 3.9409,
      "step": 37250
    },
    {
      "epoch": 0.077625,
      "grad_norm": 0.7537336945533752,
      "learning_rate": 0.00029599017573430546,
      "loss": 4.0731,
      "step": 37260
    },
    {
      "epoch": 0.07764583333333333,
      "grad_norm": 0.7785717248916626,
      "learning_rate": 0.0002959879111746395,
      "loss": 4.1558,
      "step": 37270
    },
    {
      "epoch": 0.07766666666666666,
      "grad_norm": 0.7225485444068909,
      "learning_rate": 0.0002959856459843635,
      "loss": 4.0801,
      "step": 37280
    },
    {
      "epoch": 0.0776875,
      "grad_norm": 0.8311878442764282,
      "learning_rate": 0.0002959833801634874,
      "loss": 4.0419,
      "step": 37290
    },
    {
      "epoch": 0.07770833333333334,
      "grad_norm": 0.8113701939582825,
      "learning_rate": 0.00029598111371202077,
      "loss": 4.0289,
      "step": 37300
    },
    {
      "epoch": 0.07772916666666667,
      "grad_norm": 0.7142004370689392,
      "learning_rate": 0.0002959788466299736,
      "loss": 3.913,
      "step": 37310
    },
    {
      "epoch": 0.07775,
      "grad_norm": 0.8352668285369873,
      "learning_rate": 0.00029597657891735555,
      "loss": 3.8792,
      "step": 37320
    },
    {
      "epoch": 0.07777083333333333,
      "grad_norm": 0.856296181678772,
      "learning_rate": 0.00029597431057417647,
      "loss": 4.2033,
      "step": 37330
    },
    {
      "epoch": 0.07779166666666666,
      "grad_norm": 0.8602162003517151,
      "learning_rate": 0.0002959720416004461,
      "loss": 3.9732,
      "step": 37340
    },
    {
      "epoch": 0.0778125,
      "grad_norm": 0.8192880153656006,
      "learning_rate": 0.0002959697719961744,
      "loss": 3.9089,
      "step": 37350
    },
    {
      "epoch": 0.07783333333333334,
      "grad_norm": 0.9011448621749878,
      "learning_rate": 0.00029596750176137096,
      "loss": 3.9583,
      "step": 37360
    },
    {
      "epoch": 0.07785416666666667,
      "grad_norm": 0.8908724188804626,
      "learning_rate": 0.00029596523089604575,
      "loss": 4.1122,
      "step": 37370
    },
    {
      "epoch": 0.077875,
      "grad_norm": 0.7739980220794678,
      "learning_rate": 0.0002959629594002085,
      "loss": 3.9148,
      "step": 37380
    },
    {
      "epoch": 0.07789583333333333,
      "grad_norm": 0.908785879611969,
      "learning_rate": 0.00029596068727386906,
      "loss": 3.8749,
      "step": 37390
    },
    {
      "epoch": 0.07791666666666666,
      "grad_norm": 0.8008125424385071,
      "learning_rate": 0.00029595841451703726,
      "loss": 3.8464,
      "step": 37400
    },
    {
      "epoch": 0.0779375,
      "grad_norm": 0.7783828973770142,
      "learning_rate": 0.00029595614112972276,
      "loss": 4.223,
      "step": 37410
    },
    {
      "epoch": 0.07795833333333334,
      "grad_norm": 0.758909285068512,
      "learning_rate": 0.00029595386711193564,
      "loss": 3.958,
      "step": 37420
    },
    {
      "epoch": 0.07797916666666667,
      "grad_norm": 0.9812204837799072,
      "learning_rate": 0.00029595159246368545,
      "loss": 4.0739,
      "step": 37430
    },
    {
      "epoch": 0.078,
      "grad_norm": 0.8455809950828552,
      "learning_rate": 0.00029594931718498227,
      "loss": 3.955,
      "step": 37440
    },
    {
      "epoch": 0.07802083333333333,
      "grad_norm": 0.8847913146018982,
      "learning_rate": 0.00029594704127583574,
      "loss": 4.0595,
      "step": 37450
    },
    {
      "epoch": 0.07804166666666666,
      "grad_norm": 0.7541486024856567,
      "learning_rate": 0.00029594476473625584,
      "loss": 4.1097,
      "step": 37460
    },
    {
      "epoch": 0.0780625,
      "grad_norm": 0.8574343919754028,
      "learning_rate": 0.0002959424875662523,
      "loss": 3.9557,
      "step": 37470
    },
    {
      "epoch": 0.07808333333333334,
      "grad_norm": 0.8774288296699524,
      "learning_rate": 0.0002959402097658349,
      "loss": 4.0834,
      "step": 37480
    },
    {
      "epoch": 0.07810416666666667,
      "grad_norm": 0.9778867959976196,
      "learning_rate": 0.00029593793133501364,
      "loss": 4.0005,
      "step": 37490
    },
    {
      "epoch": 0.078125,
      "grad_norm": 0.9871839284896851,
      "learning_rate": 0.0002959356522737982,
      "loss": 4.0814,
      "step": 37500
    },
    {
      "epoch": 0.07814583333333333,
      "grad_norm": 0.885253369808197,
      "learning_rate": 0.0002959333725821986,
      "loss": 4.059,
      "step": 37510
    },
    {
      "epoch": 0.07816666666666666,
      "grad_norm": 0.7796623706817627,
      "learning_rate": 0.00029593109226022456,
      "loss": 3.9882,
      "step": 37520
    },
    {
      "epoch": 0.0781875,
      "grad_norm": 0.781611979007721,
      "learning_rate": 0.000295928811307886,
      "loss": 3.8674,
      "step": 37530
    },
    {
      "epoch": 0.07820833333333334,
      "grad_norm": 0.7042635083198547,
      "learning_rate": 0.0002959265297251927,
      "loss": 4.0858,
      "step": 37540
    },
    {
      "epoch": 0.07822916666666667,
      "grad_norm": 0.7512226700782776,
      "learning_rate": 0.0002959242475121546,
      "loss": 4.0258,
      "step": 37550
    },
    {
      "epoch": 0.07825,
      "grad_norm": 0.7486161589622498,
      "learning_rate": 0.0002959219646687814,
      "loss": 4.0598,
      "step": 37560
    },
    {
      "epoch": 0.07827083333333333,
      "grad_norm": 0.8785876035690308,
      "learning_rate": 0.00029591968119508315,
      "loss": 4.1487,
      "step": 37570
    },
    {
      "epoch": 0.07829166666666666,
      "grad_norm": 0.8238632082939148,
      "learning_rate": 0.00029591739709106964,
      "loss": 3.982,
      "step": 37580
    },
    {
      "epoch": 0.0783125,
      "grad_norm": 0.772164523601532,
      "learning_rate": 0.00029591511235675075,
      "loss": 3.9607,
      "step": 37590
    },
    {
      "epoch": 0.07833333333333334,
      "grad_norm": 0.7794156670570374,
      "learning_rate": 0.0002959128269921363,
      "loss": 3.941,
      "step": 37600
    },
    {
      "epoch": 0.07835416666666667,
      "grad_norm": 0.7868004441261292,
      "learning_rate": 0.0002959105409972362,
      "loss": 4.031,
      "step": 37610
    },
    {
      "epoch": 0.078375,
      "grad_norm": 0.7520425319671631,
      "learning_rate": 0.0002959082543720603,
      "loss": 3.9003,
      "step": 37620
    },
    {
      "epoch": 0.07839583333333333,
      "grad_norm": 0.8113343119621277,
      "learning_rate": 0.0002959059671166185,
      "loss": 4.0041,
      "step": 37630
    },
    {
      "epoch": 0.07841666666666666,
      "grad_norm": 0.7939594984054565,
      "learning_rate": 0.00029590367923092067,
      "loss": 4.138,
      "step": 37640
    },
    {
      "epoch": 0.0784375,
      "grad_norm": 0.8828052878379822,
      "learning_rate": 0.00029590139071497676,
      "loss": 4.1531,
      "step": 37650
    },
    {
      "epoch": 0.07845833333333334,
      "grad_norm": 0.8034064769744873,
      "learning_rate": 0.0002958991015687965,
      "loss": 3.9517,
      "step": 37660
    },
    {
      "epoch": 0.07847916666666667,
      "grad_norm": 0.8105040192604065,
      "learning_rate": 0.00029589681179238996,
      "loss": 3.9339,
      "step": 37670
    },
    {
      "epoch": 0.0785,
      "grad_norm": 0.7540189623832703,
      "learning_rate": 0.00029589452138576686,
      "loss": 3.9986,
      "step": 37680
    },
    {
      "epoch": 0.07852083333333333,
      "grad_norm": 0.7663857936859131,
      "learning_rate": 0.0002958922303489372,
      "loss": 3.949,
      "step": 37690
    },
    {
      "epoch": 0.07854166666666666,
      "grad_norm": 0.869475781917572,
      "learning_rate": 0.0002958899386819109,
      "loss": 3.9517,
      "step": 37700
    },
    {
      "epoch": 0.0785625,
      "grad_norm": 0.7547687888145447,
      "learning_rate": 0.0002958876463846978,
      "loss": 3.9768,
      "step": 37710
    },
    {
      "epoch": 0.07858333333333334,
      "grad_norm": 0.8117455244064331,
      "learning_rate": 0.0002958853534573078,
      "loss": 4.0086,
      "step": 37720
    },
    {
      "epoch": 0.07860416666666667,
      "grad_norm": 0.8115429282188416,
      "learning_rate": 0.0002958830598997508,
      "loss": 4.1081,
      "step": 37730
    },
    {
      "epoch": 0.078625,
      "grad_norm": 0.773429811000824,
      "learning_rate": 0.0002958807657120368,
      "loss": 4.0609,
      "step": 37740
    },
    {
      "epoch": 0.07864583333333333,
      "grad_norm": 0.8656041622161865,
      "learning_rate": 0.00029587847089417556,
      "loss": 3.9974,
      "step": 37750
    },
    {
      "epoch": 0.07866666666666666,
      "grad_norm": 0.8010833263397217,
      "learning_rate": 0.0002958761754461771,
      "loss": 3.8826,
      "step": 37760
    },
    {
      "epoch": 0.0786875,
      "grad_norm": 0.6985688805580139,
      "learning_rate": 0.0002958738793680513,
      "loss": 3.9508,
      "step": 37770
    },
    {
      "epoch": 0.07870833333333334,
      "grad_norm": 1.1281057596206665,
      "learning_rate": 0.00029587158265980806,
      "loss": 4.0319,
      "step": 37780
    },
    {
      "epoch": 0.07872916666666667,
      "grad_norm": 0.8178333640098572,
      "learning_rate": 0.00029586928532145736,
      "loss": 4.079,
      "step": 37790
    },
    {
      "epoch": 0.07875,
      "grad_norm": 0.8388230800628662,
      "learning_rate": 0.000295866987353009,
      "loss": 3.822,
      "step": 37800
    },
    {
      "epoch": 0.07877083333333333,
      "grad_norm": 0.7320294976234436,
      "learning_rate": 0.0002958646887544731,
      "loss": 4.0358,
      "step": 37810
    },
    {
      "epoch": 0.07879166666666666,
      "grad_norm": 0.7816610932350159,
      "learning_rate": 0.0002958623895258594,
      "loss": 3.9942,
      "step": 37820
    },
    {
      "epoch": 0.0788125,
      "grad_norm": 0.8699864745140076,
      "learning_rate": 0.000295860089667178,
      "loss": 4.0238,
      "step": 37830
    },
    {
      "epoch": 0.07883333333333334,
      "grad_norm": 0.8653493523597717,
      "learning_rate": 0.0002958577891784387,
      "loss": 3.973,
      "step": 37840
    },
    {
      "epoch": 0.07885416666666667,
      "grad_norm": 0.7553151845932007,
      "learning_rate": 0.0002958554880596515,
      "loss": 3.966,
      "step": 37850
    },
    {
      "epoch": 0.078875,
      "grad_norm": 0.7623425126075745,
      "learning_rate": 0.0002958531863108263,
      "loss": 4.0373,
      "step": 37860
    },
    {
      "epoch": 0.07889583333333333,
      "grad_norm": 0.7176605463027954,
      "learning_rate": 0.00029585088393197304,
      "loss": 3.9565,
      "step": 37870
    },
    {
      "epoch": 0.07891666666666666,
      "grad_norm": 0.9141770005226135,
      "learning_rate": 0.00029584858092310175,
      "loss": 4.0154,
      "step": 37880
    },
    {
      "epoch": 0.0789375,
      "grad_norm": 0.7692462801933289,
      "learning_rate": 0.00029584627728422233,
      "loss": 4.1445,
      "step": 37890
    },
    {
      "epoch": 0.07895833333333334,
      "grad_norm": 0.9171366691589355,
      "learning_rate": 0.0002958439730153447,
      "loss": 4.0913,
      "step": 37900
    },
    {
      "epoch": 0.07897916666666667,
      "grad_norm": 0.7264308929443359,
      "learning_rate": 0.0002958416681164788,
      "loss": 4.0221,
      "step": 37910
    },
    {
      "epoch": 0.079,
      "grad_norm": 0.7637732028961182,
      "learning_rate": 0.00029583936258763467,
      "loss": 3.8922,
      "step": 37920
    },
    {
      "epoch": 0.07902083333333333,
      "grad_norm": 0.846948504447937,
      "learning_rate": 0.00029583705642882214,
      "loss": 3.9272,
      "step": 37930
    },
    {
      "epoch": 0.07904166666666666,
      "grad_norm": 0.8535504937171936,
      "learning_rate": 0.00029583474964005134,
      "loss": 4.1317,
      "step": 37940
    },
    {
      "epoch": 0.0790625,
      "grad_norm": 0.708281934261322,
      "learning_rate": 0.00029583244222133214,
      "loss": 3.9945,
      "step": 37950
    },
    {
      "epoch": 0.07908333333333334,
      "grad_norm": 0.8934239745140076,
      "learning_rate": 0.0002958301341726745,
      "loss": 3.9696,
      "step": 37960
    },
    {
      "epoch": 0.07910416666666667,
      "grad_norm": 0.7739936113357544,
      "learning_rate": 0.0002958278254940884,
      "loss": 3.7936,
      "step": 37970
    },
    {
      "epoch": 0.079125,
      "grad_norm": 0.8384619951248169,
      "learning_rate": 0.0002958255161855838,
      "loss": 3.8725,
      "step": 37980
    },
    {
      "epoch": 0.07914583333333333,
      "grad_norm": 0.7832215428352356,
      "learning_rate": 0.0002958232062471707,
      "loss": 4.0722,
      "step": 37990
    },
    {
      "epoch": 0.07916666666666666,
      "grad_norm": 0.8406527638435364,
      "learning_rate": 0.0002958208956788591,
      "loss": 3.9568,
      "step": 38000
    },
    {
      "epoch": 0.07916666666666666,
      "eval_loss": 4.3098602294921875,
      "eval_runtime": 10.5772,
      "eval_samples_per_second": 0.945,
      "eval_steps_per_second": 0.284,
      "step": 38000
    },
    {
      "epoch": 0.0791875,
      "grad_norm": 0.835521936416626,
      "learning_rate": 0.00029581858448065896,
      "loss": 4.1885,
      "step": 38010
    },
    {
      "epoch": 0.07920833333333334,
      "grad_norm": 0.8701942563056946,
      "learning_rate": 0.00029581627265258016,
      "loss": 4.272,
      "step": 38020
    },
    {
      "epoch": 0.07922916666666667,
      "grad_norm": 1.5983165502548218,
      "learning_rate": 0.00029581396019463286,
      "loss": 3.9923,
      "step": 38030
    },
    {
      "epoch": 0.07925,
      "grad_norm": 0.7321540117263794,
      "learning_rate": 0.000295811647106827,
      "loss": 3.8809,
      "step": 38040
    },
    {
      "epoch": 0.07927083333333333,
      "grad_norm": 0.8294848203659058,
      "learning_rate": 0.00029580933338917246,
      "loss": 3.9394,
      "step": 38050
    },
    {
      "epoch": 0.07929166666666666,
      "grad_norm": 0.7507039308547974,
      "learning_rate": 0.0002958070190416794,
      "loss": 4.112,
      "step": 38060
    },
    {
      "epoch": 0.0793125,
      "grad_norm": 0.764258086681366,
      "learning_rate": 0.00029580470406435764,
      "loss": 4.0496,
      "step": 38070
    },
    {
      "epoch": 0.07933333333333334,
      "grad_norm": 0.9215588569641113,
      "learning_rate": 0.0002958023884572173,
      "loss": 4.0618,
      "step": 38080
    },
    {
      "epoch": 0.07935416666666667,
      "grad_norm": 0.7847050428390503,
      "learning_rate": 0.00029580007222026843,
      "loss": 4.0495,
      "step": 38090
    },
    {
      "epoch": 0.079375,
      "grad_norm": 0.7890319228172302,
      "learning_rate": 0.0002957977553535209,
      "loss": 4.0172,
      "step": 38100
    },
    {
      "epoch": 0.07939583333333333,
      "grad_norm": 0.8720386028289795,
      "learning_rate": 0.00029579543785698473,
      "loss": 3.968,
      "step": 38110
    },
    {
      "epoch": 0.07941666666666666,
      "grad_norm": 0.7805672883987427,
      "learning_rate": 0.00029579311973067,
      "loss": 3.9467,
      "step": 38120
    },
    {
      "epoch": 0.0794375,
      "grad_norm": 0.7763761878013611,
      "learning_rate": 0.00029579080097458677,
      "loss": 3.9352,
      "step": 38130
    },
    {
      "epoch": 0.07945833333333334,
      "grad_norm": 0.8057962656021118,
      "learning_rate": 0.0002957884815887449,
      "loss": 4.0188,
      "step": 38140
    },
    {
      "epoch": 0.07947916666666667,
      "grad_norm": 0.8831015825271606,
      "learning_rate": 0.0002957861615731545,
      "loss": 3.8797,
      "step": 38150
    },
    {
      "epoch": 0.0795,
      "grad_norm": 0.8869669437408447,
      "learning_rate": 0.0002957838409278257,
      "loss": 4.1105,
      "step": 38160
    },
    {
      "epoch": 0.07952083333333333,
      "grad_norm": 0.7498947978019714,
      "learning_rate": 0.0002957815196527683,
      "loss": 3.8928,
      "step": 38170
    },
    {
      "epoch": 0.07954166666666666,
      "grad_norm": 0.7492097616195679,
      "learning_rate": 0.0002957791977479925,
      "loss": 4.1214,
      "step": 38180
    },
    {
      "epoch": 0.0795625,
      "grad_norm": 0.6641942262649536,
      "learning_rate": 0.00029577687521350826,
      "loss": 3.8433,
      "step": 38190
    },
    {
      "epoch": 0.07958333333333334,
      "grad_norm": 0.7778754234313965,
      "learning_rate": 0.0002957745520493256,
      "loss": 4.0498,
      "step": 38200
    },
    {
      "epoch": 0.07960416666666667,
      "grad_norm": 0.8144408464431763,
      "learning_rate": 0.0002957722282554546,
      "loss": 4.0489,
      "step": 38210
    },
    {
      "epoch": 0.079625,
      "grad_norm": 0.826065719127655,
      "learning_rate": 0.00029576990383190524,
      "loss": 4.1199,
      "step": 38220
    },
    {
      "epoch": 0.07964583333333333,
      "grad_norm": 0.8868575692176819,
      "learning_rate": 0.00029576757877868763,
      "loss": 4.007,
      "step": 38230
    },
    {
      "epoch": 0.07966666666666666,
      "grad_norm": 0.8908885717391968,
      "learning_rate": 0.0002957652530958118,
      "loss": 4.0049,
      "step": 38240
    },
    {
      "epoch": 0.0796875,
      "grad_norm": 1.2171024084091187,
      "learning_rate": 0.0002957629267832877,
      "loss": 4.1292,
      "step": 38250
    },
    {
      "epoch": 0.07970833333333334,
      "grad_norm": 0.752056360244751,
      "learning_rate": 0.0002957605998411255,
      "loss": 3.9834,
      "step": 38260
    },
    {
      "epoch": 0.07972916666666667,
      "grad_norm": 0.7996678352355957,
      "learning_rate": 0.0002957582722693352,
      "loss": 3.987,
      "step": 38270
    },
    {
      "epoch": 0.07975,
      "grad_norm": 0.760346531867981,
      "learning_rate": 0.00029575594406792684,
      "loss": 3.9882,
      "step": 38280
    },
    {
      "epoch": 0.07977083333333333,
      "grad_norm": 0.8054348230361938,
      "learning_rate": 0.0002957536152369105,
      "loss": 4.0532,
      "step": 38290
    },
    {
      "epoch": 0.07979166666666666,
      "grad_norm": 0.8142649531364441,
      "learning_rate": 0.00029575128577629626,
      "loss": 4.0326,
      "step": 38300
    },
    {
      "epoch": 0.0798125,
      "grad_norm": 0.7759074568748474,
      "learning_rate": 0.00029574895568609415,
      "loss": 4.1319,
      "step": 38310
    },
    {
      "epoch": 0.07983333333333334,
      "grad_norm": 0.7903830409049988,
      "learning_rate": 0.00029574662496631427,
      "loss": 3.9098,
      "step": 38320
    },
    {
      "epoch": 0.07985416666666667,
      "grad_norm": 0.8345667123794556,
      "learning_rate": 0.0002957442936169666,
      "loss": 3.9699,
      "step": 38330
    },
    {
      "epoch": 0.079875,
      "grad_norm": 0.7826368808746338,
      "learning_rate": 0.0002957419616380613,
      "loss": 4.0635,
      "step": 38340
    },
    {
      "epoch": 0.07989583333333333,
      "grad_norm": 0.780045747756958,
      "learning_rate": 0.00029573962902960845,
      "loss": 3.9639,
      "step": 38350
    },
    {
      "epoch": 0.07991666666666666,
      "grad_norm": 0.8617037534713745,
      "learning_rate": 0.000295737295791618,
      "loss": 4.042,
      "step": 38360
    },
    {
      "epoch": 0.0799375,
      "grad_norm": 0.7709670066833496,
      "learning_rate": 0.0002957349619241002,
      "loss": 3.9764,
      "step": 38370
    },
    {
      "epoch": 0.07995833333333334,
      "grad_norm": 0.7708585262298584,
      "learning_rate": 0.00029573262742706505,
      "loss": 4.0448,
      "step": 38380
    },
    {
      "epoch": 0.07997916666666667,
      "grad_norm": 0.7847542762756348,
      "learning_rate": 0.00029573029230052256,
      "loss": 4.0114,
      "step": 38390
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7399855852127075,
      "learning_rate": 0.00029572795654448297,
      "loss": 3.9459,
      "step": 38400
    },
    {
      "epoch": 0.08002083333333333,
      "grad_norm": 0.7248812913894653,
      "learning_rate": 0.00029572562015895624,
      "loss": 3.9244,
      "step": 38410
    },
    {
      "epoch": 0.08004166666666666,
      "grad_norm": 0.9456031322479248,
      "learning_rate": 0.0002957232831439525,
      "loss": 3.9386,
      "step": 38420
    },
    {
      "epoch": 0.0800625,
      "grad_norm": 0.8325448632240295,
      "learning_rate": 0.00029572094549948195,
      "loss": 4.2068,
      "step": 38430
    },
    {
      "epoch": 0.08008333333333334,
      "grad_norm": 0.8106370568275452,
      "learning_rate": 0.00029571860722555455,
      "loss": 4.0544,
      "step": 38440
    },
    {
      "epoch": 0.08010416666666667,
      "grad_norm": 0.815687894821167,
      "learning_rate": 0.0002957162683221804,
      "loss": 4.0184,
      "step": 38450
    },
    {
      "epoch": 0.080125,
      "grad_norm": 0.8154532313346863,
      "learning_rate": 0.0002957139287893697,
      "loss": 3.9144,
      "step": 38460
    },
    {
      "epoch": 0.08014583333333333,
      "grad_norm": 0.8380201458930969,
      "learning_rate": 0.0002957115886271325,
      "loss": 4.0877,
      "step": 38470
    },
    {
      "epoch": 0.08016666666666666,
      "grad_norm": 0.7439801096916199,
      "learning_rate": 0.0002957092478354789,
      "loss": 4.0516,
      "step": 38480
    },
    {
      "epoch": 0.0801875,
      "grad_norm": 0.8770380616188049,
      "learning_rate": 0.000295706906414419,
      "loss": 4.0147,
      "step": 38490
    },
    {
      "epoch": 0.08020833333333334,
      "grad_norm": 0.7167606353759766,
      "learning_rate": 0.000295704564363963,
      "loss": 3.9512,
      "step": 38500
    },
    {
      "epoch": 0.08022916666666667,
      "grad_norm": 0.8488460779190063,
      "learning_rate": 0.00029570222168412094,
      "loss": 4.0267,
      "step": 38510
    },
    {
      "epoch": 0.08025,
      "grad_norm": 0.7501782774925232,
      "learning_rate": 0.00029569987837490294,
      "loss": 4.1095,
      "step": 38520
    },
    {
      "epoch": 0.08027083333333333,
      "grad_norm": 0.8191635608673096,
      "learning_rate": 0.0002956975344363191,
      "loss": 3.8804,
      "step": 38530
    },
    {
      "epoch": 0.08029166666666666,
      "grad_norm": 1.1388297080993652,
      "learning_rate": 0.00029569518986837965,
      "loss": 4.2477,
      "step": 38540
    },
    {
      "epoch": 0.0803125,
      "grad_norm": 0.9039329886436462,
      "learning_rate": 0.0002956928446710946,
      "loss": 4.0366,
      "step": 38550
    },
    {
      "epoch": 0.08033333333333334,
      "grad_norm": 0.8913304805755615,
      "learning_rate": 0.0002956904988444741,
      "loss": 4.1228,
      "step": 38560
    },
    {
      "epoch": 0.08035416666666667,
      "grad_norm": 0.8467113375663757,
      "learning_rate": 0.0002956881523885284,
      "loss": 4.0357,
      "step": 38570
    },
    {
      "epoch": 0.080375,
      "grad_norm": 0.8059454560279846,
      "learning_rate": 0.0002956858053032675,
      "loss": 3.9712,
      "step": 38580
    },
    {
      "epoch": 0.08039583333333333,
      "grad_norm": 0.7427771091461182,
      "learning_rate": 0.0002956834575887016,
      "loss": 4.0785,
      "step": 38590
    },
    {
      "epoch": 0.08041666666666666,
      "grad_norm": 0.9557122588157654,
      "learning_rate": 0.0002956811092448408,
      "loss": 3.9419,
      "step": 38600
    },
    {
      "epoch": 0.0804375,
      "grad_norm": 0.7548374533653259,
      "learning_rate": 0.00029567876027169533,
      "loss": 4.0637,
      "step": 38610
    },
    {
      "epoch": 0.08045833333333334,
      "grad_norm": 0.8431499600410461,
      "learning_rate": 0.00029567641066927526,
      "loss": 3.9737,
      "step": 38620
    },
    {
      "epoch": 0.08047916666666667,
      "grad_norm": 0.8312988877296448,
      "learning_rate": 0.00029567406043759075,
      "loss": 3.9104,
      "step": 38630
    },
    {
      "epoch": 0.0805,
      "grad_norm": 0.754848301410675,
      "learning_rate": 0.00029567170957665195,
      "loss": 4.0635,
      "step": 38640
    },
    {
      "epoch": 0.08052083333333333,
      "grad_norm": 0.8082960844039917,
      "learning_rate": 0.00029566935808646904,
      "loss": 3.9813,
      "step": 38650
    },
    {
      "epoch": 0.08054166666666666,
      "grad_norm": 0.8546106815338135,
      "learning_rate": 0.00029566700596705216,
      "loss": 4.0363,
      "step": 38660
    },
    {
      "epoch": 0.0805625,
      "grad_norm": 0.8824333548545837,
      "learning_rate": 0.00029566465321841144,
      "loss": 3.7413,
      "step": 38670
    },
    {
      "epoch": 0.08058333333333334,
      "grad_norm": 0.8826181292533875,
      "learning_rate": 0.0002956622998405571,
      "loss": 4.0552,
      "step": 38680
    },
    {
      "epoch": 0.08060416666666667,
      "grad_norm": 0.7803552150726318,
      "learning_rate": 0.0002956599458334993,
      "loss": 3.884,
      "step": 38690
    },
    {
      "epoch": 0.080625,
      "grad_norm": 0.807855486869812,
      "learning_rate": 0.00029565759119724817,
      "loss": 3.9381,
      "step": 38700
    },
    {
      "epoch": 0.08064583333333333,
      "grad_norm": 0.7235782742500305,
      "learning_rate": 0.0002956552359318139,
      "loss": 4.0619,
      "step": 38710
    },
    {
      "epoch": 0.08066666666666666,
      "grad_norm": 0.7210096120834351,
      "learning_rate": 0.0002956528800372067,
      "loss": 3.9703,
      "step": 38720
    },
    {
      "epoch": 0.0806875,
      "grad_norm": 0.915455162525177,
      "learning_rate": 0.0002956505235134367,
      "loss": 4.0331,
      "step": 38730
    },
    {
      "epoch": 0.08070833333333334,
      "grad_norm": 0.7352243065834045,
      "learning_rate": 0.0002956481663605141,
      "loss": 4.0842,
      "step": 38740
    },
    {
      "epoch": 0.08072916666666667,
      "grad_norm": 0.7845919132232666,
      "learning_rate": 0.000295645808578449,
      "loss": 4.1241,
      "step": 38750
    },
    {
      "epoch": 0.08075,
      "grad_norm": 0.8045593500137329,
      "learning_rate": 0.00029564345016725173,
      "loss": 3.9679,
      "step": 38760
    },
    {
      "epoch": 0.08077083333333333,
      "grad_norm": 0.9383342862129211,
      "learning_rate": 0.00029564109112693236,
      "loss": 3.9011,
      "step": 38770
    },
    {
      "epoch": 0.08079166666666666,
      "grad_norm": 0.7674330472946167,
      "learning_rate": 0.00029563873145750115,
      "loss": 3.9333,
      "step": 38780
    },
    {
      "epoch": 0.0808125,
      "grad_norm": 0.801990270614624,
      "learning_rate": 0.00029563637115896825,
      "loss": 3.9456,
      "step": 38790
    },
    {
      "epoch": 0.08083333333333333,
      "grad_norm": 0.7783843278884888,
      "learning_rate": 0.0002956340102313439,
      "loss": 3.9849,
      "step": 38800
    },
    {
      "epoch": 0.08085416666666667,
      "grad_norm": 0.8149083256721497,
      "learning_rate": 0.0002956316486746383,
      "loss": 3.9153,
      "step": 38810
    },
    {
      "epoch": 0.080875,
      "grad_norm": 0.7793574333190918,
      "learning_rate": 0.00029562928648886155,
      "loss": 4.153,
      "step": 38820
    },
    {
      "epoch": 0.08089583333333333,
      "grad_norm": 0.8162181377410889,
      "learning_rate": 0.00029562692367402394,
      "loss": 3.9424,
      "step": 38830
    },
    {
      "epoch": 0.08091666666666666,
      "grad_norm": 0.9892764091491699,
      "learning_rate": 0.0002956245602301357,
      "loss": 4.082,
      "step": 38840
    },
    {
      "epoch": 0.0809375,
      "grad_norm": 0.8548150062561035,
      "learning_rate": 0.00029562219615720696,
      "loss": 3.852,
      "step": 38850
    },
    {
      "epoch": 0.08095833333333333,
      "grad_norm": 0.7403591871261597,
      "learning_rate": 0.000295619831455248,
      "loss": 4.0535,
      "step": 38860
    },
    {
      "epoch": 0.08097916666666667,
      "grad_norm": 0.8180938363075256,
      "learning_rate": 0.00029561746612426904,
      "loss": 4.1334,
      "step": 38870
    },
    {
      "epoch": 0.081,
      "grad_norm": 0.8348621129989624,
      "learning_rate": 0.00029561510016428024,
      "loss": 4.0137,
      "step": 38880
    },
    {
      "epoch": 0.08102083333333333,
      "grad_norm": 0.8257707357406616,
      "learning_rate": 0.0002956127335752918,
      "loss": 4.0189,
      "step": 38890
    },
    {
      "epoch": 0.08104166666666666,
      "grad_norm": 0.8818042278289795,
      "learning_rate": 0.00029561036635731403,
      "loss": 4.1722,
      "step": 38900
    },
    {
      "epoch": 0.0810625,
      "grad_norm": 0.7866851687431335,
      "learning_rate": 0.0002956079985103571,
      "loss": 4.0944,
      "step": 38910
    },
    {
      "epoch": 0.08108333333333333,
      "grad_norm": 0.8159758448600769,
      "learning_rate": 0.0002956056300344313,
      "loss": 4.1673,
      "step": 38920
    },
    {
      "epoch": 0.08110416666666667,
      "grad_norm": 0.7859052419662476,
      "learning_rate": 0.00029560326092954676,
      "loss": 3.8531,
      "step": 38930
    },
    {
      "epoch": 0.081125,
      "grad_norm": 0.7926644682884216,
      "learning_rate": 0.00029560089119571377,
      "loss": 4.0277,
      "step": 38940
    },
    {
      "epoch": 0.08114583333333333,
      "grad_norm": 0.849351704120636,
      "learning_rate": 0.00029559852083294264,
      "loss": 4.1047,
      "step": 38950
    },
    {
      "epoch": 0.08116666666666666,
      "grad_norm": 0.9178153276443481,
      "learning_rate": 0.00029559614984124344,
      "loss": 4.0932,
      "step": 38960
    },
    {
      "epoch": 0.0811875,
      "grad_norm": 0.7889618873596191,
      "learning_rate": 0.00029559377822062653,
      "loss": 4.0629,
      "step": 38970
    },
    {
      "epoch": 0.08120833333333333,
      "grad_norm": 0.7828762531280518,
      "learning_rate": 0.0002955914059711021,
      "loss": 3.9042,
      "step": 38980
    },
    {
      "epoch": 0.08122916666666667,
      "grad_norm": 0.7672367095947266,
      "learning_rate": 0.00029558903309268047,
      "loss": 4.0882,
      "step": 38990
    },
    {
      "epoch": 0.08125,
      "grad_norm": 0.8167468309402466,
      "learning_rate": 0.0002955866595853718,
      "loss": 3.8289,
      "step": 39000
    },
    {
      "epoch": 0.08125,
      "eval_loss": 4.291996955871582,
      "eval_runtime": 10.9907,
      "eval_samples_per_second": 0.91,
      "eval_steps_per_second": 0.273,
      "step": 39000
    },
    {
      "epoch": 0.08127083333333333,
      "grad_norm": 0.7726606726646423,
      "learning_rate": 0.0002955842854491864,
      "loss": 3.7998,
      "step": 39010
    },
    {
      "epoch": 0.08129166666666666,
      "grad_norm": 0.8469964265823364,
      "learning_rate": 0.00029558191068413455,
      "loss": 3.9465,
      "step": 39020
    },
    {
      "epoch": 0.0813125,
      "grad_norm": 0.895370364189148,
      "learning_rate": 0.00029557953529022645,
      "loss": 4.0793,
      "step": 39030
    },
    {
      "epoch": 0.08133333333333333,
      "grad_norm": 1.0283160209655762,
      "learning_rate": 0.00029557715926747236,
      "loss": 4.0181,
      "step": 39040
    },
    {
      "epoch": 0.08135416666666667,
      "grad_norm": 0.9524704217910767,
      "learning_rate": 0.00029557478261588264,
      "loss": 4.102,
      "step": 39050
    },
    {
      "epoch": 0.081375,
      "grad_norm": 0.7596519589424133,
      "learning_rate": 0.0002955724053354674,
      "loss": 3.889,
      "step": 39060
    },
    {
      "epoch": 0.08139583333333333,
      "grad_norm": 0.9691551923751831,
      "learning_rate": 0.00029557002742623705,
      "loss": 3.9839,
      "step": 39070
    },
    {
      "epoch": 0.08141666666666666,
      "grad_norm": 0.7861046195030212,
      "learning_rate": 0.00029556764888820174,
      "loss": 4.0419,
      "step": 39080
    },
    {
      "epoch": 0.0814375,
      "grad_norm": 0.7543548941612244,
      "learning_rate": 0.0002955652697213719,
      "loss": 4.0894,
      "step": 39090
    },
    {
      "epoch": 0.08145833333333333,
      "grad_norm": 0.756062388420105,
      "learning_rate": 0.0002955628899257576,
      "loss": 4.0713,
      "step": 39100
    },
    {
      "epoch": 0.08147916666666667,
      "grad_norm": 0.8209773302078247,
      "learning_rate": 0.0002955605095013693,
      "loss": 4.041,
      "step": 39110
    },
    {
      "epoch": 0.0815,
      "grad_norm": 0.7886714339256287,
      "learning_rate": 0.0002955581284482172,
      "loss": 3.8696,
      "step": 39120
    },
    {
      "epoch": 0.08152083333333333,
      "grad_norm": 1.0151418447494507,
      "learning_rate": 0.00029555574676631163,
      "loss": 4.0925,
      "step": 39130
    },
    {
      "epoch": 0.08154166666666667,
      "grad_norm": 0.8185462355613708,
      "learning_rate": 0.0002955533644556628,
      "loss": 4.0839,
      "step": 39140
    },
    {
      "epoch": 0.0815625,
      "grad_norm": 0.8452709913253784,
      "learning_rate": 0.00029555098151628107,
      "loss": 4.0803,
      "step": 39150
    },
    {
      "epoch": 0.08158333333333333,
      "grad_norm": 0.7674920558929443,
      "learning_rate": 0.00029554859794817673,
      "loss": 4.1111,
      "step": 39160
    },
    {
      "epoch": 0.08160416666666667,
      "grad_norm": 0.7823147773742676,
      "learning_rate": 0.00029554621375136003,
      "loss": 4.0107,
      "step": 39170
    },
    {
      "epoch": 0.081625,
      "grad_norm": 0.7618927955627441,
      "learning_rate": 0.0002955438289258413,
      "loss": 4.1289,
      "step": 39180
    },
    {
      "epoch": 0.08164583333333333,
      "grad_norm": 0.7578924298286438,
      "learning_rate": 0.0002955414434716309,
      "loss": 3.9363,
      "step": 39190
    },
    {
      "epoch": 0.08166666666666667,
      "grad_norm": 0.8352966904640198,
      "learning_rate": 0.000295539057388739,
      "loss": 3.9148,
      "step": 39200
    },
    {
      "epoch": 0.0816875,
      "grad_norm": 0.7858846783638,
      "learning_rate": 0.000295536670677176,
      "loss": 3.9217,
      "step": 39210
    },
    {
      "epoch": 0.08170833333333333,
      "grad_norm": 0.6847884058952332,
      "learning_rate": 0.0002955342833369522,
      "loss": 4.0134,
      "step": 39220
    },
    {
      "epoch": 0.08172916666666667,
      "grad_norm": 0.8603465557098389,
      "learning_rate": 0.0002955318953680779,
      "loss": 3.9807,
      "step": 39230
    },
    {
      "epoch": 0.08175,
      "grad_norm": 0.7598857879638672,
      "learning_rate": 0.0002955295067705634,
      "loss": 4.0214,
      "step": 39240
    },
    {
      "epoch": 0.08177083333333333,
      "grad_norm": 0.8915538787841797,
      "learning_rate": 0.00029552711754441904,
      "loss": 4.0623,
      "step": 39250
    },
    {
      "epoch": 0.08179166666666667,
      "grad_norm": 0.994425892829895,
      "learning_rate": 0.00029552472768965514,
      "loss": 4.096,
      "step": 39260
    },
    {
      "epoch": 0.0818125,
      "grad_norm": 0.8511155843734741,
      "learning_rate": 0.00029552233720628204,
      "loss": 4.0264,
      "step": 39270
    },
    {
      "epoch": 0.08183333333333333,
      "grad_norm": 0.803685188293457,
      "learning_rate": 0.00029551994609431005,
      "loss": 4.0392,
      "step": 39280
    },
    {
      "epoch": 0.08185416666666667,
      "grad_norm": 0.7087610363960266,
      "learning_rate": 0.00029551755435374945,
      "loss": 3.9866,
      "step": 39290
    },
    {
      "epoch": 0.081875,
      "grad_norm": 0.7413554191589355,
      "learning_rate": 0.0002955151619846106,
      "loss": 4.1119,
      "step": 39300
    },
    {
      "epoch": 0.08189583333333333,
      "grad_norm": 1.0579023361206055,
      "learning_rate": 0.00029551276898690394,
      "loss": 3.9476,
      "step": 39310
    },
    {
      "epoch": 0.08191666666666667,
      "grad_norm": 0.8936607837677002,
      "learning_rate": 0.0002955103753606396,
      "loss": 3.9985,
      "step": 39320
    },
    {
      "epoch": 0.0819375,
      "grad_norm": 0.7556195259094238,
      "learning_rate": 0.0002955079811058282,
      "loss": 4.0032,
      "step": 39330
    },
    {
      "epoch": 0.08195833333333333,
      "grad_norm": 0.8329411745071411,
      "learning_rate": 0.0002955055862224798,
      "loss": 3.9169,
      "step": 39340
    },
    {
      "epoch": 0.08197916666666667,
      "grad_norm": 0.8235631585121155,
      "learning_rate": 0.0002955031907106049,
      "loss": 4.0571,
      "step": 39350
    },
    {
      "epoch": 0.082,
      "grad_norm": 0.7948472499847412,
      "learning_rate": 0.00029550079457021374,
      "loss": 3.9939,
      "step": 39360
    },
    {
      "epoch": 0.08202083333333333,
      "grad_norm": 1.0078328847885132,
      "learning_rate": 0.0002954983978013168,
      "loss": 3.9105,
      "step": 39370
    },
    {
      "epoch": 0.08204166666666667,
      "grad_norm": 0.8439496755599976,
      "learning_rate": 0.00029549600040392436,
      "loss": 4.0252,
      "step": 39380
    },
    {
      "epoch": 0.0820625,
      "grad_norm": 0.9888390898704529,
      "learning_rate": 0.0002954936023780468,
      "loss": 4.0362,
      "step": 39390
    },
    {
      "epoch": 0.08208333333333333,
      "grad_norm": 0.9036434888839722,
      "learning_rate": 0.0002954912037236945,
      "loss": 3.9005,
      "step": 39400
    },
    {
      "epoch": 0.08210416666666667,
      "grad_norm": 0.7148544192314148,
      "learning_rate": 0.0002954888044408777,
      "loss": 4.0273,
      "step": 39410
    },
    {
      "epoch": 0.082125,
      "grad_norm": 0.8010039329528809,
      "learning_rate": 0.00029548640452960694,
      "loss": 4.1072,
      "step": 39420
    },
    {
      "epoch": 0.08214583333333333,
      "grad_norm": 0.7364577651023865,
      "learning_rate": 0.00029548400398989245,
      "loss": 3.8795,
      "step": 39430
    },
    {
      "epoch": 0.08216666666666667,
      "grad_norm": 0.9328866600990295,
      "learning_rate": 0.0002954816028217446,
      "loss": 4.035,
      "step": 39440
    },
    {
      "epoch": 0.0821875,
      "grad_norm": 0.8062793016433716,
      "learning_rate": 0.0002954792010251739,
      "loss": 4.0921,
      "step": 39450
    },
    {
      "epoch": 0.08220833333333333,
      "grad_norm": 0.7482831478118896,
      "learning_rate": 0.0002954767986001906,
      "loss": 3.9935,
      "step": 39460
    },
    {
      "epoch": 0.08222916666666667,
      "grad_norm": 0.7336897850036621,
      "learning_rate": 0.00029547439554680516,
      "loss": 4.0436,
      "step": 39470
    },
    {
      "epoch": 0.08225,
      "grad_norm": 0.83796226978302,
      "learning_rate": 0.00029547199186502783,
      "loss": 3.8492,
      "step": 39480
    },
    {
      "epoch": 0.08227083333333333,
      "grad_norm": 0.8167172074317932,
      "learning_rate": 0.00029546958755486915,
      "loss": 3.7169,
      "step": 39490
    },
    {
      "epoch": 0.08229166666666667,
      "grad_norm": 0.8210753202438354,
      "learning_rate": 0.0002954671826163394,
      "loss": 3.8259,
      "step": 39500
    },
    {
      "epoch": 0.0823125,
      "grad_norm": 0.8436444401741028,
      "learning_rate": 0.00029546477704944904,
      "loss": 4.1069,
      "step": 39510
    },
    {
      "epoch": 0.08233333333333333,
      "grad_norm": 0.7612024545669556,
      "learning_rate": 0.00029546237085420837,
      "loss": 4.0756,
      "step": 39520
    },
    {
      "epoch": 0.08235416666666667,
      "grad_norm": 0.8128028512001038,
      "learning_rate": 0.0002954599640306279,
      "loss": 4.0698,
      "step": 39530
    },
    {
      "epoch": 0.082375,
      "grad_norm": 0.881759762763977,
      "learning_rate": 0.0002954575565787179,
      "loss": 4.0234,
      "step": 39540
    },
    {
      "epoch": 0.08239583333333333,
      "grad_norm": 0.8712320327758789,
      "learning_rate": 0.00029545514849848887,
      "loss": 3.8762,
      "step": 39550
    },
    {
      "epoch": 0.08241666666666667,
      "grad_norm": 0.889971137046814,
      "learning_rate": 0.0002954527397899511,
      "loss": 3.9912,
      "step": 39560
    },
    {
      "epoch": 0.0824375,
      "grad_norm": 0.7280272841453552,
      "learning_rate": 0.0002954503304531152,
      "loss": 3.9493,
      "step": 39570
    },
    {
      "epoch": 0.08245833333333333,
      "grad_norm": 0.8367044925689697,
      "learning_rate": 0.00029544792048799134,
      "loss": 3.9507,
      "step": 39580
    },
    {
      "epoch": 0.08247916666666667,
      "grad_norm": 0.6600242853164673,
      "learning_rate": 0.00029544550989459007,
      "loss": 4.064,
      "step": 39590
    },
    {
      "epoch": 0.0825,
      "grad_norm": 0.9706956148147583,
      "learning_rate": 0.0002954430986729217,
      "loss": 4.1823,
      "step": 39600
    },
    {
      "epoch": 0.08252083333333333,
      "grad_norm": 0.761099636554718,
      "learning_rate": 0.0002954406868229968,
      "loss": 3.8986,
      "step": 39610
    },
    {
      "epoch": 0.08254166666666667,
      "grad_norm": 0.8011664152145386,
      "learning_rate": 0.00029543827434482575,
      "loss": 3.8295,
      "step": 39620
    },
    {
      "epoch": 0.0825625,
      "grad_norm": 0.760365903377533,
      "learning_rate": 0.00029543586123841883,
      "loss": 3.9803,
      "step": 39630
    },
    {
      "epoch": 0.08258333333333333,
      "grad_norm": 0.8626951575279236,
      "learning_rate": 0.0002954334475037866,
      "loss": 4.0497,
      "step": 39640
    },
    {
      "epoch": 0.08260416666666667,
      "grad_norm": 0.7348446249961853,
      "learning_rate": 0.0002954310331409394,
      "loss": 3.9666,
      "step": 39650
    },
    {
      "epoch": 0.082625,
      "grad_norm": 0.831517219543457,
      "learning_rate": 0.0002954286181498877,
      "loss": 3.8508,
      "step": 39660
    },
    {
      "epoch": 0.08264583333333334,
      "grad_norm": 0.7469507455825806,
      "learning_rate": 0.000295426202530642,
      "loss": 3.795,
      "step": 39670
    },
    {
      "epoch": 0.08266666666666667,
      "grad_norm": 0.7859343886375427,
      "learning_rate": 0.0002954237862832126,
      "loss": 4.1068,
      "step": 39680
    },
    {
      "epoch": 0.0826875,
      "grad_norm": 0.9549103379249573,
      "learning_rate": 0.00029542136940761005,
      "loss": 3.8812,
      "step": 39690
    },
    {
      "epoch": 0.08270833333333333,
      "grad_norm": 0.7817336916923523,
      "learning_rate": 0.00029541895190384474,
      "loss": 4.1709,
      "step": 39700
    },
    {
      "epoch": 0.08272916666666667,
      "grad_norm": 0.9150531888008118,
      "learning_rate": 0.00029541653377192705,
      "loss": 3.9782,
      "step": 39710
    },
    {
      "epoch": 0.08275,
      "grad_norm": 0.7823895215988159,
      "learning_rate": 0.0002954141150118676,
      "loss": 3.8857,
      "step": 39720
    },
    {
      "epoch": 0.08277083333333334,
      "grad_norm": 0.8031970858573914,
      "learning_rate": 0.0002954116956236767,
      "loss": 3.8429,
      "step": 39730
    },
    {
      "epoch": 0.08279166666666667,
      "grad_norm": 0.7317859530448914,
      "learning_rate": 0.0002954092756073648,
      "loss": 3.8955,
      "step": 39740
    },
    {
      "epoch": 0.0828125,
      "grad_norm": 0.8032432198524475,
      "learning_rate": 0.0002954068549629424,
      "loss": 4.0156,
      "step": 39750
    },
    {
      "epoch": 0.08283333333333333,
      "grad_norm": 0.7419918775558472,
      "learning_rate": 0.0002954044336904199,
      "loss": 3.9979,
      "step": 39760
    },
    {
      "epoch": 0.08285416666666667,
      "grad_norm": 0.8238973021507263,
      "learning_rate": 0.0002954020117898079,
      "loss": 4.0284,
      "step": 39770
    },
    {
      "epoch": 0.082875,
      "grad_norm": 0.8344582915306091,
      "learning_rate": 0.0002953995892611167,
      "loss": 3.8484,
      "step": 39780
    },
    {
      "epoch": 0.08289583333333334,
      "grad_norm": 0.7901859879493713,
      "learning_rate": 0.00029539716610435686,
      "loss": 4.1131,
      "step": 39790
    },
    {
      "epoch": 0.08291666666666667,
      "grad_norm": 1.2362107038497925,
      "learning_rate": 0.0002953947423195388,
      "loss": 4.1673,
      "step": 39800
    },
    {
      "epoch": 0.0829375,
      "grad_norm": 0.7733821272850037,
      "learning_rate": 0.000295392317906673,
      "loss": 4.0315,
      "step": 39810
    },
    {
      "epoch": 0.08295833333333333,
      "grad_norm": 0.7855840921401978,
      "learning_rate": 0.00029538989286576994,
      "loss": 3.9756,
      "step": 39820
    },
    {
      "epoch": 0.08297916666666667,
      "grad_norm": 0.7556350231170654,
      "learning_rate": 0.00029538746719684006,
      "loss": 4.0757,
      "step": 39830
    },
    {
      "epoch": 0.083,
      "grad_norm": 0.9166795015335083,
      "learning_rate": 0.00029538504089989394,
      "loss": 4.0735,
      "step": 39840
    },
    {
      "epoch": 0.08302083333333334,
      "grad_norm": 0.8495510220527649,
      "learning_rate": 0.0002953826139749419,
      "loss": 4.1541,
      "step": 39850
    },
    {
      "epoch": 0.08304166666666667,
      "grad_norm": 0.7850422263145447,
      "learning_rate": 0.0002953801864219946,
      "loss": 3.9307,
      "step": 39860
    },
    {
      "epoch": 0.0830625,
      "grad_norm": 0.8123365640640259,
      "learning_rate": 0.0002953777582410624,
      "loss": 4.0357,
      "step": 39870
    },
    {
      "epoch": 0.08308333333333333,
      "grad_norm": 0.6958758234977722,
      "learning_rate": 0.0002953753294321558,
      "loss": 3.9602,
      "step": 39880
    },
    {
      "epoch": 0.08310416666666667,
      "grad_norm": 0.790923535823822,
      "learning_rate": 0.00029537289999528535,
      "loss": 4.0868,
      "step": 39890
    },
    {
      "epoch": 0.083125,
      "grad_norm": 0.6986278295516968,
      "learning_rate": 0.00029537046993046155,
      "loss": 3.9742,
      "step": 39900
    },
    {
      "epoch": 0.08314583333333334,
      "grad_norm": 0.7254986763000488,
      "learning_rate": 0.0002953680392376948,
      "loss": 3.9892,
      "step": 39910
    },
    {
      "epoch": 0.08316666666666667,
      "grad_norm": 0.7798058986663818,
      "learning_rate": 0.0002953656079169957,
      "loss": 3.8949,
      "step": 39920
    },
    {
      "epoch": 0.0831875,
      "grad_norm": 0.7755566239356995,
      "learning_rate": 0.00029536317596837473,
      "loss": 4.2092,
      "step": 39930
    },
    {
      "epoch": 0.08320833333333333,
      "grad_norm": 0.8778617978096008,
      "learning_rate": 0.0002953607433918423,
      "loss": 3.8185,
      "step": 39940
    },
    {
      "epoch": 0.08322916666666667,
      "grad_norm": 0.7662438750267029,
      "learning_rate": 0.0002953583101874091,
      "loss": 4.0375,
      "step": 39950
    },
    {
      "epoch": 0.08325,
      "grad_norm": 0.753700852394104,
      "learning_rate": 0.00029535587635508547,
      "loss": 4.0199,
      "step": 39960
    },
    {
      "epoch": 0.08327083333333334,
      "grad_norm": 0.7535341382026672,
      "learning_rate": 0.000295353441894882,
      "loss": 3.8479,
      "step": 39970
    },
    {
      "epoch": 0.08329166666666667,
      "grad_norm": 0.8183071613311768,
      "learning_rate": 0.0002953510068068092,
      "loss": 3.9107,
      "step": 39980
    },
    {
      "epoch": 0.0833125,
      "grad_norm": 0.9599559903144836,
      "learning_rate": 0.00029534857109087757,
      "loss": 4.0527,
      "step": 39990
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 0.7752543091773987,
      "learning_rate": 0.0002953461347470977,
      "loss": 3.8529,
      "step": 40000
    },
    {
      "epoch": 0.08333333333333333,
      "eval_loss": 4.3160858154296875,
      "eval_runtime": 9.7171,
      "eval_samples_per_second": 1.029,
      "eval_steps_per_second": 0.309,
      "step": 40000
    },
    {
      "epoch": 0.08335416666666666,
      "grad_norm": 0.8810330033302307,
      "learning_rate": 0.00029534369777547997,
      "loss": 3.9633,
      "step": 40010
    },
    {
      "epoch": 0.083375,
      "grad_norm": 0.7451746463775635,
      "learning_rate": 0.0002953412601760351,
      "loss": 3.9719,
      "step": 40020
    },
    {
      "epoch": 0.08339583333333334,
      "grad_norm": 0.6635525822639465,
      "learning_rate": 0.00029533882194877345,
      "loss": 3.9893,
      "step": 40030
    },
    {
      "epoch": 0.08341666666666667,
      "grad_norm": 0.7034791707992554,
      "learning_rate": 0.0002953363830937056,
      "loss": 4.1368,
      "step": 40040
    },
    {
      "epoch": 0.0834375,
      "grad_norm": 0.8015502095222473,
      "learning_rate": 0.00029533394361084213,
      "loss": 4.0442,
      "step": 40050
    },
    {
      "epoch": 0.08345833333333333,
      "grad_norm": 0.9256530404090881,
      "learning_rate": 0.00029533150350019355,
      "loss": 3.9799,
      "step": 40060
    },
    {
      "epoch": 0.08347916666666666,
      "grad_norm": 0.7481572031974792,
      "learning_rate": 0.00029532906276177044,
      "loss": 3.7837,
      "step": 40070
    },
    {
      "epoch": 0.0835,
      "grad_norm": 0.8887359499931335,
      "learning_rate": 0.00029532662139558326,
      "loss": 4.0775,
      "step": 40080
    },
    {
      "epoch": 0.08352083333333334,
      "grad_norm": 0.7956116199493408,
      "learning_rate": 0.0002953241794016426,
      "loss": 4.0568,
      "step": 40090
    },
    {
      "epoch": 0.08354166666666667,
      "grad_norm": 0.8131878972053528,
      "learning_rate": 0.000295321736779959,
      "loss": 4.1487,
      "step": 40100
    },
    {
      "epoch": 0.0835625,
      "grad_norm": 0.8691834211349487,
      "learning_rate": 0.0002953192935305431,
      "loss": 4.1206,
      "step": 40110
    },
    {
      "epoch": 0.08358333333333333,
      "grad_norm": 0.8800872564315796,
      "learning_rate": 0.0002953168496534053,
      "loss": 3.9826,
      "step": 40120
    },
    {
      "epoch": 0.08360416666666666,
      "grad_norm": 0.8334797620773315,
      "learning_rate": 0.0002953144051485562,
      "loss": 3.9316,
      "step": 40130
    },
    {
      "epoch": 0.083625,
      "grad_norm": 0.7883142232894897,
      "learning_rate": 0.00029531196001600645,
      "loss": 4.0256,
      "step": 40140
    },
    {
      "epoch": 0.08364583333333334,
      "grad_norm": 0.7695050239562988,
      "learning_rate": 0.0002953095142557665,
      "loss": 4.1047,
      "step": 40150
    },
    {
      "epoch": 0.08366666666666667,
      "grad_norm": 0.7532522678375244,
      "learning_rate": 0.000295307067867847,
      "loss": 3.9578,
      "step": 40160
    },
    {
      "epoch": 0.0836875,
      "grad_norm": 0.8554174900054932,
      "learning_rate": 0.0002953046208522585,
      "loss": 4.0071,
      "step": 40170
    },
    {
      "epoch": 0.08370833333333333,
      "grad_norm": 1.0648465156555176,
      "learning_rate": 0.00029530217320901153,
      "loss": 3.8847,
      "step": 40180
    },
    {
      "epoch": 0.08372916666666666,
      "grad_norm": 0.9709292054176331,
      "learning_rate": 0.0002952997249381167,
      "loss": 3.94,
      "step": 40190
    },
    {
      "epoch": 0.08375,
      "grad_norm": 0.8761364221572876,
      "learning_rate": 0.00029529727603958456,
      "loss": 4.0095,
      "step": 40200
    },
    {
      "epoch": 0.08377083333333334,
      "grad_norm": 0.9817759394645691,
      "learning_rate": 0.00029529482651342566,
      "loss": 4.0573,
      "step": 40210
    },
    {
      "epoch": 0.08379166666666667,
      "grad_norm": 0.7559182643890381,
      "learning_rate": 0.0002952923763596507,
      "loss": 4.0911,
      "step": 40220
    },
    {
      "epoch": 0.0838125,
      "grad_norm": 0.7756284475326538,
      "learning_rate": 0.0002952899255782702,
      "loss": 4.0082,
      "step": 40230
    },
    {
      "epoch": 0.08383333333333333,
      "grad_norm": 0.6966274380683899,
      "learning_rate": 0.00029528747416929463,
      "loss": 3.974,
      "step": 40240
    },
    {
      "epoch": 0.08385416666666666,
      "grad_norm": 0.7456491589546204,
      "learning_rate": 0.0002952850221327347,
      "loss": 3.9915,
      "step": 40250
    },
    {
      "epoch": 0.083875,
      "grad_norm": 0.791057288646698,
      "learning_rate": 0.00029528256946860103,
      "loss": 4.0014,
      "step": 40260
    },
    {
      "epoch": 0.08389583333333334,
      "grad_norm": 0.781719982624054,
      "learning_rate": 0.0002952801161769042,
      "loss": 3.9367,
      "step": 40270
    },
    {
      "epoch": 0.08391666666666667,
      "grad_norm": 0.7719324231147766,
      "learning_rate": 0.00029527766225765473,
      "loss": 3.8893,
      "step": 40280
    },
    {
      "epoch": 0.0839375,
      "grad_norm": 0.8983016014099121,
      "learning_rate": 0.0002952752077108632,
      "loss": 3.9955,
      "step": 40290
    },
    {
      "epoch": 0.08395833333333333,
      "grad_norm": 0.8440729975700378,
      "learning_rate": 0.00029527275253654037,
      "loss": 4.2824,
      "step": 40300
    },
    {
      "epoch": 0.08397916666666666,
      "grad_norm": 0.8424513936042786,
      "learning_rate": 0.0002952702967346967,
      "loss": 4.0175,
      "step": 40310
    },
    {
      "epoch": 0.084,
      "grad_norm": 0.7515408992767334,
      "learning_rate": 0.0002952678403053429,
      "loss": 4.0967,
      "step": 40320
    },
    {
      "epoch": 0.08402083333333334,
      "grad_norm": 0.7701563239097595,
      "learning_rate": 0.0002952653832484895,
      "loss": 3.9375,
      "step": 40330
    },
    {
      "epoch": 0.08404166666666667,
      "grad_norm": 0.8456514477729797,
      "learning_rate": 0.0002952629255641471,
      "loss": 3.9784,
      "step": 40340
    },
    {
      "epoch": 0.0840625,
      "grad_norm": 0.793245792388916,
      "learning_rate": 0.0002952604672523264,
      "loss": 4.1198,
      "step": 40350
    },
    {
      "epoch": 0.08408333333333333,
      "grad_norm": 1.0205844640731812,
      "learning_rate": 0.000295258008313038,
      "loss": 4.1096,
      "step": 40360
    },
    {
      "epoch": 0.08410416666666666,
      "grad_norm": 0.8541035056114197,
      "learning_rate": 0.00029525554874629246,
      "loss": 4.0664,
      "step": 40370
    },
    {
      "epoch": 0.084125,
      "grad_norm": 0.8074439764022827,
      "learning_rate": 0.0002952530885521005,
      "loss": 4.182,
      "step": 40380
    },
    {
      "epoch": 0.08414583333333334,
      "grad_norm": 0.9555111527442932,
      "learning_rate": 0.00029525062773047263,
      "loss": 4.023,
      "step": 40390
    },
    {
      "epoch": 0.08416666666666667,
      "grad_norm": 0.8645537495613098,
      "learning_rate": 0.0002952481662814196,
      "loss": 3.9448,
      "step": 40400
    },
    {
      "epoch": 0.0841875,
      "grad_norm": 0.8022111654281616,
      "learning_rate": 0.00029524570420495197,
      "loss": 3.911,
      "step": 40410
    },
    {
      "epoch": 0.08420833333333333,
      "grad_norm": 0.7943487167358398,
      "learning_rate": 0.0002952432415010804,
      "loss": 3.9569,
      "step": 40420
    },
    {
      "epoch": 0.08422916666666666,
      "grad_norm": 0.8422197699546814,
      "learning_rate": 0.0002952407781698155,
      "loss": 4.0461,
      "step": 40430
    },
    {
      "epoch": 0.08425,
      "grad_norm": 0.8669431209564209,
      "learning_rate": 0.0002952383142111679,
      "loss": 3.9131,
      "step": 40440
    },
    {
      "epoch": 0.08427083333333334,
      "grad_norm": 0.8977519869804382,
      "learning_rate": 0.0002952358496251483,
      "loss": 4.0619,
      "step": 40450
    },
    {
      "epoch": 0.08429166666666667,
      "grad_norm": 0.8267379999160767,
      "learning_rate": 0.0002952333844117673,
      "loss": 3.9954,
      "step": 40460
    },
    {
      "epoch": 0.0843125,
      "grad_norm": 0.7932602167129517,
      "learning_rate": 0.0002952309185710356,
      "loss": 4.0215,
      "step": 40470
    },
    {
      "epoch": 0.08433333333333333,
      "grad_norm": 0.8399981260299683,
      "learning_rate": 0.00029522845210296376,
      "loss": 4.0082,
      "step": 40480
    },
    {
      "epoch": 0.08435416666666666,
      "grad_norm": 0.7943058609962463,
      "learning_rate": 0.00029522598500756253,
      "loss": 3.866,
      "step": 40490
    },
    {
      "epoch": 0.084375,
      "grad_norm": 0.9743422865867615,
      "learning_rate": 0.00029522351728484257,
      "loss": 3.8203,
      "step": 40500
    },
    {
      "epoch": 0.08439583333333334,
      "grad_norm": 0.8505024313926697,
      "learning_rate": 0.00029522104893481445,
      "loss": 3.9142,
      "step": 40510
    },
    {
      "epoch": 0.08441666666666667,
      "grad_norm": 0.9081649780273438,
      "learning_rate": 0.0002952185799574889,
      "loss": 3.9716,
      "step": 40520
    },
    {
      "epoch": 0.0844375,
      "grad_norm": 0.808097779750824,
      "learning_rate": 0.0002952161103528765,
      "loss": 3.8261,
      "step": 40530
    },
    {
      "epoch": 0.08445833333333333,
      "grad_norm": 0.6919296383857727,
      "learning_rate": 0.00029521364012098807,
      "loss": 3.9582,
      "step": 40540
    },
    {
      "epoch": 0.08447916666666666,
      "grad_norm": 0.8484278917312622,
      "learning_rate": 0.0002952111692618342,
      "loss": 4.0673,
      "step": 40550
    },
    {
      "epoch": 0.0845,
      "grad_norm": 0.8064979910850525,
      "learning_rate": 0.0002952086977754255,
      "loss": 3.9402,
      "step": 40560
    },
    {
      "epoch": 0.08452083333333334,
      "grad_norm": 1.082135796546936,
      "learning_rate": 0.00029520622566177275,
      "loss": 4.0787,
      "step": 40570
    },
    {
      "epoch": 0.08454166666666667,
      "grad_norm": 0.7906471490859985,
      "learning_rate": 0.0002952037529208865,
      "loss": 3.9984,
      "step": 40580
    },
    {
      "epoch": 0.0845625,
      "grad_norm": 0.7863172888755798,
      "learning_rate": 0.0002952012795527776,
      "loss": 3.9827,
      "step": 40590
    },
    {
      "epoch": 0.08458333333333333,
      "grad_norm": 0.7485764026641846,
      "learning_rate": 0.0002951988055574566,
      "loss": 3.9518,
      "step": 40600
    },
    {
      "epoch": 0.08460416666666666,
      "grad_norm": 0.8609005212783813,
      "learning_rate": 0.00029519633093493425,
      "loss": 3.9788,
      "step": 40610
    },
    {
      "epoch": 0.084625,
      "grad_norm": 0.9358100295066833,
      "learning_rate": 0.00029519385568522126,
      "loss": 3.9793,
      "step": 40620
    },
    {
      "epoch": 0.08464583333333334,
      "grad_norm": 0.7219364047050476,
      "learning_rate": 0.0002951913798083282,
      "loss": 3.9604,
      "step": 40630
    },
    {
      "epoch": 0.08466666666666667,
      "grad_norm": 0.8729304075241089,
      "learning_rate": 0.00029518890330426596,
      "loss": 3.9641,
      "step": 40640
    },
    {
      "epoch": 0.0846875,
      "grad_norm": 0.7921643853187561,
      "learning_rate": 0.00029518642617304506,
      "loss": 3.9851,
      "step": 40650
    },
    {
      "epoch": 0.08470833333333333,
      "grad_norm": 0.7497682571411133,
      "learning_rate": 0.00029518394841467624,
      "loss": 3.9941,
      "step": 40660
    },
    {
      "epoch": 0.08472916666666666,
      "grad_norm": 0.7908227443695068,
      "learning_rate": 0.0002951814700291703,
      "loss": 4.023,
      "step": 40670
    },
    {
      "epoch": 0.08475,
      "grad_norm": 1.077592372894287,
      "learning_rate": 0.0002951789910165378,
      "loss": 4.0483,
      "step": 40680
    },
    {
      "epoch": 0.08477083333333334,
      "grad_norm": 0.774064838886261,
      "learning_rate": 0.00029517651137678957,
      "loss": 4.1095,
      "step": 40690
    },
    {
      "epoch": 0.08479166666666667,
      "grad_norm": 0.748116135597229,
      "learning_rate": 0.0002951740311099363,
      "loss": 4.0148,
      "step": 40700
    },
    {
      "epoch": 0.0848125,
      "grad_norm": 0.8239189982414246,
      "learning_rate": 0.00029517155021598865,
      "loss": 3.9531,
      "step": 40710
    },
    {
      "epoch": 0.08483333333333333,
      "grad_norm": 0.8814311623573303,
      "learning_rate": 0.00029516906869495735,
      "loss": 3.8923,
      "step": 40720
    },
    {
      "epoch": 0.08485416666666666,
      "grad_norm": 0.809891402721405,
      "learning_rate": 0.00029516658654685316,
      "loss": 3.9542,
      "step": 40730
    },
    {
      "epoch": 0.084875,
      "grad_norm": 0.7630031108856201,
      "learning_rate": 0.00029516410377168677,
      "loss": 4.0421,
      "step": 40740
    },
    {
      "epoch": 0.08489583333333334,
      "grad_norm": 0.7674872279167175,
      "learning_rate": 0.0002951616203694689,
      "loss": 4.186,
      "step": 40750
    },
    {
      "epoch": 0.08491666666666667,
      "grad_norm": 0.7502391934394836,
      "learning_rate": 0.0002951591363402103,
      "loss": 3.8337,
      "step": 40760
    },
    {
      "epoch": 0.0849375,
      "grad_norm": 0.8281055092811584,
      "learning_rate": 0.0002951566516839217,
      "loss": 4.0981,
      "step": 40770
    },
    {
      "epoch": 0.08495833333333333,
      "grad_norm": 0.855686604976654,
      "learning_rate": 0.00029515416640061383,
      "loss": 4.0845,
      "step": 40780
    },
    {
      "epoch": 0.08497916666666666,
      "grad_norm": 0.7378755807876587,
      "learning_rate": 0.00029515168049029736,
      "loss": 4.0948,
      "step": 40790
    },
    {
      "epoch": 0.085,
      "grad_norm": 0.8163841366767883,
      "learning_rate": 0.00029514919395298315,
      "loss": 3.9258,
      "step": 40800
    },
    {
      "epoch": 0.08502083333333334,
      "grad_norm": 0.8995517492294312,
      "learning_rate": 0.00029514670678868187,
      "loss": 4.0832,
      "step": 40810
    },
    {
      "epoch": 0.08504166666666667,
      "grad_norm": 0.878119170665741,
      "learning_rate": 0.0002951442189974042,
      "loss": 3.8408,
      "step": 40820
    },
    {
      "epoch": 0.0850625,
      "grad_norm": 1.2731839418411255,
      "learning_rate": 0.00029514173057916104,
      "loss": 3.903,
      "step": 40830
    },
    {
      "epoch": 0.08508333333333333,
      "grad_norm": 1.034277319908142,
      "learning_rate": 0.000295139241533963,
      "loss": 3.9679,
      "step": 40840
    },
    {
      "epoch": 0.08510416666666666,
      "grad_norm": 0.830437421798706,
      "learning_rate": 0.00029513675186182095,
      "loss": 4.0398,
      "step": 40850
    },
    {
      "epoch": 0.085125,
      "grad_norm": 0.6920918822288513,
      "learning_rate": 0.0002951342615627455,
      "loss": 3.9986,
      "step": 40860
    },
    {
      "epoch": 0.08514583333333334,
      "grad_norm": 0.7269055247306824,
      "learning_rate": 0.0002951317706367475,
      "loss": 3.7516,
      "step": 40870
    },
    {
      "epoch": 0.08516666666666667,
      "grad_norm": 1.0029613971710205,
      "learning_rate": 0.00029512927908383773,
      "loss": 4.0711,
      "step": 40880
    },
    {
      "epoch": 0.0851875,
      "grad_norm": 0.9874579906463623,
      "learning_rate": 0.00029512678690402696,
      "loss": 4.0736,
      "step": 40890
    },
    {
      "epoch": 0.08520833333333333,
      "grad_norm": 0.935871422290802,
      "learning_rate": 0.0002951242940973258,
      "loss": 4.0241,
      "step": 40900
    },
    {
      "epoch": 0.08522916666666666,
      "grad_norm": 0.8807684183120728,
      "learning_rate": 0.00029512180066374523,
      "loss": 4.0884,
      "step": 40910
    },
    {
      "epoch": 0.08525,
      "grad_norm": 0.8946520686149597,
      "learning_rate": 0.0002951193066032959,
      "loss": 4.0403,
      "step": 40920
    },
    {
      "epoch": 0.08527083333333334,
      "grad_norm": 0.8201988935470581,
      "learning_rate": 0.00029511681191598865,
      "loss": 3.8645,
      "step": 40930
    },
    {
      "epoch": 0.08529166666666667,
      "grad_norm": 0.8593981862068176,
      "learning_rate": 0.0002951143166018342,
      "loss": 3.9542,
      "step": 40940
    },
    {
      "epoch": 0.0853125,
      "grad_norm": 0.8323739171028137,
      "learning_rate": 0.0002951118206608433,
      "loss": 4.1311,
      "step": 40950
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 1.0657445192337036,
      "learning_rate": 0.00029510932409302677,
      "loss": 3.9995,
      "step": 40960
    },
    {
      "epoch": 0.08535416666666666,
      "grad_norm": 0.8317513465881348,
      "learning_rate": 0.00029510682689839535,
      "loss": 4.0846,
      "step": 40970
    },
    {
      "epoch": 0.085375,
      "grad_norm": 0.7623651623725891,
      "learning_rate": 0.00029510432907696,
      "loss": 4.026,
      "step": 40980
    },
    {
      "epoch": 0.08539583333333334,
      "grad_norm": 0.8314976692199707,
      "learning_rate": 0.0002951018306287313,
      "loss": 4.0619,
      "step": 40990
    },
    {
      "epoch": 0.08541666666666667,
      "grad_norm": 0.7977052927017212,
      "learning_rate": 0.00029509933155372014,
      "loss": 3.8106,
      "step": 41000
    },
    {
      "epoch": 0.08541666666666667,
      "eval_loss": 4.3104071617126465,
      "eval_runtime": 9.1906,
      "eval_samples_per_second": 1.088,
      "eval_steps_per_second": 0.326,
      "step": 41000
    },
    {
      "epoch": 0.0854375,
      "grad_norm": 1.0024137496948242,
      "learning_rate": 0.00029509683185193733,
      "loss": 4.1206,
      "step": 41010
    },
    {
      "epoch": 0.08545833333333333,
      "grad_norm": 0.804386556148529,
      "learning_rate": 0.0002950943315233936,
      "loss": 3.9907,
      "step": 41020
    },
    {
      "epoch": 0.08547916666666666,
      "grad_norm": 0.87026447057724,
      "learning_rate": 0.0002950918305680998,
      "loss": 4.0517,
      "step": 41030
    },
    {
      "epoch": 0.0855,
      "grad_norm": 0.8320297598838806,
      "learning_rate": 0.00029508932898606675,
      "loss": 4.0589,
      "step": 41040
    },
    {
      "epoch": 0.08552083333333334,
      "grad_norm": 0.77891606092453,
      "learning_rate": 0.0002950868267773052,
      "loss": 4.1862,
      "step": 41050
    },
    {
      "epoch": 0.08554166666666667,
      "grad_norm": 0.7073086500167847,
      "learning_rate": 0.00029508432394182604,
      "loss": 4.2102,
      "step": 41060
    },
    {
      "epoch": 0.0855625,
      "grad_norm": 0.7883306741714478,
      "learning_rate": 0.00029508182047964,
      "loss": 4.0454,
      "step": 41070
    },
    {
      "epoch": 0.08558333333333333,
      "grad_norm": 0.7921274304389954,
      "learning_rate": 0.0002950793163907579,
      "loss": 3.9783,
      "step": 41080
    },
    {
      "epoch": 0.08560416666666666,
      "grad_norm": 0.7707151174545288,
      "learning_rate": 0.0002950768116751906,
      "loss": 3.9141,
      "step": 41090
    },
    {
      "epoch": 0.085625,
      "grad_norm": 0.7047751545906067,
      "learning_rate": 0.0002950743063329489,
      "loss": 4.0247,
      "step": 41100
    },
    {
      "epoch": 0.08564583333333334,
      "grad_norm": 0.8615541458129883,
      "learning_rate": 0.00029507180036404364,
      "loss": 3.9876,
      "step": 41110
    },
    {
      "epoch": 0.08566666666666667,
      "grad_norm": 0.799470067024231,
      "learning_rate": 0.0002950692937684856,
      "loss": 4.0256,
      "step": 41120
    },
    {
      "epoch": 0.0856875,
      "grad_norm": 0.8191009759902954,
      "learning_rate": 0.0002950667865462856,
      "loss": 3.9168,
      "step": 41130
    },
    {
      "epoch": 0.08570833333333333,
      "grad_norm": 0.7492142915725708,
      "learning_rate": 0.00029506427869745454,
      "loss": 4.0545,
      "step": 41140
    },
    {
      "epoch": 0.08572916666666666,
      "grad_norm": 0.8375064134597778,
      "learning_rate": 0.00029506177022200326,
      "loss": 3.8802,
      "step": 41150
    },
    {
      "epoch": 0.08575,
      "grad_norm": 0.8648855090141296,
      "learning_rate": 0.0002950592611199424,
      "loss": 4.0726,
      "step": 41160
    },
    {
      "epoch": 0.08577083333333334,
      "grad_norm": 0.7259910106658936,
      "learning_rate": 0.0002950567513912831,
      "loss": 4.066,
      "step": 41170
    },
    {
      "epoch": 0.08579166666666667,
      "grad_norm": 0.8060943484306335,
      "learning_rate": 0.000295054241036036,
      "loss": 4.0666,
      "step": 41180
    },
    {
      "epoch": 0.0858125,
      "grad_norm": 0.7671103477478027,
      "learning_rate": 0.000295051730054212,
      "loss": 3.9625,
      "step": 41190
    },
    {
      "epoch": 0.08583333333333333,
      "grad_norm": 0.841223955154419,
      "learning_rate": 0.00029504921844582195,
      "loss": 4.0131,
      "step": 41200
    },
    {
      "epoch": 0.08585416666666666,
      "grad_norm": 0.7629988789558411,
      "learning_rate": 0.0002950467062108767,
      "loss": 4.0356,
      "step": 41210
    },
    {
      "epoch": 0.085875,
      "grad_norm": 0.7619121074676514,
      "learning_rate": 0.0002950441933493871,
      "loss": 3.8937,
      "step": 41220
    },
    {
      "epoch": 0.08589583333333334,
      "grad_norm": 0.8851059079170227,
      "learning_rate": 0.000295041679861364,
      "loss": 3.804,
      "step": 41230
    },
    {
      "epoch": 0.08591666666666667,
      "grad_norm": 0.7782284617424011,
      "learning_rate": 0.00029503916574681816,
      "loss": 3.9107,
      "step": 41240
    },
    {
      "epoch": 0.0859375,
      "grad_norm": 0.8175980448722839,
      "learning_rate": 0.0002950366510057607,
      "loss": 4.1916,
      "step": 41250
    },
    {
      "epoch": 0.08595833333333333,
      "grad_norm": 0.7695065140724182,
      "learning_rate": 0.0002950341356382022,
      "loss": 4.1557,
      "step": 41260
    },
    {
      "epoch": 0.08597916666666666,
      "grad_norm": 0.7636656165122986,
      "learning_rate": 0.00029503161964415366,
      "loss": 3.7724,
      "step": 41270
    },
    {
      "epoch": 0.086,
      "grad_norm": 0.7548907995223999,
      "learning_rate": 0.00029502910302362586,
      "loss": 4.2182,
      "step": 41280
    },
    {
      "epoch": 0.08602083333333334,
      "grad_norm": 1.0109362602233887,
      "learning_rate": 0.0002950265857766299,
      "loss": 3.9992,
      "step": 41290
    },
    {
      "epoch": 0.08604166666666667,
      "grad_norm": 0.8251057863235474,
      "learning_rate": 0.00029502406790317637,
      "loss": 3.8969,
      "step": 41300
    },
    {
      "epoch": 0.0860625,
      "grad_norm": 0.8136770129203796,
      "learning_rate": 0.0002950215494032763,
      "loss": 3.885,
      "step": 41310
    },
    {
      "epoch": 0.08608333333333333,
      "grad_norm": 0.7827541828155518,
      "learning_rate": 0.00029501903027694056,
      "loss": 4.1324,
      "step": 41320
    },
    {
      "epoch": 0.08610416666666666,
      "grad_norm": 0.9810552597045898,
      "learning_rate": 0.00029501651052418,
      "loss": 4.1593,
      "step": 41330
    },
    {
      "epoch": 0.086125,
      "grad_norm": 0.7190760970115662,
      "learning_rate": 0.00029501399014500554,
      "loss": 4.0375,
      "step": 41340
    },
    {
      "epoch": 0.08614583333333334,
      "grad_norm": 0.8209031820297241,
      "learning_rate": 0.000295011469139428,
      "loss": 4.1421,
      "step": 41350
    },
    {
      "epoch": 0.08616666666666667,
      "grad_norm": 0.7525475025177002,
      "learning_rate": 0.0002950089475074583,
      "loss": 3.9547,
      "step": 41360
    },
    {
      "epoch": 0.0861875,
      "grad_norm": 0.7952344417572021,
      "learning_rate": 0.0002950064252491074,
      "loss": 3.9079,
      "step": 41370
    },
    {
      "epoch": 0.08620833333333333,
      "grad_norm": 0.9942291378974915,
      "learning_rate": 0.0002950039023643862,
      "loss": 3.957,
      "step": 41380
    },
    {
      "epoch": 0.08622916666666666,
      "grad_norm": 0.7972968220710754,
      "learning_rate": 0.00029500137885330537,
      "loss": 3.9557,
      "step": 41390
    },
    {
      "epoch": 0.08625,
      "grad_norm": 0.9264628887176514,
      "learning_rate": 0.00029499885471587613,
      "loss": 3.8431,
      "step": 41400
    },
    {
      "epoch": 0.08627083333333334,
      "grad_norm": 0.8071819543838501,
      "learning_rate": 0.00029499632995210915,
      "loss": 3.9863,
      "step": 41410
    },
    {
      "epoch": 0.08629166666666667,
      "grad_norm": 0.7748240828514099,
      "learning_rate": 0.00029499380456201544,
      "loss": 4.0571,
      "step": 41420
    },
    {
      "epoch": 0.0863125,
      "grad_norm": 0.9464485049247742,
      "learning_rate": 0.0002949912785456059,
      "loss": 4.0748,
      "step": 41430
    },
    {
      "epoch": 0.08633333333333333,
      "grad_norm": 0.8939986228942871,
      "learning_rate": 0.0002949887519028914,
      "loss": 4.0442,
      "step": 41440
    },
    {
      "epoch": 0.08635416666666666,
      "grad_norm": 0.8501853346824646,
      "learning_rate": 0.0002949862246338829,
      "loss": 4.1724,
      "step": 41450
    },
    {
      "epoch": 0.086375,
      "grad_norm": 0.8819860219955444,
      "learning_rate": 0.0002949836967385913,
      "loss": 3.9074,
      "step": 41460
    },
    {
      "epoch": 0.08639583333333334,
      "grad_norm": 0.8306633830070496,
      "learning_rate": 0.00029498116821702753,
      "loss": 4.1966,
      "step": 41470
    },
    {
      "epoch": 0.08641666666666667,
      "grad_norm": 0.83210289478302,
      "learning_rate": 0.00029497863906920244,
      "loss": 3.9871,
      "step": 41480
    },
    {
      "epoch": 0.0864375,
      "grad_norm": 0.7752358913421631,
      "learning_rate": 0.0002949761092951271,
      "loss": 3.937,
      "step": 41490
    },
    {
      "epoch": 0.08645833333333333,
      "grad_norm": 0.7553769946098328,
      "learning_rate": 0.0002949735788948123,
      "loss": 4.0719,
      "step": 41500
    },
    {
      "epoch": 0.08647916666666666,
      "grad_norm": 0.9787576794624329,
      "learning_rate": 0.000294971047868269,
      "loss": 3.9406,
      "step": 41510
    },
    {
      "epoch": 0.0865,
      "grad_norm": 0.8051668405532837,
      "learning_rate": 0.0002949685162155082,
      "loss": 3.9068,
      "step": 41520
    },
    {
      "epoch": 0.08652083333333334,
      "grad_norm": 0.8855612277984619,
      "learning_rate": 0.0002949659839365408,
      "loss": 4.0666,
      "step": 41530
    },
    {
      "epoch": 0.08654166666666667,
      "grad_norm": 0.7393046617507935,
      "learning_rate": 0.00029496345103137775,
      "loss": 3.8983,
      "step": 41540
    },
    {
      "epoch": 0.0865625,
      "grad_norm": 0.7981412410736084,
      "learning_rate": 0.0002949609175000299,
      "loss": 3.951,
      "step": 41550
    },
    {
      "epoch": 0.08658333333333333,
      "grad_norm": 0.8218230605125427,
      "learning_rate": 0.0002949583833425083,
      "loss": 4.0063,
      "step": 41560
    },
    {
      "epoch": 0.08660416666666666,
      "grad_norm": 0.9690958857536316,
      "learning_rate": 0.0002949558485588239,
      "loss": 4.0212,
      "step": 41570
    },
    {
      "epoch": 0.086625,
      "grad_norm": 0.7868458032608032,
      "learning_rate": 0.00029495331314898757,
      "loss": 4.0097,
      "step": 41580
    },
    {
      "epoch": 0.08664583333333334,
      "grad_norm": 0.7454489469528198,
      "learning_rate": 0.0002949507771130103,
      "loss": 4.1879,
      "step": 41590
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 0.744897186756134,
      "learning_rate": 0.00029494824045090307,
      "loss": 4.0635,
      "step": 41600
    },
    {
      "epoch": 0.0866875,
      "grad_norm": 0.91488116979599,
      "learning_rate": 0.0002949457031626768,
      "loss": 3.9935,
      "step": 41610
    },
    {
      "epoch": 0.08670833333333333,
      "grad_norm": 0.7015627026557922,
      "learning_rate": 0.0002949431652483425,
      "loss": 4.1563,
      "step": 41620
    },
    {
      "epoch": 0.08672916666666666,
      "grad_norm": 0.8471096754074097,
      "learning_rate": 0.0002949406267079111,
      "loss": 3.9515,
      "step": 41630
    },
    {
      "epoch": 0.08675,
      "grad_norm": 0.9333097338676453,
      "learning_rate": 0.00029493808754139353,
      "loss": 3.961,
      "step": 41640
    },
    {
      "epoch": 0.08677083333333334,
      "grad_norm": 0.6925346255302429,
      "learning_rate": 0.00029493554774880077,
      "loss": 4.0183,
      "step": 41650
    },
    {
      "epoch": 0.08679166666666667,
      "grad_norm": 0.8468007445335388,
      "learning_rate": 0.00029493300733014386,
      "loss": 3.9,
      "step": 41660
    },
    {
      "epoch": 0.0868125,
      "grad_norm": 0.6942992210388184,
      "learning_rate": 0.00029493046628543366,
      "loss": 3.9264,
      "step": 41670
    },
    {
      "epoch": 0.08683333333333333,
      "grad_norm": 0.8026946187019348,
      "learning_rate": 0.00029492792461468126,
      "loss": 4.0087,
      "step": 41680
    },
    {
      "epoch": 0.08685416666666666,
      "grad_norm": 0.7880997061729431,
      "learning_rate": 0.00029492538231789764,
      "loss": 4.0191,
      "step": 41690
    },
    {
      "epoch": 0.086875,
      "grad_norm": 0.667799711227417,
      "learning_rate": 0.00029492283939509367,
      "loss": 3.8421,
      "step": 41700
    },
    {
      "epoch": 0.08689583333333334,
      "grad_norm": 0.7299315333366394,
      "learning_rate": 0.0002949202958462804,
      "loss": 3.9682,
      "step": 41710
    },
    {
      "epoch": 0.08691666666666667,
      "grad_norm": 0.7824422717094421,
      "learning_rate": 0.00029491775167146884,
      "loss": 4.2277,
      "step": 41720
    },
    {
      "epoch": 0.0869375,
      "grad_norm": 0.8981888890266418,
      "learning_rate": 0.00029491520687067,
      "loss": 3.9808,
      "step": 41730
    },
    {
      "epoch": 0.08695833333333333,
      "grad_norm": 0.9400178790092468,
      "learning_rate": 0.00029491266144389476,
      "loss": 4.1659,
      "step": 41740
    },
    {
      "epoch": 0.08697916666666666,
      "grad_norm": 0.7555736899375916,
      "learning_rate": 0.00029491011539115416,
      "loss": 3.9537,
      "step": 41750
    },
    {
      "epoch": 0.087,
      "grad_norm": 1.0127240419387817,
      "learning_rate": 0.00029490756871245925,
      "loss": 4.1171,
      "step": 41760
    },
    {
      "epoch": 0.08702083333333334,
      "grad_norm": 0.8870262503623962,
      "learning_rate": 0.00029490502140782103,
      "loss": 3.8499,
      "step": 41770
    },
    {
      "epoch": 0.08704166666666667,
      "grad_norm": 0.8875594139099121,
      "learning_rate": 0.00029490247347725045,
      "loss": 4.0795,
      "step": 41780
    },
    {
      "epoch": 0.0870625,
      "grad_norm": 0.8134050965309143,
      "learning_rate": 0.0002948999249207585,
      "loss": 3.8866,
      "step": 41790
    },
    {
      "epoch": 0.08708333333333333,
      "grad_norm": 0.7487722635269165,
      "learning_rate": 0.00029489737573835636,
      "loss": 4.0487,
      "step": 41800
    },
    {
      "epoch": 0.08710416666666666,
      "grad_norm": 0.8432722687721252,
      "learning_rate": 0.0002948948259300548,
      "loss": 3.8691,
      "step": 41810
    },
    {
      "epoch": 0.087125,
      "grad_norm": 0.7739296555519104,
      "learning_rate": 0.00029489227549586494,
      "loss": 4.0131,
      "step": 41820
    },
    {
      "epoch": 0.08714583333333334,
      "grad_norm": 0.7204379439353943,
      "learning_rate": 0.00029488972443579786,
      "loss": 4.0794,
      "step": 41830
    },
    {
      "epoch": 0.08716666666666667,
      "grad_norm": 1.6656044721603394,
      "learning_rate": 0.0002948871727498645,
      "loss": 3.9797,
      "step": 41840
    },
    {
      "epoch": 0.0871875,
      "grad_norm": 0.8357318639755249,
      "learning_rate": 0.0002948846204380759,
      "loss": 3.867,
      "step": 41850
    },
    {
      "epoch": 0.08720833333333333,
      "grad_norm": 0.7823435664176941,
      "learning_rate": 0.00029488206750044306,
      "loss": 4.1889,
      "step": 41860
    },
    {
      "epoch": 0.08722916666666666,
      "grad_norm": 1.0176388025283813,
      "learning_rate": 0.00029487951393697713,
      "loss": 4.0583,
      "step": 41870
    },
    {
      "epoch": 0.08725,
      "grad_norm": 0.833292543888092,
      "learning_rate": 0.00029487695974768894,
      "loss": 4.1123,
      "step": 41880
    },
    {
      "epoch": 0.08727083333333334,
      "grad_norm": 0.8002665042877197,
      "learning_rate": 0.00029487440493258967,
      "loss": 4.0134,
      "step": 41890
    },
    {
      "epoch": 0.08729166666666667,
      "grad_norm": 0.8142883777618408,
      "learning_rate": 0.00029487184949169036,
      "loss": 3.9468,
      "step": 41900
    },
    {
      "epoch": 0.0873125,
      "grad_norm": 0.6887205243110657,
      "learning_rate": 0.0002948692934250019,
      "loss": 3.9504,
      "step": 41910
    },
    {
      "epoch": 0.08733333333333333,
      "grad_norm": 0.79004967212677,
      "learning_rate": 0.0002948667367325355,
      "loss": 3.9669,
      "step": 41920
    },
    {
      "epoch": 0.08735416666666666,
      "grad_norm": 0.8711952567100525,
      "learning_rate": 0.0002948641794143022,
      "loss": 4.0087,
      "step": 41930
    },
    {
      "epoch": 0.087375,
      "grad_norm": 0.9570350050926208,
      "learning_rate": 0.00029486162147031287,
      "loss": 4.1573,
      "step": 41940
    },
    {
      "epoch": 0.08739583333333334,
      "grad_norm": 0.7846853137016296,
      "learning_rate": 0.00029485906290057875,
      "loss": 3.9937,
      "step": 41950
    },
    {
      "epoch": 0.08741666666666667,
      "grad_norm": 0.8267229199409485,
      "learning_rate": 0.0002948565037051108,
      "loss": 3.9589,
      "step": 41960
    },
    {
      "epoch": 0.0874375,
      "grad_norm": 0.8485077023506165,
      "learning_rate": 0.0002948539438839201,
      "loss": 3.9785,
      "step": 41970
    },
    {
      "epoch": 0.08745833333333333,
      "grad_norm": 0.8363606333732605,
      "learning_rate": 0.0002948513834370177,
      "loss": 4.0692,
      "step": 41980
    },
    {
      "epoch": 0.08747916666666666,
      "grad_norm": 0.8509315848350525,
      "learning_rate": 0.00029484882236441464,
      "loss": 4.0852,
      "step": 41990
    },
    {
      "epoch": 0.0875,
      "grad_norm": 0.8326745629310608,
      "learning_rate": 0.000294846260666122,
      "loss": 3.969,
      "step": 42000
    },
    {
      "epoch": 0.0875,
      "eval_loss": 4.3201904296875,
      "eval_runtime": 11.1793,
      "eval_samples_per_second": 0.895,
      "eval_steps_per_second": 0.268,
      "step": 42000
    },
    {
      "epoch": 0.08752083333333334,
      "grad_norm": 0.8001047968864441,
      "learning_rate": 0.00029484369834215085,
      "loss": 4.0541,
      "step": 42010
    },
    {
      "epoch": 0.08754166666666667,
      "grad_norm": 0.7435680627822876,
      "learning_rate": 0.0002948411353925123,
      "loss": 4.0293,
      "step": 42020
    },
    {
      "epoch": 0.0875625,
      "grad_norm": 1.0736318826675415,
      "learning_rate": 0.0002948385718172173,
      "loss": 4.1049,
      "step": 42030
    },
    {
      "epoch": 0.08758333333333333,
      "grad_norm": 0.8425572514533997,
      "learning_rate": 0.00029483600761627706,
      "loss": 4.2352,
      "step": 42040
    },
    {
      "epoch": 0.08760416666666666,
      "grad_norm": 0.8880539536476135,
      "learning_rate": 0.0002948334427897026,
      "loss": 3.9055,
      "step": 42050
    },
    {
      "epoch": 0.087625,
      "grad_norm": 0.9886736869812012,
      "learning_rate": 0.00029483087733750494,
      "loss": 3.8333,
      "step": 42060
    },
    {
      "epoch": 0.08764583333333334,
      "grad_norm": 0.7548125982284546,
      "learning_rate": 0.0002948283112596953,
      "loss": 4.0807,
      "step": 42070
    },
    {
      "epoch": 0.08766666666666667,
      "grad_norm": 0.8209026455879211,
      "learning_rate": 0.0002948257445562846,
      "loss": 3.8522,
      "step": 42080
    },
    {
      "epoch": 0.0876875,
      "grad_norm": 0.8678532838821411,
      "learning_rate": 0.00029482317722728406,
      "loss": 3.8797,
      "step": 42090
    },
    {
      "epoch": 0.08770833333333333,
      "grad_norm": 0.825298547744751,
      "learning_rate": 0.0002948206092727047,
      "loss": 3.9976,
      "step": 42100
    },
    {
      "epoch": 0.08772916666666666,
      "grad_norm": 0.7295336723327637,
      "learning_rate": 0.00029481804069255764,
      "loss": 4.1985,
      "step": 42110
    },
    {
      "epoch": 0.08775,
      "grad_norm": 0.8599714040756226,
      "learning_rate": 0.000294815471486854,
      "loss": 4.2141,
      "step": 42120
    },
    {
      "epoch": 0.08777083333333334,
      "grad_norm": 0.7893913984298706,
      "learning_rate": 0.00029481290165560476,
      "loss": 4.1094,
      "step": 42130
    },
    {
      "epoch": 0.08779166666666667,
      "grad_norm": 0.8628185391426086,
      "learning_rate": 0.0002948103311988212,
      "loss": 4.068,
      "step": 42140
    },
    {
      "epoch": 0.0878125,
      "grad_norm": 0.8842236399650574,
      "learning_rate": 0.00029480776011651423,
      "loss": 4.0787,
      "step": 42150
    },
    {
      "epoch": 0.08783333333333333,
      "grad_norm": 0.9375674724578857,
      "learning_rate": 0.00029480518840869515,
      "loss": 4.1803,
      "step": 42160
    },
    {
      "epoch": 0.08785416666666666,
      "grad_norm": 0.8143283724784851,
      "learning_rate": 0.00029480261607537495,
      "loss": 4.0892,
      "step": 42170
    },
    {
      "epoch": 0.087875,
      "grad_norm": 0.7836846113204956,
      "learning_rate": 0.00029480004311656474,
      "loss": 4.1025,
      "step": 42180
    },
    {
      "epoch": 0.08789583333333334,
      "grad_norm": 0.7979072332382202,
      "learning_rate": 0.00029479746953227565,
      "loss": 4.0188,
      "step": 42190
    },
    {
      "epoch": 0.08791666666666667,
      "grad_norm": 0.6883796453475952,
      "learning_rate": 0.00029479489532251884,
      "loss": 4.0588,
      "step": 42200
    },
    {
      "epoch": 0.0879375,
      "grad_norm": 0.8415140509605408,
      "learning_rate": 0.0002947923204873054,
      "loss": 3.9833,
      "step": 42210
    },
    {
      "epoch": 0.08795833333333333,
      "grad_norm": 0.8844811916351318,
      "learning_rate": 0.0002947897450266464,
      "loss": 4.0496,
      "step": 42220
    },
    {
      "epoch": 0.08797916666666666,
      "grad_norm": 0.7492492198944092,
      "learning_rate": 0.00029478716894055303,
      "loss": 3.9183,
      "step": 42230
    },
    {
      "epoch": 0.088,
      "grad_norm": 0.7968578934669495,
      "learning_rate": 0.00029478459222903646,
      "loss": 3.9996,
      "step": 42240
    },
    {
      "epoch": 0.08802083333333334,
      "grad_norm": 0.7849067449569702,
      "learning_rate": 0.0002947820148921077,
      "loss": 4.0639,
      "step": 42250
    },
    {
      "epoch": 0.08804166666666667,
      "grad_norm": 0.7851508855819702,
      "learning_rate": 0.00029477943692977795,
      "loss": 4.1146,
      "step": 42260
    },
    {
      "epoch": 0.0880625,
      "grad_norm": 0.6927087903022766,
      "learning_rate": 0.00029477685834205836,
      "loss": 4.0646,
      "step": 42270
    },
    {
      "epoch": 0.08808333333333333,
      "grad_norm": 0.7478302717208862,
      "learning_rate": 0.00029477427912896,
      "loss": 3.7984,
      "step": 42280
    },
    {
      "epoch": 0.08810416666666666,
      "grad_norm": 0.841584324836731,
      "learning_rate": 0.00029477169929049415,
      "loss": 4.0292,
      "step": 42290
    },
    {
      "epoch": 0.088125,
      "grad_norm": 0.9672145843505859,
      "learning_rate": 0.00029476911882667177,
      "loss": 3.9544,
      "step": 42300
    },
    {
      "epoch": 0.08814583333333334,
      "grad_norm": 0.8598831295967102,
      "learning_rate": 0.00029476653773750417,
      "loss": 4.062,
      "step": 42310
    },
    {
      "epoch": 0.08816666666666667,
      "grad_norm": 0.7894582748413086,
      "learning_rate": 0.0002947639560230024,
      "loss": 4.2106,
      "step": 42320
    },
    {
      "epoch": 0.0881875,
      "grad_norm": 0.8132268190383911,
      "learning_rate": 0.0002947613736831776,
      "loss": 4.1068,
      "step": 42330
    },
    {
      "epoch": 0.08820833333333333,
      "grad_norm": 0.8068294525146484,
      "learning_rate": 0.00029475879071804106,
      "loss": 4.0633,
      "step": 42340
    },
    {
      "epoch": 0.08822916666666666,
      "grad_norm": 0.890400767326355,
      "learning_rate": 0.0002947562071276038,
      "loss": 4.1362,
      "step": 42350
    },
    {
      "epoch": 0.08825,
      "grad_norm": 0.9333928823471069,
      "learning_rate": 0.000294753622911877,
      "loss": 3.8704,
      "step": 42360
    },
    {
      "epoch": 0.08827083333333334,
      "grad_norm": 0.9823259115219116,
      "learning_rate": 0.00029475103807087186,
      "loss": 4.1766,
      "step": 42370
    },
    {
      "epoch": 0.08829166666666667,
      "grad_norm": 0.7210860848426819,
      "learning_rate": 0.00029474845260459953,
      "loss": 4.057,
      "step": 42380
    },
    {
      "epoch": 0.0883125,
      "grad_norm": 0.9392378330230713,
      "learning_rate": 0.0002947458665130712,
      "loss": 4.0108,
      "step": 42390
    },
    {
      "epoch": 0.08833333333333333,
      "grad_norm": 0.7329999804496765,
      "learning_rate": 0.000294743279796298,
      "loss": 3.9424,
      "step": 42400
    },
    {
      "epoch": 0.08835416666666666,
      "grad_norm": 0.7590989470481873,
      "learning_rate": 0.0002947406924542911,
      "loss": 4.0665,
      "step": 42410
    },
    {
      "epoch": 0.088375,
      "grad_norm": 0.7778558731079102,
      "learning_rate": 0.00029473810448706175,
      "loss": 4.0113,
      "step": 42420
    },
    {
      "epoch": 0.08839583333333334,
      "grad_norm": 0.7191833257675171,
      "learning_rate": 0.0002947355158946211,
      "loss": 3.9296,
      "step": 42430
    },
    {
      "epoch": 0.08841666666666667,
      "grad_norm": 0.8321976661682129,
      "learning_rate": 0.00029473292667698024,
      "loss": 3.8711,
      "step": 42440
    },
    {
      "epoch": 0.0884375,
      "grad_norm": 0.8250235319137573,
      "learning_rate": 0.00029473033683415046,
      "loss": 4.0509,
      "step": 42450
    },
    {
      "epoch": 0.08845833333333333,
      "grad_norm": 0.731683611869812,
      "learning_rate": 0.00029472774636614293,
      "loss": 4.1734,
      "step": 42460
    },
    {
      "epoch": 0.08847916666666666,
      "grad_norm": 0.7778027057647705,
      "learning_rate": 0.0002947251552729688,
      "loss": 3.9395,
      "step": 42470
    },
    {
      "epoch": 0.0885,
      "grad_norm": 0.9636765718460083,
      "learning_rate": 0.00029472256355463934,
      "loss": 3.9252,
      "step": 42480
    },
    {
      "epoch": 0.08852083333333334,
      "grad_norm": 0.762139618396759,
      "learning_rate": 0.0002947199712111656,
      "loss": 4.1019,
      "step": 42490
    },
    {
      "epoch": 0.08854166666666667,
      "grad_norm": 0.7652614116668701,
      "learning_rate": 0.0002947173782425589,
      "loss": 4.1016,
      "step": 42500
    },
    {
      "epoch": 0.0885625,
      "grad_norm": 0.7420979738235474,
      "learning_rate": 0.0002947147846488304,
      "loss": 4.0403,
      "step": 42510
    },
    {
      "epoch": 0.08858333333333333,
      "grad_norm": 0.8781409859657288,
      "learning_rate": 0.00029471219042999136,
      "loss": 4.0363,
      "step": 42520
    },
    {
      "epoch": 0.08860416666666666,
      "grad_norm": 0.768880307674408,
      "learning_rate": 0.0002947095955860529,
      "loss": 4.1245,
      "step": 42530
    },
    {
      "epoch": 0.088625,
      "grad_norm": 0.8779938220977783,
      "learning_rate": 0.0002947070001170263,
      "loss": 3.9514,
      "step": 42540
    },
    {
      "epoch": 0.08864583333333333,
      "grad_norm": 0.8695088624954224,
      "learning_rate": 0.0002947044040229227,
      "loss": 3.9135,
      "step": 42550
    },
    {
      "epoch": 0.08866666666666667,
      "grad_norm": 0.7756330966949463,
      "learning_rate": 0.0002947018073037534,
      "loss": 3.8999,
      "step": 42560
    },
    {
      "epoch": 0.0886875,
      "grad_norm": 0.7573769688606262,
      "learning_rate": 0.0002946992099595295,
      "loss": 3.9569,
      "step": 42570
    },
    {
      "epoch": 0.08870833333333333,
      "grad_norm": 0.8245770931243896,
      "learning_rate": 0.00029469661199026234,
      "loss": 4.1479,
      "step": 42580
    },
    {
      "epoch": 0.08872916666666666,
      "grad_norm": 0.7074221968650818,
      "learning_rate": 0.00029469401339596307,
      "loss": 3.8665,
      "step": 42590
    },
    {
      "epoch": 0.08875,
      "grad_norm": 0.9191860556602478,
      "learning_rate": 0.00029469141417664293,
      "loss": 4.078,
      "step": 42600
    },
    {
      "epoch": 0.08877083333333333,
      "grad_norm": 0.8054348826408386,
      "learning_rate": 0.0002946888143323132,
      "loss": 3.859,
      "step": 42610
    },
    {
      "epoch": 0.08879166666666667,
      "grad_norm": 0.8052231669425964,
      "learning_rate": 0.00029468621386298505,
      "loss": 3.8963,
      "step": 42620
    },
    {
      "epoch": 0.0888125,
      "grad_norm": 0.6955286860466003,
      "learning_rate": 0.0002946836127686697,
      "loss": 3.9914,
      "step": 42630
    },
    {
      "epoch": 0.08883333333333333,
      "grad_norm": 0.7722811698913574,
      "learning_rate": 0.0002946810110493784,
      "loss": 3.9208,
      "step": 42640
    },
    {
      "epoch": 0.08885416666666666,
      "grad_norm": 0.8139607906341553,
      "learning_rate": 0.0002946784087051224,
      "loss": 4.097,
      "step": 42650
    },
    {
      "epoch": 0.088875,
      "grad_norm": 0.7836417555809021,
      "learning_rate": 0.000294675805735913,
      "loss": 3.9195,
      "step": 42660
    },
    {
      "epoch": 0.08889583333333333,
      "grad_norm": 0.9406384229660034,
      "learning_rate": 0.00029467320214176135,
      "loss": 3.9594,
      "step": 42670
    },
    {
      "epoch": 0.08891666666666667,
      "grad_norm": 0.7045599222183228,
      "learning_rate": 0.00029467059792267873,
      "loss": 3.8917,
      "step": 42680
    },
    {
      "epoch": 0.0889375,
      "grad_norm": 0.7611586451530457,
      "learning_rate": 0.0002946679930786764,
      "loss": 4.0687,
      "step": 42690
    },
    {
      "epoch": 0.08895833333333333,
      "grad_norm": 0.7552801966667175,
      "learning_rate": 0.0002946653876097656,
      "loss": 3.8939,
      "step": 42700
    },
    {
      "epoch": 0.08897916666666666,
      "grad_norm": 0.8357509970664978,
      "learning_rate": 0.0002946627815159576,
      "loss": 3.9682,
      "step": 42710
    },
    {
      "epoch": 0.089,
      "grad_norm": 0.8289886713027954,
      "learning_rate": 0.0002946601747972636,
      "loss": 3.9234,
      "step": 42720
    },
    {
      "epoch": 0.08902083333333333,
      "grad_norm": 0.9537912607192993,
      "learning_rate": 0.00029465756745369496,
      "loss": 4.0941,
      "step": 42730
    },
    {
      "epoch": 0.08904166666666667,
      "grad_norm": 0.7569817304611206,
      "learning_rate": 0.0002946549594852628,
      "loss": 3.7998,
      "step": 42740
    },
    {
      "epoch": 0.0890625,
      "grad_norm": 0.8027034401893616,
      "learning_rate": 0.00029465235089197857,
      "loss": 3.8901,
      "step": 42750
    },
    {
      "epoch": 0.08908333333333333,
      "grad_norm": 0.8456350564956665,
      "learning_rate": 0.0002946497416738534,
      "loss": 4.0097,
      "step": 42760
    },
    {
      "epoch": 0.08910416666666666,
      "grad_norm": 0.7440257668495178,
      "learning_rate": 0.00029464713183089867,
      "loss": 4.0463,
      "step": 42770
    },
    {
      "epoch": 0.089125,
      "grad_norm": 0.7810341715812683,
      "learning_rate": 0.0002946445213631255,
      "loss": 3.9267,
      "step": 42780
    },
    {
      "epoch": 0.08914583333333333,
      "grad_norm": 0.8820784091949463,
      "learning_rate": 0.0002946419102705453,
      "loss": 3.9428,
      "step": 42790
    },
    {
      "epoch": 0.08916666666666667,
      "grad_norm": 0.8829526305198669,
      "learning_rate": 0.0002946392985531693,
      "loss": 4.1117,
      "step": 42800
    },
    {
      "epoch": 0.0891875,
      "grad_norm": 0.8675321936607361,
      "learning_rate": 0.0002946366862110087,
      "loss": 3.9114,
      "step": 42810
    },
    {
      "epoch": 0.08920833333333333,
      "grad_norm": 0.7255529761314392,
      "learning_rate": 0.0002946340732440749,
      "loss": 3.8804,
      "step": 42820
    },
    {
      "epoch": 0.08922916666666666,
      "grad_norm": 0.86192387342453,
      "learning_rate": 0.0002946314596523792,
      "loss": 4.0199,
      "step": 42830
    },
    {
      "epoch": 0.08925,
      "grad_norm": 0.8590792417526245,
      "learning_rate": 0.00029462884543593286,
      "loss": 3.9187,
      "step": 42840
    },
    {
      "epoch": 0.08927083333333333,
      "grad_norm": 0.7454255223274231,
      "learning_rate": 0.0002946262305947471,
      "loss": 3.8774,
      "step": 42850
    },
    {
      "epoch": 0.08929166666666667,
      "grad_norm": 0.8704246878623962,
      "learning_rate": 0.00029462361512883333,
      "loss": 3.9811,
      "step": 42860
    },
    {
      "epoch": 0.0893125,
      "grad_norm": 0.9386780261993408,
      "learning_rate": 0.00029462099903820275,
      "loss": 4.0645,
      "step": 42870
    },
    {
      "epoch": 0.08933333333333333,
      "grad_norm": 0.9384982585906982,
      "learning_rate": 0.0002946183823228667,
      "loss": 4.0321,
      "step": 42880
    },
    {
      "epoch": 0.08935416666666667,
      "grad_norm": 0.9046117067337036,
      "learning_rate": 0.0002946157649828365,
      "loss": 4.1029,
      "step": 42890
    },
    {
      "epoch": 0.089375,
      "grad_norm": 0.77730393409729,
      "learning_rate": 0.0002946131470181234,
      "loss": 4.0287,
      "step": 42900
    },
    {
      "epoch": 0.08939583333333333,
      "grad_norm": 0.8170323371887207,
      "learning_rate": 0.00029461052842873875,
      "loss": 3.8487,
      "step": 42910
    },
    {
      "epoch": 0.08941666666666667,
      "grad_norm": 0.9389057159423828,
      "learning_rate": 0.0002946079092146939,
      "loss": 4.0167,
      "step": 42920
    },
    {
      "epoch": 0.0894375,
      "grad_norm": 1.011751413345337,
      "learning_rate": 0.0002946052893760001,
      "loss": 4.0095,
      "step": 42930
    },
    {
      "epoch": 0.08945833333333333,
      "grad_norm": 0.7465471625328064,
      "learning_rate": 0.0002946026689126687,
      "loss": 3.9126,
      "step": 42940
    },
    {
      "epoch": 0.08947916666666667,
      "grad_norm": 0.8126702308654785,
      "learning_rate": 0.00029460004782471094,
      "loss": 4.1007,
      "step": 42950
    },
    {
      "epoch": 0.0895,
      "grad_norm": 0.7804241180419922,
      "learning_rate": 0.0002945974261121383,
      "loss": 4.1154,
      "step": 42960
    },
    {
      "epoch": 0.08952083333333333,
      "grad_norm": 0.7789965867996216,
      "learning_rate": 0.00029459480377496197,
      "loss": 4.0101,
      "step": 42970
    },
    {
      "epoch": 0.08954166666666667,
      "grad_norm": 0.7300752401351929,
      "learning_rate": 0.00029459218081319334,
      "loss": 4.0277,
      "step": 42980
    },
    {
      "epoch": 0.0895625,
      "grad_norm": 0.7931423187255859,
      "learning_rate": 0.0002945895572268437,
      "loss": 4.0004,
      "step": 42990
    },
    {
      "epoch": 0.08958333333333333,
      "grad_norm": 0.8203656673431396,
      "learning_rate": 0.00029458693301592445,
      "loss": 3.9867,
      "step": 43000
    },
    {
      "epoch": 0.08958333333333333,
      "eval_loss": 4.30694580078125,
      "eval_runtime": 9.2713,
      "eval_samples_per_second": 1.079,
      "eval_steps_per_second": 0.324,
      "step": 43000
    },
    {
      "epoch": 0.08960416666666667,
      "grad_norm": 0.8444095253944397,
      "learning_rate": 0.00029458430818044684,
      "loss": 4.1082,
      "step": 43010
    },
    {
      "epoch": 0.089625,
      "grad_norm": 0.7924345135688782,
      "learning_rate": 0.0002945816827204222,
      "loss": 4.0802,
      "step": 43020
    },
    {
      "epoch": 0.08964583333333333,
      "grad_norm": 0.8866179585456848,
      "learning_rate": 0.000294579056635862,
      "loss": 3.7033,
      "step": 43030
    },
    {
      "epoch": 0.08966666666666667,
      "grad_norm": 0.6647859215736389,
      "learning_rate": 0.0002945764299267775,
      "loss": 3.9889,
      "step": 43040
    },
    {
      "epoch": 0.0896875,
      "grad_norm": 0.9313936829566956,
      "learning_rate": 0.00029457380259318,
      "loss": 4.2468,
      "step": 43050
    },
    {
      "epoch": 0.08970833333333333,
      "grad_norm": 0.8196076154708862,
      "learning_rate": 0.00029457117463508096,
      "loss": 3.8843,
      "step": 43060
    },
    {
      "epoch": 0.08972916666666667,
      "grad_norm": 0.8146063089370728,
      "learning_rate": 0.0002945685460524916,
      "loss": 3.9114,
      "step": 43070
    },
    {
      "epoch": 0.08975,
      "grad_norm": 0.8637206554412842,
      "learning_rate": 0.00029456591684542347,
      "loss": 3.8681,
      "step": 43080
    },
    {
      "epoch": 0.08977083333333333,
      "grad_norm": 0.7244358062744141,
      "learning_rate": 0.0002945632870138877,
      "loss": 3.9057,
      "step": 43090
    },
    {
      "epoch": 0.08979166666666667,
      "grad_norm": 0.7465149760246277,
      "learning_rate": 0.0002945606565578958,
      "loss": 4.0943,
      "step": 43100
    },
    {
      "epoch": 0.0898125,
      "grad_norm": 0.8507609367370605,
      "learning_rate": 0.00029455802547745906,
      "loss": 3.9996,
      "step": 43110
    },
    {
      "epoch": 0.08983333333333333,
      "grad_norm": 0.8512088060379028,
      "learning_rate": 0.00029455539377258886,
      "loss": 3.9068,
      "step": 43120
    },
    {
      "epoch": 0.08985416666666667,
      "grad_norm": 0.9440413117408752,
      "learning_rate": 0.00029455276144329655,
      "loss": 4.1447,
      "step": 43130
    },
    {
      "epoch": 0.089875,
      "grad_norm": 0.7424771189689636,
      "learning_rate": 0.0002945501284895936,
      "loss": 4.0837,
      "step": 43140
    },
    {
      "epoch": 0.08989583333333333,
      "grad_norm": 0.8660104870796204,
      "learning_rate": 0.0002945474949114913,
      "loss": 4.1466,
      "step": 43150
    },
    {
      "epoch": 0.08991666666666667,
      "grad_norm": 0.946259081363678,
      "learning_rate": 0.000294544860709001,
      "loss": 4.1048,
      "step": 43160
    },
    {
      "epoch": 0.0899375,
      "grad_norm": 0.8100252747535706,
      "learning_rate": 0.00029454222588213414,
      "loss": 3.934,
      "step": 43170
    },
    {
      "epoch": 0.08995833333333333,
      "grad_norm": 0.8373037576675415,
      "learning_rate": 0.00029453959043090205,
      "loss": 4.03,
      "step": 43180
    },
    {
      "epoch": 0.08997916666666667,
      "grad_norm": 0.7830778956413269,
      "learning_rate": 0.00029453695435531616,
      "loss": 3.8243,
      "step": 43190
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7190396189689636,
      "learning_rate": 0.00029453431765538783,
      "loss": 4.0928,
      "step": 43200
    },
    {
      "epoch": 0.09002083333333333,
      "grad_norm": 0.7575730085372925,
      "learning_rate": 0.00029453168033112846,
      "loss": 3.9815,
      "step": 43210
    },
    {
      "epoch": 0.09004166666666667,
      "grad_norm": 0.8525782227516174,
      "learning_rate": 0.0002945290423825494,
      "loss": 4.0159,
      "step": 43220
    },
    {
      "epoch": 0.0900625,
      "grad_norm": 0.7220017313957214,
      "learning_rate": 0.0002945264038096622,
      "loss": 3.9679,
      "step": 43230
    },
    {
      "epoch": 0.09008333333333333,
      "grad_norm": 0.8263263702392578,
      "learning_rate": 0.0002945237646124781,
      "loss": 4.069,
      "step": 43240
    },
    {
      "epoch": 0.09010416666666667,
      "grad_norm": 0.8334963321685791,
      "learning_rate": 0.00029452112479100854,
      "loss": 4.0371,
      "step": 43250
    },
    {
      "epoch": 0.090125,
      "grad_norm": 0.7859172821044922,
      "learning_rate": 0.00029451848434526486,
      "loss": 4.1109,
      "step": 43260
    },
    {
      "epoch": 0.09014583333333333,
      "grad_norm": 0.7925332188606262,
      "learning_rate": 0.00029451584327525856,
      "loss": 4.0525,
      "step": 43270
    },
    {
      "epoch": 0.09016666666666667,
      "grad_norm": 0.8517751097679138,
      "learning_rate": 0.00029451320158100107,
      "loss": 4.0617,
      "step": 43280
    },
    {
      "epoch": 0.0901875,
      "grad_norm": 0.742668092250824,
      "learning_rate": 0.0002945105592625037,
      "loss": 4.0383,
      "step": 43290
    },
    {
      "epoch": 0.09020833333333333,
      "grad_norm": 0.7760559320449829,
      "learning_rate": 0.0002945079163197779,
      "loss": 4.2101,
      "step": 43300
    },
    {
      "epoch": 0.09022916666666667,
      "grad_norm": 0.7289953827857971,
      "learning_rate": 0.0002945052727528352,
      "loss": 4.1305,
      "step": 43310
    },
    {
      "epoch": 0.09025,
      "grad_norm": 0.7664659023284912,
      "learning_rate": 0.00029450262856168684,
      "loss": 3.8662,
      "step": 43320
    },
    {
      "epoch": 0.09027083333333333,
      "grad_norm": 0.7196354269981384,
      "learning_rate": 0.00029449998374634435,
      "loss": 3.9908,
      "step": 43330
    },
    {
      "epoch": 0.09029166666666667,
      "grad_norm": 0.7771369218826294,
      "learning_rate": 0.00029449733830681915,
      "loss": 4.0429,
      "step": 43340
    },
    {
      "epoch": 0.0903125,
      "grad_norm": 0.7446789145469666,
      "learning_rate": 0.00029449469224312254,
      "loss": 3.9545,
      "step": 43350
    },
    {
      "epoch": 0.09033333333333333,
      "grad_norm": 0.6919028162956238,
      "learning_rate": 0.00029449204555526614,
      "loss": 3.9462,
      "step": 43360
    },
    {
      "epoch": 0.09035416666666667,
      "grad_norm": 0.7410955429077148,
      "learning_rate": 0.00029448939824326133,
      "loss": 4.0917,
      "step": 43370
    },
    {
      "epoch": 0.090375,
      "grad_norm": 0.7941297888755798,
      "learning_rate": 0.00029448675030711944,
      "loss": 3.9621,
      "step": 43380
    },
    {
      "epoch": 0.09039583333333333,
      "grad_norm": 0.9332024455070496,
      "learning_rate": 0.000294484101746852,
      "loss": 3.9202,
      "step": 43390
    },
    {
      "epoch": 0.09041666666666667,
      "grad_norm": 0.813433051109314,
      "learning_rate": 0.00029448145256247044,
      "loss": 3.8454,
      "step": 43400
    },
    {
      "epoch": 0.0904375,
      "grad_norm": 0.7347939610481262,
      "learning_rate": 0.0002944788027539862,
      "loss": 3.9784,
      "step": 43410
    },
    {
      "epoch": 0.09045833333333334,
      "grad_norm": 0.8219919800758362,
      "learning_rate": 0.0002944761523214107,
      "loss": 3.8413,
      "step": 43420
    },
    {
      "epoch": 0.09047916666666667,
      "grad_norm": 0.8722334504127502,
      "learning_rate": 0.00029447350126475546,
      "loss": 4.2205,
      "step": 43430
    },
    {
      "epoch": 0.0905,
      "grad_norm": 0.7705649733543396,
      "learning_rate": 0.00029447084958403183,
      "loss": 3.8749,
      "step": 43440
    },
    {
      "epoch": 0.09052083333333333,
      "grad_norm": 0.7951213121414185,
      "learning_rate": 0.00029446819727925135,
      "loss": 3.9178,
      "step": 43450
    },
    {
      "epoch": 0.09054166666666667,
      "grad_norm": 0.9023249745368958,
      "learning_rate": 0.0002944655443504254,
      "loss": 4.0634,
      "step": 43460
    },
    {
      "epoch": 0.0905625,
      "grad_norm": 0.8448863625526428,
      "learning_rate": 0.0002944628907975655,
      "loss": 4.1661,
      "step": 43470
    },
    {
      "epoch": 0.09058333333333334,
      "grad_norm": 0.8534286022186279,
      "learning_rate": 0.0002944602366206831,
      "loss": 3.8676,
      "step": 43480
    },
    {
      "epoch": 0.09060416666666667,
      "grad_norm": 0.7605075836181641,
      "learning_rate": 0.00029445758181978964,
      "loss": 4.1006,
      "step": 43490
    },
    {
      "epoch": 0.090625,
      "grad_norm": 0.7552652955055237,
      "learning_rate": 0.00029445492639489665,
      "loss": 4.0717,
      "step": 43500
    },
    {
      "epoch": 0.09064583333333333,
      "grad_norm": 0.8378645777702332,
      "learning_rate": 0.00029445227034601555,
      "loss": 3.9799,
      "step": 43510
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 0.7651781439781189,
      "learning_rate": 0.0002944496136731578,
      "loss": 4.0429,
      "step": 43520
    },
    {
      "epoch": 0.0906875,
      "grad_norm": 0.6993163824081421,
      "learning_rate": 0.00029444695637633486,
      "loss": 4.0011,
      "step": 43530
    },
    {
      "epoch": 0.09070833333333334,
      "grad_norm": 0.7793441414833069,
      "learning_rate": 0.0002944442984555583,
      "loss": 3.6606,
      "step": 43540
    },
    {
      "epoch": 0.09072916666666667,
      "grad_norm": 0.9402686357498169,
      "learning_rate": 0.00029444163991083954,
      "loss": 4.0064,
      "step": 43550
    },
    {
      "epoch": 0.09075,
      "grad_norm": 0.760085940361023,
      "learning_rate": 0.00029443898074219004,
      "loss": 3.9307,
      "step": 43560
    },
    {
      "epoch": 0.09077083333333333,
      "grad_norm": 0.8862836360931396,
      "learning_rate": 0.0002944363209496214,
      "loss": 3.9405,
      "step": 43570
    },
    {
      "epoch": 0.09079166666666667,
      "grad_norm": 0.8694409132003784,
      "learning_rate": 0.0002944336605331449,
      "loss": 4.1352,
      "step": 43580
    },
    {
      "epoch": 0.0908125,
      "grad_norm": 0.8726516366004944,
      "learning_rate": 0.0002944309994927722,
      "loss": 3.978,
      "step": 43590
    },
    {
      "epoch": 0.09083333333333334,
      "grad_norm": 1.0999330282211304,
      "learning_rate": 0.0002944283378285148,
      "loss": 4.0615,
      "step": 43600
    },
    {
      "epoch": 0.09085416666666667,
      "grad_norm": 0.88246750831604,
      "learning_rate": 0.0002944256755403841,
      "loss": 4.0006,
      "step": 43610
    },
    {
      "epoch": 0.090875,
      "grad_norm": 0.7008848190307617,
      "learning_rate": 0.0002944230126283917,
      "loss": 3.9439,
      "step": 43620
    },
    {
      "epoch": 0.09089583333333333,
      "grad_norm": 0.7714446187019348,
      "learning_rate": 0.00029442034909254897,
      "loss": 4.076,
      "step": 43630
    },
    {
      "epoch": 0.09091666666666667,
      "grad_norm": 0.7801547050476074,
      "learning_rate": 0.0002944176849328676,
      "loss": 4.0407,
      "step": 43640
    },
    {
      "epoch": 0.0909375,
      "grad_norm": 0.7807552814483643,
      "learning_rate": 0.0002944150201493589,
      "loss": 4.1463,
      "step": 43650
    },
    {
      "epoch": 0.09095833333333334,
      "grad_norm": 0.7293252944946289,
      "learning_rate": 0.00029441235474203455,
      "loss": 3.982,
      "step": 43660
    },
    {
      "epoch": 0.09097916666666667,
      "grad_norm": 0.9320241212844849,
      "learning_rate": 0.00029440968871090594,
      "loss": 4.0733,
      "step": 43670
    },
    {
      "epoch": 0.091,
      "grad_norm": 0.9199652075767517,
      "learning_rate": 0.0002944070220559847,
      "loss": 3.9163,
      "step": 43680
    },
    {
      "epoch": 0.09102083333333333,
      "grad_norm": 0.7276955246925354,
      "learning_rate": 0.0002944043547772822,
      "loss": 3.9544,
      "step": 43690
    },
    {
      "epoch": 0.09104166666666667,
      "grad_norm": 0.8825798034667969,
      "learning_rate": 0.0002944016868748101,
      "loss": 4.0254,
      "step": 43700
    },
    {
      "epoch": 0.0910625,
      "grad_norm": 0.8884842991828918,
      "learning_rate": 0.00029439901834857986,
      "loss": 4.0696,
      "step": 43710
    },
    {
      "epoch": 0.09108333333333334,
      "grad_norm": 0.7425711750984192,
      "learning_rate": 0.000294396349198603,
      "loss": 3.8903,
      "step": 43720
    },
    {
      "epoch": 0.09110416666666667,
      "grad_norm": 0.7916253805160522,
      "learning_rate": 0.0002943936794248911,
      "loss": 4.0976,
      "step": 43730
    },
    {
      "epoch": 0.091125,
      "grad_norm": 0.7162860035896301,
      "learning_rate": 0.00029439100902745567,
      "loss": 3.8368,
      "step": 43740
    },
    {
      "epoch": 0.09114583333333333,
      "grad_norm": 0.7752361297607422,
      "learning_rate": 0.00029438833800630814,
      "loss": 3.9273,
      "step": 43750
    },
    {
      "epoch": 0.09116666666666666,
      "grad_norm": 0.8526679277420044,
      "learning_rate": 0.00029438566636146024,
      "loss": 4.1703,
      "step": 43760
    },
    {
      "epoch": 0.0911875,
      "grad_norm": 0.6934775114059448,
      "learning_rate": 0.00029438299409292336,
      "loss": 3.8559,
      "step": 43770
    },
    {
      "epoch": 0.09120833333333334,
      "grad_norm": 0.7945747375488281,
      "learning_rate": 0.00029438032120070916,
      "loss": 4.0018,
      "step": 43780
    },
    {
      "epoch": 0.09122916666666667,
      "grad_norm": 0.7631188631057739,
      "learning_rate": 0.00029437764768482907,
      "loss": 3.8231,
      "step": 43790
    },
    {
      "epoch": 0.09125,
      "grad_norm": 0.7077094912528992,
      "learning_rate": 0.00029437497354529464,
      "loss": 4.0938,
      "step": 43800
    },
    {
      "epoch": 0.09127083333333333,
      "grad_norm": 0.7636808753013611,
      "learning_rate": 0.0002943722987821176,
      "loss": 4.0502,
      "step": 43810
    },
    {
      "epoch": 0.09129166666666666,
      "grad_norm": 0.739537239074707,
      "learning_rate": 0.0002943696233953093,
      "loss": 3.885,
      "step": 43820
    },
    {
      "epoch": 0.0913125,
      "grad_norm": 0.7227054238319397,
      "learning_rate": 0.0002943669473848814,
      "loss": 4.128,
      "step": 43830
    },
    {
      "epoch": 0.09133333333333334,
      "grad_norm": 0.7580694556236267,
      "learning_rate": 0.0002943642707508454,
      "loss": 4.0698,
      "step": 43840
    },
    {
      "epoch": 0.09135416666666667,
      "grad_norm": 0.8221091032028198,
      "learning_rate": 0.0002943615934932129,
      "loss": 3.9216,
      "step": 43850
    },
    {
      "epoch": 0.091375,
      "grad_norm": 0.906349778175354,
      "learning_rate": 0.00029435891561199545,
      "loss": 4.1842,
      "step": 43860
    },
    {
      "epoch": 0.09139583333333333,
      "grad_norm": 1.0237438678741455,
      "learning_rate": 0.00029435623710720465,
      "loss": 4.1169,
      "step": 43870
    },
    {
      "epoch": 0.09141666666666666,
      "grad_norm": 0.7215884327888489,
      "learning_rate": 0.00029435355797885205,
      "loss": 4.1899,
      "step": 43880
    },
    {
      "epoch": 0.0914375,
      "grad_norm": 0.8715304136276245,
      "learning_rate": 0.00029435087822694925,
      "loss": 4.2171,
      "step": 43890
    },
    {
      "epoch": 0.09145833333333334,
      "grad_norm": 0.8521788120269775,
      "learning_rate": 0.0002943481978515077,
      "loss": 4.1204,
      "step": 43900
    },
    {
      "epoch": 0.09147916666666667,
      "grad_norm": 0.728003203868866,
      "learning_rate": 0.0002943455168525391,
      "loss": 3.8925,
      "step": 43910
    },
    {
      "epoch": 0.0915,
      "grad_norm": 0.8462696671485901,
      "learning_rate": 0.00029434283523005505,
      "loss": 3.9204,
      "step": 43920
    },
    {
      "epoch": 0.09152083333333333,
      "grad_norm": 0.8120107054710388,
      "learning_rate": 0.00029434015298406707,
      "loss": 4.0471,
      "step": 43930
    },
    {
      "epoch": 0.09154166666666666,
      "grad_norm": 0.8170748949050903,
      "learning_rate": 0.0002943374701145868,
      "loss": 3.9965,
      "step": 43940
    },
    {
      "epoch": 0.0915625,
      "grad_norm": 0.8082450032234192,
      "learning_rate": 0.0002943347866216257,
      "loss": 3.9468,
      "step": 43950
    },
    {
      "epoch": 0.09158333333333334,
      "grad_norm": 0.7852224707603455,
      "learning_rate": 0.0002943321025051955,
      "loss": 4.002,
      "step": 43960
    },
    {
      "epoch": 0.09160416666666667,
      "grad_norm": 0.8908083438873291,
      "learning_rate": 0.0002943294177653077,
      "loss": 3.984,
      "step": 43970
    },
    {
      "epoch": 0.091625,
      "grad_norm": 0.7960920333862305,
      "learning_rate": 0.00029432673240197406,
      "loss": 4.0694,
      "step": 43980
    },
    {
      "epoch": 0.09164583333333333,
      "grad_norm": 0.8103930950164795,
      "learning_rate": 0.000294324046415206,
      "loss": 3.8609,
      "step": 43990
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 0.7782918810844421,
      "learning_rate": 0.00029432135980501516,
      "loss": 3.8601,
      "step": 44000
    },
    {
      "epoch": 0.09166666666666666,
      "eval_loss": 4.309880256652832,
      "eval_runtime": 10.7923,
      "eval_samples_per_second": 0.927,
      "eval_steps_per_second": 0.278,
      "step": 44000
    },
    {
      "epoch": 0.0916875,
      "grad_norm": 0.8031482696533203,
      "learning_rate": 0.00029431867257141323,
      "loss": 3.9053,
      "step": 44010
    },
    {
      "epoch": 0.09170833333333334,
      "grad_norm": 0.8081420063972473,
      "learning_rate": 0.0002943159847144117,
      "loss": 4.0059,
      "step": 44020
    },
    {
      "epoch": 0.09172916666666667,
      "grad_norm": 0.9997856020927429,
      "learning_rate": 0.00029431329623402227,
      "loss": 4.0293,
      "step": 44030
    },
    {
      "epoch": 0.09175,
      "grad_norm": 0.8736863732337952,
      "learning_rate": 0.00029431060713025654,
      "loss": 3.989,
      "step": 44040
    },
    {
      "epoch": 0.09177083333333333,
      "grad_norm": 0.8917863368988037,
      "learning_rate": 0.00029430791740312607,
      "loss": 4.0851,
      "step": 44050
    },
    {
      "epoch": 0.09179166666666666,
      "grad_norm": 0.7598302364349365,
      "learning_rate": 0.0002943052270526425,
      "loss": 3.8692,
      "step": 44060
    },
    {
      "epoch": 0.0918125,
      "grad_norm": 0.8449472188949585,
      "learning_rate": 0.00029430253607881754,
      "loss": 3.9616,
      "step": 44070
    },
    {
      "epoch": 0.09183333333333334,
      "grad_norm": 1.12465500831604,
      "learning_rate": 0.00029429984448166275,
      "loss": 3.9584,
      "step": 44080
    },
    {
      "epoch": 0.09185416666666667,
      "grad_norm": 0.8481159210205078,
      "learning_rate": 0.00029429715226118966,
      "loss": 3.9025,
      "step": 44090
    },
    {
      "epoch": 0.091875,
      "grad_norm": 0.7610899209976196,
      "learning_rate": 0.00029429445941741005,
      "loss": 3.9541,
      "step": 44100
    },
    {
      "epoch": 0.09189583333333333,
      "grad_norm": 0.7248851656913757,
      "learning_rate": 0.00029429176595033546,
      "loss": 4.0956,
      "step": 44110
    },
    {
      "epoch": 0.09191666666666666,
      "grad_norm": 0.9137314558029175,
      "learning_rate": 0.0002942890718599776,
      "loss": 4.086,
      "step": 44120
    },
    {
      "epoch": 0.0919375,
      "grad_norm": 0.7797259092330933,
      "learning_rate": 0.00029428637714634805,
      "loss": 3.9841,
      "step": 44130
    },
    {
      "epoch": 0.09195833333333334,
      "grad_norm": 0.7513639330863953,
      "learning_rate": 0.00029428368180945845,
      "loss": 3.9826,
      "step": 44140
    },
    {
      "epoch": 0.09197916666666667,
      "grad_norm": 0.8210268616676331,
      "learning_rate": 0.0002942809858493204,
      "loss": 3.9355,
      "step": 44150
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.7558812499046326,
      "learning_rate": 0.0002942782892659457,
      "loss": 4.013,
      "step": 44160
    },
    {
      "epoch": 0.09202083333333333,
      "grad_norm": 0.7633086442947388,
      "learning_rate": 0.00029427559205934587,
      "loss": 3.9024,
      "step": 44170
    },
    {
      "epoch": 0.09204166666666666,
      "grad_norm": 0.767743706703186,
      "learning_rate": 0.0002942728942295326,
      "loss": 3.9907,
      "step": 44180
    },
    {
      "epoch": 0.0920625,
      "grad_norm": 0.8723000884056091,
      "learning_rate": 0.00029427019577651746,
      "loss": 4.0468,
      "step": 44190
    },
    {
      "epoch": 0.09208333333333334,
      "grad_norm": 0.8200768828392029,
      "learning_rate": 0.00029426749670031225,
      "loss": 3.9864,
      "step": 44200
    },
    {
      "epoch": 0.09210416666666667,
      "grad_norm": 0.8050898909568787,
      "learning_rate": 0.00029426479700092855,
      "loss": 4.0267,
      "step": 44210
    },
    {
      "epoch": 0.092125,
      "grad_norm": 0.8020004630088806,
      "learning_rate": 0.000294262096678378,
      "loss": 4.0856,
      "step": 44220
    },
    {
      "epoch": 0.09214583333333333,
      "grad_norm": 0.7998018264770508,
      "learning_rate": 0.00029425939573267233,
      "loss": 4.019,
      "step": 44230
    },
    {
      "epoch": 0.09216666666666666,
      "grad_norm": 0.7449648976325989,
      "learning_rate": 0.00029425669416382317,
      "loss": 3.9596,
      "step": 44240
    },
    {
      "epoch": 0.0921875,
      "grad_norm": 0.6878941655158997,
      "learning_rate": 0.00029425399197184214,
      "loss": 4.1458,
      "step": 44250
    },
    {
      "epoch": 0.09220833333333334,
      "grad_norm": 0.8168017268180847,
      "learning_rate": 0.000294251289156741,
      "loss": 3.9638,
      "step": 44260
    },
    {
      "epoch": 0.09222916666666667,
      "grad_norm": 0.817136287689209,
      "learning_rate": 0.00029424858571853145,
      "loss": 3.9468,
      "step": 44270
    },
    {
      "epoch": 0.09225,
      "grad_norm": 0.840815544128418,
      "learning_rate": 0.0002942458816572251,
      "loss": 4.0618,
      "step": 44280
    },
    {
      "epoch": 0.09227083333333333,
      "grad_norm": 0.7990142107009888,
      "learning_rate": 0.00029424317697283355,
      "loss": 4.0276,
      "step": 44290
    },
    {
      "epoch": 0.09229166666666666,
      "grad_norm": 0.8356457948684692,
      "learning_rate": 0.00029424047166536863,
      "loss": 3.8558,
      "step": 44300
    },
    {
      "epoch": 0.0923125,
      "grad_norm": 0.7452893257141113,
      "learning_rate": 0.00029423776573484194,
      "loss": 4.0359,
      "step": 44310
    },
    {
      "epoch": 0.09233333333333334,
      "grad_norm": 0.7052478790283203,
      "learning_rate": 0.0002942350591812652,
      "loss": 3.9242,
      "step": 44320
    },
    {
      "epoch": 0.09235416666666667,
      "grad_norm": 0.8979045152664185,
      "learning_rate": 0.0002942323520046501,
      "loss": 3.9457,
      "step": 44330
    },
    {
      "epoch": 0.092375,
      "grad_norm": 1.0779821872711182,
      "learning_rate": 0.00029422964420500837,
      "loss": 3.7695,
      "step": 44340
    },
    {
      "epoch": 0.09239583333333333,
      "grad_norm": 0.9096167683601379,
      "learning_rate": 0.0002942269357823516,
      "loss": 4.0696,
      "step": 44350
    },
    {
      "epoch": 0.09241666666666666,
      "grad_norm": 0.8481919169425964,
      "learning_rate": 0.0002942242267366916,
      "loss": 4.0181,
      "step": 44360
    },
    {
      "epoch": 0.0924375,
      "grad_norm": 0.8121992349624634,
      "learning_rate": 0.00029422151706804,
      "loss": 3.9174,
      "step": 44370
    },
    {
      "epoch": 0.09245833333333334,
      "grad_norm": 0.793554425239563,
      "learning_rate": 0.00029421880677640855,
      "loss": 4.1729,
      "step": 44380
    },
    {
      "epoch": 0.09247916666666667,
      "grad_norm": 0.8427684903144836,
      "learning_rate": 0.0002942160958618089,
      "loss": 3.9512,
      "step": 44390
    },
    {
      "epoch": 0.0925,
      "grad_norm": 0.7466145753860474,
      "learning_rate": 0.00029421338432425285,
      "loss": 4.1747,
      "step": 44400
    },
    {
      "epoch": 0.09252083333333333,
      "grad_norm": 0.8613093495368958,
      "learning_rate": 0.00029421067216375206,
      "loss": 3.9326,
      "step": 44410
    },
    {
      "epoch": 0.09254166666666666,
      "grad_norm": 0.9479051828384399,
      "learning_rate": 0.00029420795938031824,
      "loss": 3.962,
      "step": 44420
    },
    {
      "epoch": 0.0925625,
      "grad_norm": 0.799017071723938,
      "learning_rate": 0.0002942052459739631,
      "loss": 4.1779,
      "step": 44430
    },
    {
      "epoch": 0.09258333333333334,
      "grad_norm": 0.8353898525238037,
      "learning_rate": 0.00029420253194469844,
      "loss": 4.0461,
      "step": 44440
    },
    {
      "epoch": 0.09260416666666667,
      "grad_norm": 0.8265305161476135,
      "learning_rate": 0.0002941998172925359,
      "loss": 4.0738,
      "step": 44450
    },
    {
      "epoch": 0.092625,
      "grad_norm": 0.7532750964164734,
      "learning_rate": 0.0002941971020174871,
      "loss": 3.9548,
      "step": 44460
    },
    {
      "epoch": 0.09264583333333333,
      "grad_norm": 0.7125318646430969,
      "learning_rate": 0.000294194386119564,
      "loss": 4.0091,
      "step": 44470
    },
    {
      "epoch": 0.09266666666666666,
      "grad_norm": 0.9766756296157837,
      "learning_rate": 0.0002941916695987783,
      "loss": 3.9721,
      "step": 44480
    },
    {
      "epoch": 0.0926875,
      "grad_norm": 0.9519219398498535,
      "learning_rate": 0.0002941889524551416,
      "loss": 4.0673,
      "step": 44490
    },
    {
      "epoch": 0.09270833333333334,
      "grad_norm": 1.026418685913086,
      "learning_rate": 0.0002941862346886657,
      "loss": 3.9473,
      "step": 44500
    },
    {
      "epoch": 0.09272916666666667,
      "grad_norm": 0.7453073859214783,
      "learning_rate": 0.0002941835162993623,
      "loss": 3.9278,
      "step": 44510
    },
    {
      "epoch": 0.09275,
      "grad_norm": 0.7474458813667297,
      "learning_rate": 0.00029418079728724323,
      "loss": 4.0404,
      "step": 44520
    },
    {
      "epoch": 0.09277083333333333,
      "grad_norm": 0.7959873676300049,
      "learning_rate": 0.00029417807765232015,
      "loss": 4.0546,
      "step": 44530
    },
    {
      "epoch": 0.09279166666666666,
      "grad_norm": 0.8463065028190613,
      "learning_rate": 0.0002941753573946049,
      "loss": 4.0388,
      "step": 44540
    },
    {
      "epoch": 0.0928125,
      "grad_norm": 0.890550434589386,
      "learning_rate": 0.0002941726365141091,
      "loss": 4.1776,
      "step": 44550
    },
    {
      "epoch": 0.09283333333333334,
      "grad_norm": 0.8318566083908081,
      "learning_rate": 0.0002941699150108446,
      "loss": 3.9651,
      "step": 44560
    },
    {
      "epoch": 0.09285416666666667,
      "grad_norm": 0.8426151871681213,
      "learning_rate": 0.00029416719288482315,
      "loss": 4.1016,
      "step": 44570
    },
    {
      "epoch": 0.092875,
      "grad_norm": 0.9810061454772949,
      "learning_rate": 0.0002941644701360565,
      "loss": 3.9551,
      "step": 44580
    },
    {
      "epoch": 0.09289583333333333,
      "grad_norm": 0.7402470707893372,
      "learning_rate": 0.00029416174676455637,
      "loss": 4.0274,
      "step": 44590
    },
    {
      "epoch": 0.09291666666666666,
      "grad_norm": 0.7677028775215149,
      "learning_rate": 0.0002941590227703346,
      "loss": 3.9278,
      "step": 44600
    },
    {
      "epoch": 0.0929375,
      "grad_norm": 0.7599290013313293,
      "learning_rate": 0.0002941562981534029,
      "loss": 3.8236,
      "step": 44610
    },
    {
      "epoch": 0.09295833333333334,
      "grad_norm": 0.7853174805641174,
      "learning_rate": 0.000294153572913773,
      "loss": 4.0376,
      "step": 44620
    },
    {
      "epoch": 0.09297916666666667,
      "grad_norm": 0.7803577184677124,
      "learning_rate": 0.0002941508470514568,
      "loss": 4.0135,
      "step": 44630
    },
    {
      "epoch": 0.093,
      "grad_norm": 0.7701123952865601,
      "learning_rate": 0.000294148120566466,
      "loss": 3.7755,
      "step": 44640
    },
    {
      "epoch": 0.09302083333333333,
      "grad_norm": 0.7495555877685547,
      "learning_rate": 0.0002941453934588123,
      "loss": 4.0453,
      "step": 44650
    },
    {
      "epoch": 0.09304166666666666,
      "grad_norm": 0.7904362678527832,
      "learning_rate": 0.00029414266572850764,
      "loss": 4.0224,
      "step": 44660
    },
    {
      "epoch": 0.0930625,
      "grad_norm": 0.7230803966522217,
      "learning_rate": 0.00029413993737556363,
      "loss": 3.9792,
      "step": 44670
    },
    {
      "epoch": 0.09308333333333334,
      "grad_norm": 0.7681822776794434,
      "learning_rate": 0.0002941372083999923,
      "loss": 3.9467,
      "step": 44680
    },
    {
      "epoch": 0.09310416666666667,
      "grad_norm": 0.8920527100563049,
      "learning_rate": 0.0002941344788018051,
      "loss": 3.9088,
      "step": 44690
    },
    {
      "epoch": 0.093125,
      "grad_norm": 0.8506249189376831,
      "learning_rate": 0.0002941317485810141,
      "loss": 4.0252,
      "step": 44700
    },
    {
      "epoch": 0.09314583333333333,
      "grad_norm": 0.8420354723930359,
      "learning_rate": 0.000294129017737631,
      "loss": 3.9802,
      "step": 44710
    },
    {
      "epoch": 0.09316666666666666,
      "grad_norm": 0.895836353302002,
      "learning_rate": 0.0002941262862716676,
      "loss": 3.9476,
      "step": 44720
    },
    {
      "epoch": 0.0931875,
      "grad_norm": 0.7952171564102173,
      "learning_rate": 0.0002941235541831356,
      "loss": 4.0108,
      "step": 44730
    },
    {
      "epoch": 0.09320833333333334,
      "grad_norm": 0.771656334400177,
      "learning_rate": 0.000294120821472047,
      "loss": 3.7503,
      "step": 44740
    },
    {
      "epoch": 0.09322916666666667,
      "grad_norm": 0.8233175873756409,
      "learning_rate": 0.00029411808813841346,
      "loss": 3.9324,
      "step": 44750
    },
    {
      "epoch": 0.09325,
      "grad_norm": 0.725185751914978,
      "learning_rate": 0.00029411535418224686,
      "loss": 4.0691,
      "step": 44760
    },
    {
      "epoch": 0.09327083333333333,
      "grad_norm": 0.925599217414856,
      "learning_rate": 0.0002941126196035589,
      "loss": 3.9398,
      "step": 44770
    },
    {
      "epoch": 0.09329166666666666,
      "grad_norm": 0.82265305519104,
      "learning_rate": 0.00029410988440236154,
      "loss": 3.957,
      "step": 44780
    },
    {
      "epoch": 0.0933125,
      "grad_norm": 0.6767252087593079,
      "learning_rate": 0.0002941071485786665,
      "loss": 3.9486,
      "step": 44790
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 0.6712161898612976,
      "learning_rate": 0.0002941044121324856,
      "loss": 4.0286,
      "step": 44800
    },
    {
      "epoch": 0.09335416666666667,
      "grad_norm": 0.8490703701972961,
      "learning_rate": 0.0002941016750638307,
      "loss": 3.9294,
      "step": 44810
    },
    {
      "epoch": 0.093375,
      "grad_norm": 0.8026022911071777,
      "learning_rate": 0.0002940989373727136,
      "loss": 3.9291,
      "step": 44820
    },
    {
      "epoch": 0.09339583333333333,
      "grad_norm": 0.8459638357162476,
      "learning_rate": 0.0002940961990591461,
      "loss": 3.8912,
      "step": 44830
    },
    {
      "epoch": 0.09341666666666666,
      "grad_norm": 0.7248906493186951,
      "learning_rate": 0.0002940934601231401,
      "loss": 4.0817,
      "step": 44840
    },
    {
      "epoch": 0.0934375,
      "grad_norm": 0.8020398616790771,
      "learning_rate": 0.00029409072056470735,
      "loss": 4.0784,
      "step": 44850
    },
    {
      "epoch": 0.09345833333333334,
      "grad_norm": 0.7141355872154236,
      "learning_rate": 0.00029408798038385977,
      "loss": 3.8319,
      "step": 44860
    },
    {
      "epoch": 0.09347916666666667,
      "grad_norm": 0.7934810519218445,
      "learning_rate": 0.00029408523958060907,
      "loss": 3.8135,
      "step": 44870
    },
    {
      "epoch": 0.0935,
      "grad_norm": 0.836158275604248,
      "learning_rate": 0.00029408249815496724,
      "loss": 3.8558,
      "step": 44880
    },
    {
      "epoch": 0.09352083333333333,
      "grad_norm": 0.8332101702690125,
      "learning_rate": 0.00029407975610694603,
      "loss": 4.0214,
      "step": 44890
    },
    {
      "epoch": 0.09354166666666666,
      "grad_norm": 0.6936440467834473,
      "learning_rate": 0.0002940770134365573,
      "loss": 3.8844,
      "step": 44900
    },
    {
      "epoch": 0.0935625,
      "grad_norm": 0.7573991417884827,
      "learning_rate": 0.0002940742701438129,
      "loss": 3.8361,
      "step": 44910
    },
    {
      "epoch": 0.09358333333333334,
      "grad_norm": 0.9917488098144531,
      "learning_rate": 0.0002940715262287247,
      "loss": 4.0734,
      "step": 44920
    },
    {
      "epoch": 0.09360416666666667,
      "grad_norm": 0.7606675624847412,
      "learning_rate": 0.0002940687816913045,
      "loss": 4.1563,
      "step": 44930
    },
    {
      "epoch": 0.093625,
      "grad_norm": 0.8295557498931885,
      "learning_rate": 0.00029406603653156423,
      "loss": 4.028,
      "step": 44940
    },
    {
      "epoch": 0.09364583333333333,
      "grad_norm": 0.7171760201454163,
      "learning_rate": 0.00029406329074951567,
      "loss": 4.0998,
      "step": 44950
    },
    {
      "epoch": 0.09366666666666666,
      "grad_norm": 0.7178971767425537,
      "learning_rate": 0.00029406054434517073,
      "loss": 3.9458,
      "step": 44960
    },
    {
      "epoch": 0.0936875,
      "grad_norm": 0.7910643815994263,
      "learning_rate": 0.0002940577973185413,
      "loss": 4.0222,
      "step": 44970
    },
    {
      "epoch": 0.09370833333333334,
      "grad_norm": 0.8305575251579285,
      "learning_rate": 0.0002940550496696391,
      "loss": 3.9458,
      "step": 44980
    },
    {
      "epoch": 0.09372916666666667,
      "grad_norm": 0.8426964282989502,
      "learning_rate": 0.0002940523013984762,
      "loss": 3.8022,
      "step": 44990
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.8178642392158508,
      "learning_rate": 0.0002940495525050644,
      "loss": 3.9873,
      "step": 45000
    },
    {
      "epoch": 0.09375,
      "eval_loss": 4.296371936798096,
      "eval_runtime": 12.0787,
      "eval_samples_per_second": 0.828,
      "eval_steps_per_second": 0.248,
      "step": 45000
    },
    {
      "epoch": 0.09377083333333333,
      "grad_norm": 0.7109588980674744,
      "learning_rate": 0.0002940468029894155,
      "loss": 4.0379,
      "step": 45010
    },
    {
      "epoch": 0.09379166666666666,
      "grad_norm": 0.8486259579658508,
      "learning_rate": 0.0002940440528515414,
      "loss": 4.0466,
      "step": 45020
    },
    {
      "epoch": 0.0938125,
      "grad_norm": 0.800613522529602,
      "learning_rate": 0.0002940413020914541,
      "loss": 4.1292,
      "step": 45030
    },
    {
      "epoch": 0.09383333333333334,
      "grad_norm": 1.1333023309707642,
      "learning_rate": 0.00029403855070916533,
      "loss": 3.9438,
      "step": 45040
    },
    {
      "epoch": 0.09385416666666667,
      "grad_norm": 0.8522650003433228,
      "learning_rate": 0.0002940357987046871,
      "loss": 4.079,
      "step": 45050
    },
    {
      "epoch": 0.093875,
      "grad_norm": 0.8141242861747742,
      "learning_rate": 0.0002940330460780311,
      "loss": 3.8797,
      "step": 45060
    },
    {
      "epoch": 0.09389583333333333,
      "grad_norm": 0.857005774974823,
      "learning_rate": 0.0002940302928292094,
      "loss": 4.068,
      "step": 45070
    },
    {
      "epoch": 0.09391666666666666,
      "grad_norm": 0.8024482131004333,
      "learning_rate": 0.0002940275389582339,
      "loss": 3.853,
      "step": 45080
    },
    {
      "epoch": 0.0939375,
      "grad_norm": 0.8534786701202393,
      "learning_rate": 0.00029402478446511644,
      "loss": 3.9696,
      "step": 45090
    },
    {
      "epoch": 0.09395833333333334,
      "grad_norm": 0.7749423980712891,
      "learning_rate": 0.0002940220293498689,
      "loss": 4.1012,
      "step": 45100
    },
    {
      "epoch": 0.09397916666666667,
      "grad_norm": 0.7832701802253723,
      "learning_rate": 0.00029401927361250317,
      "loss": 3.947,
      "step": 45110
    },
    {
      "epoch": 0.094,
      "grad_norm": 0.9558160305023193,
      "learning_rate": 0.00029401651725303123,
      "loss": 3.9801,
      "step": 45120
    },
    {
      "epoch": 0.09402083333333333,
      "grad_norm": 0.7724518179893494,
      "learning_rate": 0.0002940137602714649,
      "loss": 4.1078,
      "step": 45130
    },
    {
      "epoch": 0.09404166666666666,
      "grad_norm": 0.8304344415664673,
      "learning_rate": 0.00029401100266781616,
      "loss": 3.8744,
      "step": 45140
    },
    {
      "epoch": 0.0940625,
      "grad_norm": 0.7467166781425476,
      "learning_rate": 0.00029400824444209694,
      "loss": 4.0119,
      "step": 45150
    },
    {
      "epoch": 0.09408333333333334,
      "grad_norm": 0.8301234841346741,
      "learning_rate": 0.000294005485594319,
      "loss": 4.256,
      "step": 45160
    },
    {
      "epoch": 0.09410416666666667,
      "grad_norm": 1.1241601705551147,
      "learning_rate": 0.00029400272612449443,
      "loss": 4.052,
      "step": 45170
    },
    {
      "epoch": 0.094125,
      "grad_norm": 0.8703656792640686,
      "learning_rate": 0.00029399996603263505,
      "loss": 3.9461,
      "step": 45180
    },
    {
      "epoch": 0.09414583333333333,
      "grad_norm": 0.8705021739006042,
      "learning_rate": 0.00029399720531875283,
      "loss": 4.2238,
      "step": 45190
    },
    {
      "epoch": 0.09416666666666666,
      "grad_norm": 0.9271725416183472,
      "learning_rate": 0.0002939944439828597,
      "loss": 3.9347,
      "step": 45200
    },
    {
      "epoch": 0.0941875,
      "grad_norm": 0.8943268060684204,
      "learning_rate": 0.00029399168202496755,
      "loss": 4.0175,
      "step": 45210
    },
    {
      "epoch": 0.09420833333333334,
      "grad_norm": 1.001630425453186,
      "learning_rate": 0.00029398891944508833,
      "loss": 4.1536,
      "step": 45220
    },
    {
      "epoch": 0.09422916666666667,
      "grad_norm": 0.9092263579368591,
      "learning_rate": 0.000293986156243234,
      "loss": 3.9834,
      "step": 45230
    },
    {
      "epoch": 0.09425,
      "grad_norm": 0.7717384099960327,
      "learning_rate": 0.0002939833924194164,
      "loss": 3.9915,
      "step": 45240
    },
    {
      "epoch": 0.09427083333333333,
      "grad_norm": 0.8637787699699402,
      "learning_rate": 0.00029398062797364764,
      "loss": 3.8991,
      "step": 45250
    },
    {
      "epoch": 0.09429166666666666,
      "grad_norm": 0.7466741800308228,
      "learning_rate": 0.0002939778629059395,
      "loss": 3.9533,
      "step": 45260
    },
    {
      "epoch": 0.0943125,
      "grad_norm": 0.7700151801109314,
      "learning_rate": 0.000293975097216304,
      "loss": 3.9861,
      "step": 45270
    },
    {
      "epoch": 0.09433333333333334,
      "grad_norm": 1.0047454833984375,
      "learning_rate": 0.00029397233090475307,
      "loss": 4.013,
      "step": 45280
    },
    {
      "epoch": 0.09435416666666667,
      "grad_norm": 0.7972248196601868,
      "learning_rate": 0.0002939695639712986,
      "loss": 3.9734,
      "step": 45290
    },
    {
      "epoch": 0.094375,
      "grad_norm": 0.9308408498764038,
      "learning_rate": 0.00029396679641595266,
      "loss": 3.9484,
      "step": 45300
    },
    {
      "epoch": 0.09439583333333333,
      "grad_norm": 0.7517308592796326,
      "learning_rate": 0.0002939640282387271,
      "loss": 3.9754,
      "step": 45310
    },
    {
      "epoch": 0.09441666666666666,
      "grad_norm": 1.0082979202270508,
      "learning_rate": 0.000293961259439634,
      "loss": 3.8777,
      "step": 45320
    },
    {
      "epoch": 0.0944375,
      "grad_norm": 0.8289642930030823,
      "learning_rate": 0.00029395849001868517,
      "loss": 3.9432,
      "step": 45330
    },
    {
      "epoch": 0.09445833333333334,
      "grad_norm": 0.7206010818481445,
      "learning_rate": 0.00029395571997589264,
      "loss": 4.063,
      "step": 45340
    },
    {
      "epoch": 0.09447916666666667,
      "grad_norm": 0.7974848747253418,
      "learning_rate": 0.0002939529493112684,
      "loss": 3.9781,
      "step": 45350
    },
    {
      "epoch": 0.0945,
      "grad_norm": 0.7889509201049805,
      "learning_rate": 0.00029395017802482444,
      "loss": 4.0573,
      "step": 45360
    },
    {
      "epoch": 0.09452083333333333,
      "grad_norm": 0.7368786334991455,
      "learning_rate": 0.0002939474061165727,
      "loss": 3.9438,
      "step": 45370
    },
    {
      "epoch": 0.09454166666666666,
      "grad_norm": 0.81927090883255,
      "learning_rate": 0.00029394463358652507,
      "loss": 4.0366,
      "step": 45380
    },
    {
      "epoch": 0.0945625,
      "grad_norm": 0.8469406366348267,
      "learning_rate": 0.00029394186043469364,
      "loss": 4.0023,
      "step": 45390
    },
    {
      "epoch": 0.09458333333333334,
      "grad_norm": 0.9143786430358887,
      "learning_rate": 0.00029393908666109036,
      "loss": 4.0786,
      "step": 45400
    },
    {
      "epoch": 0.09460416666666667,
      "grad_norm": 0.8098400235176086,
      "learning_rate": 0.0002939363122657272,
      "loss": 4.0473,
      "step": 45410
    },
    {
      "epoch": 0.094625,
      "grad_norm": 0.9839364886283875,
      "learning_rate": 0.0002939335372486161,
      "loss": 3.7376,
      "step": 45420
    },
    {
      "epoch": 0.09464583333333333,
      "grad_norm": 0.8267048597335815,
      "learning_rate": 0.00029393076160976915,
      "loss": 3.9923,
      "step": 45430
    },
    {
      "epoch": 0.09466666666666666,
      "grad_norm": 0.8272232413291931,
      "learning_rate": 0.0002939279853491982,
      "loss": 4.1674,
      "step": 45440
    },
    {
      "epoch": 0.0946875,
      "grad_norm": 0.7564824819564819,
      "learning_rate": 0.0002939252084669154,
      "loss": 4.0907,
      "step": 45450
    },
    {
      "epoch": 0.09470833333333334,
      "grad_norm": 0.7972956895828247,
      "learning_rate": 0.00029392243096293267,
      "loss": 3.9741,
      "step": 45460
    },
    {
      "epoch": 0.09472916666666667,
      "grad_norm": 0.851256787776947,
      "learning_rate": 0.00029391965283726197,
      "loss": 3.9542,
      "step": 45470
    },
    {
      "epoch": 0.09475,
      "grad_norm": 0.7839607000350952,
      "learning_rate": 0.0002939168740899153,
      "loss": 4.078,
      "step": 45480
    },
    {
      "epoch": 0.09477083333333333,
      "grad_norm": 0.7978137135505676,
      "learning_rate": 0.0002939140947209048,
      "loss": 4.011,
      "step": 45490
    },
    {
      "epoch": 0.09479166666666666,
      "grad_norm": 0.7750713229179382,
      "learning_rate": 0.0002939113147302423,
      "loss": 4.0348,
      "step": 45500
    },
    {
      "epoch": 0.0948125,
      "grad_norm": 0.8086476922035217,
      "learning_rate": 0.00029390853411793993,
      "loss": 4.1319,
      "step": 45510
    },
    {
      "epoch": 0.09483333333333334,
      "grad_norm": 0.7548931837081909,
      "learning_rate": 0.00029390575288400965,
      "loss": 3.9,
      "step": 45520
    },
    {
      "epoch": 0.09485416666666667,
      "grad_norm": 0.8632543683052063,
      "learning_rate": 0.00029390297102846344,
      "loss": 4.1245,
      "step": 45530
    },
    {
      "epoch": 0.094875,
      "grad_norm": 0.8787257075309753,
      "learning_rate": 0.0002939001885513134,
      "loss": 3.9381,
      "step": 45540
    },
    {
      "epoch": 0.09489583333333333,
      "grad_norm": 0.8995476961135864,
      "learning_rate": 0.00029389740545257147,
      "loss": 4.0267,
      "step": 45550
    },
    {
      "epoch": 0.09491666666666666,
      "grad_norm": 0.8561380505561829,
      "learning_rate": 0.0002938946217322498,
      "loss": 4.1564,
      "step": 45560
    },
    {
      "epoch": 0.0949375,
      "grad_norm": 0.7836742997169495,
      "learning_rate": 0.0002938918373903602,
      "loss": 3.9547,
      "step": 45570
    },
    {
      "epoch": 0.09495833333333334,
      "grad_norm": 0.7427635192871094,
      "learning_rate": 0.00029388905242691484,
      "loss": 4.0397,
      "step": 45580
    },
    {
      "epoch": 0.09497916666666667,
      "grad_norm": 0.856387734413147,
      "learning_rate": 0.00029388626684192576,
      "loss": 4.0324,
      "step": 45590
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.8420458436012268,
      "learning_rate": 0.00029388348063540495,
      "loss": 4.0306,
      "step": 45600
    },
    {
      "epoch": 0.09502083333333333,
      "grad_norm": 0.8015421032905579,
      "learning_rate": 0.0002938806938073645,
      "loss": 3.9155,
      "step": 45610
    },
    {
      "epoch": 0.09504166666666666,
      "grad_norm": 0.763532280921936,
      "learning_rate": 0.0002938779063578164,
      "loss": 4.0875,
      "step": 45620
    },
    {
      "epoch": 0.0950625,
      "grad_norm": 0.8707883954048157,
      "learning_rate": 0.0002938751182867726,
      "loss": 4.0439,
      "step": 45630
    },
    {
      "epoch": 0.09508333333333334,
      "grad_norm": 0.7776477336883545,
      "learning_rate": 0.00029387232959424527,
      "loss": 4.099,
      "step": 45640
    },
    {
      "epoch": 0.09510416666666667,
      "grad_norm": 0.8542993068695068,
      "learning_rate": 0.00029386954028024653,
      "loss": 3.9848,
      "step": 45650
    },
    {
      "epoch": 0.095125,
      "grad_norm": 0.9668006300926208,
      "learning_rate": 0.0002938667503447882,
      "loss": 3.8554,
      "step": 45660
    },
    {
      "epoch": 0.09514583333333333,
      "grad_norm": 0.8329102993011475,
      "learning_rate": 0.00029386395978788253,
      "loss": 4.0377,
      "step": 45670
    },
    {
      "epoch": 0.09516666666666666,
      "grad_norm": 0.7556877136230469,
      "learning_rate": 0.00029386116860954145,
      "loss": 3.9923,
      "step": 45680
    },
    {
      "epoch": 0.0951875,
      "grad_norm": 0.8933076858520508,
      "learning_rate": 0.0002938583768097771,
      "loss": 4.0122,
      "step": 45690
    },
    {
      "epoch": 0.09520833333333334,
      "grad_norm": 0.7948035001754761,
      "learning_rate": 0.0002938555843886015,
      "loss": 3.8089,
      "step": 45700
    },
    {
      "epoch": 0.09522916666666667,
      "grad_norm": 0.7730541825294495,
      "learning_rate": 0.00029385279134602673,
      "loss": 4.0102,
      "step": 45710
    },
    {
      "epoch": 0.09525,
      "grad_norm": 0.7822456359863281,
      "learning_rate": 0.0002938499976820648,
      "loss": 3.9779,
      "step": 45720
    },
    {
      "epoch": 0.09527083333333333,
      "grad_norm": 0.7689204812049866,
      "learning_rate": 0.0002938472033967278,
      "loss": 4.1424,
      "step": 45730
    },
    {
      "epoch": 0.09529166666666666,
      "grad_norm": 0.8548687696456909,
      "learning_rate": 0.0002938444084900279,
      "loss": 4.1685,
      "step": 45740
    },
    {
      "epoch": 0.0953125,
      "grad_norm": 0.7702450752258301,
      "learning_rate": 0.00029384161296197705,
      "loss": 3.897,
      "step": 45750
    },
    {
      "epoch": 0.09533333333333334,
      "grad_norm": 0.9607065320014954,
      "learning_rate": 0.0002938388168125874,
      "loss": 4.0562,
      "step": 45760
    },
    {
      "epoch": 0.09535416666666667,
      "grad_norm": 0.6935707926750183,
      "learning_rate": 0.00029383602004187095,
      "loss": 3.9475,
      "step": 45770
    },
    {
      "epoch": 0.095375,
      "grad_norm": 0.9489383101463318,
      "learning_rate": 0.0002938332226498398,
      "loss": 3.8986,
      "step": 45780
    },
    {
      "epoch": 0.09539583333333333,
      "grad_norm": 0.6949952840805054,
      "learning_rate": 0.00029383042463650616,
      "loss": 3.7916,
      "step": 45790
    },
    {
      "epoch": 0.09541666666666666,
      "grad_norm": 0.8038750886917114,
      "learning_rate": 0.000293827626001882,
      "loss": 3.9577,
      "step": 45800
    },
    {
      "epoch": 0.0954375,
      "grad_norm": 0.8259865045547485,
      "learning_rate": 0.00029382482674597933,
      "loss": 4.1713,
      "step": 45810
    },
    {
      "epoch": 0.09545833333333334,
      "grad_norm": 0.7633161544799805,
      "learning_rate": 0.00029382202686881046,
      "loss": 4.1554,
      "step": 45820
    },
    {
      "epoch": 0.09547916666666667,
      "grad_norm": 0.905838668346405,
      "learning_rate": 0.0002938192263703873,
      "loss": 3.9201,
      "step": 45830
    },
    {
      "epoch": 0.0955,
      "grad_norm": 0.7080432772636414,
      "learning_rate": 0.00029381642525072197,
      "loss": 4.0738,
      "step": 45840
    },
    {
      "epoch": 0.09552083333333333,
      "grad_norm": 0.7999567985534668,
      "learning_rate": 0.0002938136235098267,
      "loss": 3.9494,
      "step": 45850
    },
    {
      "epoch": 0.09554166666666666,
      "grad_norm": 0.859424352645874,
      "learning_rate": 0.00029381082114771345,
      "loss": 3.9803,
      "step": 45860
    },
    {
      "epoch": 0.0955625,
      "grad_norm": 0.8311036825180054,
      "learning_rate": 0.00029380801816439436,
      "loss": 3.8966,
      "step": 45870
    },
    {
      "epoch": 0.09558333333333334,
      "grad_norm": 0.8434373736381531,
      "learning_rate": 0.00029380521455988164,
      "loss": 3.8801,
      "step": 45880
    },
    {
      "epoch": 0.09560416666666667,
      "grad_norm": 0.8669942617416382,
      "learning_rate": 0.0002938024103341872,
      "loss": 3.9971,
      "step": 45890
    },
    {
      "epoch": 0.095625,
      "grad_norm": 0.8655198216438293,
      "learning_rate": 0.00029379960548732334,
      "loss": 3.9539,
      "step": 45900
    },
    {
      "epoch": 0.09564583333333333,
      "grad_norm": 0.8112446069717407,
      "learning_rate": 0.0002937968000193021,
      "loss": 4.0565,
      "step": 45910
    },
    {
      "epoch": 0.09566666666666666,
      "grad_norm": 0.8392683267593384,
      "learning_rate": 0.00029379399393013555,
      "loss": 4.0648,
      "step": 45920
    },
    {
      "epoch": 0.0956875,
      "grad_norm": 0.6865496635437012,
      "learning_rate": 0.0002937911872198359,
      "loss": 3.9448,
      "step": 45930
    },
    {
      "epoch": 0.09570833333333334,
      "grad_norm": 0.777849555015564,
      "learning_rate": 0.0002937883798884152,
      "loss": 4.0476,
      "step": 45940
    },
    {
      "epoch": 0.09572916666666667,
      "grad_norm": 0.776465117931366,
      "learning_rate": 0.0002937855719358857,
      "loss": 3.9991,
      "step": 45950
    },
    {
      "epoch": 0.09575,
      "grad_norm": 0.7091624140739441,
      "learning_rate": 0.0002937827633622594,
      "loss": 4.024,
      "step": 45960
    },
    {
      "epoch": 0.09577083333333333,
      "grad_norm": 0.7408348321914673,
      "learning_rate": 0.0002937799541675485,
      "loss": 3.955,
      "step": 45970
    },
    {
      "epoch": 0.09579166666666666,
      "grad_norm": 0.7853039503097534,
      "learning_rate": 0.00029377714435176503,
      "loss": 4.1042,
      "step": 45980
    },
    {
      "epoch": 0.0958125,
      "grad_norm": 0.6806604266166687,
      "learning_rate": 0.0002937743339149213,
      "loss": 3.9942,
      "step": 45990
    },
    {
      "epoch": 0.09583333333333334,
      "grad_norm": 0.8249806761741638,
      "learning_rate": 0.00029377152285702934,
      "loss": 3.8743,
      "step": 46000
    },
    {
      "epoch": 0.09583333333333334,
      "eval_loss": 4.299300193786621,
      "eval_runtime": 12.5369,
      "eval_samples_per_second": 0.798,
      "eval_steps_per_second": 0.239,
      "step": 46000
    },
    {
      "epoch": 0.09585416666666667,
      "grad_norm": 0.8441017270088196,
      "learning_rate": 0.00029376871117810124,
      "loss": 3.6973,
      "step": 46010
    },
    {
      "epoch": 0.095875,
      "grad_norm": 0.8141298890113831,
      "learning_rate": 0.0002937658988781493,
      "loss": 3.9546,
      "step": 46020
    },
    {
      "epoch": 0.09589583333333333,
      "grad_norm": 0.8308836817741394,
      "learning_rate": 0.00029376308595718554,
      "loss": 4.0225,
      "step": 46030
    },
    {
      "epoch": 0.09591666666666666,
      "grad_norm": 0.8066573143005371,
      "learning_rate": 0.00029376027241522217,
      "loss": 4.0748,
      "step": 46040
    },
    {
      "epoch": 0.0959375,
      "grad_norm": 0.6995230913162231,
      "learning_rate": 0.0002937574582522713,
      "loss": 4.0718,
      "step": 46050
    },
    {
      "epoch": 0.09595833333333334,
      "grad_norm": 1.101096272468567,
      "learning_rate": 0.00029375464346834514,
      "loss": 4.1021,
      "step": 46060
    },
    {
      "epoch": 0.09597916666666667,
      "grad_norm": 0.8136130571365356,
      "learning_rate": 0.00029375182806345583,
      "loss": 4.1025,
      "step": 46070
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.8257946372032166,
      "learning_rate": 0.0002937490120376155,
      "loss": 3.9366,
      "step": 46080
    },
    {
      "epoch": 0.09602083333333333,
      "grad_norm": 0.9192647933959961,
      "learning_rate": 0.0002937461953908363,
      "loss": 4.0374,
      "step": 46090
    },
    {
      "epoch": 0.09604166666666666,
      "grad_norm": 0.8636994957923889,
      "learning_rate": 0.00029374337812313047,
      "loss": 4.038,
      "step": 46100
    },
    {
      "epoch": 0.0960625,
      "grad_norm": 0.7460533976554871,
      "learning_rate": 0.00029374056023451017,
      "loss": 4.0881,
      "step": 46110
    },
    {
      "epoch": 0.09608333333333334,
      "grad_norm": 0.7628961801528931,
      "learning_rate": 0.00029373774172498755,
      "loss": 3.8599,
      "step": 46120
    },
    {
      "epoch": 0.09610416666666667,
      "grad_norm": 0.8539522886276245,
      "learning_rate": 0.00029373492259457477,
      "loss": 3.9737,
      "step": 46130
    },
    {
      "epoch": 0.096125,
      "grad_norm": 0.7865321040153503,
      "learning_rate": 0.000293732102843284,
      "loss": 3.9836,
      "step": 46140
    },
    {
      "epoch": 0.09614583333333333,
      "grad_norm": 0.8417372107505798,
      "learning_rate": 0.0002937292824711275,
      "loss": 3.9105,
      "step": 46150
    },
    {
      "epoch": 0.09616666666666666,
      "grad_norm": 0.7831483483314514,
      "learning_rate": 0.0002937264614781173,
      "loss": 4.1743,
      "step": 46160
    },
    {
      "epoch": 0.0961875,
      "grad_norm": 0.8776770830154419,
      "learning_rate": 0.0002937236398642657,
      "loss": 4.1245,
      "step": 46170
    },
    {
      "epoch": 0.09620833333333334,
      "grad_norm": 0.7629642486572266,
      "learning_rate": 0.0002937208176295849,
      "loss": 3.7795,
      "step": 46180
    },
    {
      "epoch": 0.09622916666666667,
      "grad_norm": 0.8218974471092224,
      "learning_rate": 0.00029371799477408703,
      "loss": 3.8597,
      "step": 46190
    },
    {
      "epoch": 0.09625,
      "grad_norm": 0.7103642225265503,
      "learning_rate": 0.00029371517129778434,
      "loss": 3.9874,
      "step": 46200
    },
    {
      "epoch": 0.09627083333333333,
      "grad_norm": 0.9606780409812927,
      "learning_rate": 0.00029371234720068894,
      "loss": 3.8169,
      "step": 46210
    },
    {
      "epoch": 0.09629166666666666,
      "grad_norm": 0.9901225566864014,
      "learning_rate": 0.00029370952248281316,
      "loss": 4.1948,
      "step": 46220
    },
    {
      "epoch": 0.0963125,
      "grad_norm": 0.8903389573097229,
      "learning_rate": 0.0002937066971441691,
      "loss": 4.0652,
      "step": 46230
    },
    {
      "epoch": 0.09633333333333334,
      "grad_norm": 0.834360659122467,
      "learning_rate": 0.00029370387118476894,
      "loss": 4.1544,
      "step": 46240
    },
    {
      "epoch": 0.09635416666666667,
      "grad_norm": 0.8067901730537415,
      "learning_rate": 0.000293701044604625,
      "loss": 4.1274,
      "step": 46250
    },
    {
      "epoch": 0.096375,
      "grad_norm": 0.8308467268943787,
      "learning_rate": 0.0002936982174037494,
      "loss": 4.0566,
      "step": 46260
    },
    {
      "epoch": 0.09639583333333333,
      "grad_norm": 0.7196791768074036,
      "learning_rate": 0.00029369538958215436,
      "loss": 3.9862,
      "step": 46270
    },
    {
      "epoch": 0.09641666666666666,
      "grad_norm": 0.714933454990387,
      "learning_rate": 0.00029369256113985216,
      "loss": 3.9886,
      "step": 46280
    },
    {
      "epoch": 0.0964375,
      "grad_norm": 0.8049482107162476,
      "learning_rate": 0.00029368973207685495,
      "loss": 4.0938,
      "step": 46290
    },
    {
      "epoch": 0.09645833333333333,
      "grad_norm": 0.8619410395622253,
      "learning_rate": 0.000293686902393175,
      "loss": 3.9439,
      "step": 46300
    },
    {
      "epoch": 0.09647916666666667,
      "grad_norm": 0.7825434803962708,
      "learning_rate": 0.0002936840720888245,
      "loss": 3.9062,
      "step": 46310
    },
    {
      "epoch": 0.0965,
      "grad_norm": 1.0062544345855713,
      "learning_rate": 0.00029368124116381565,
      "loss": 3.8805,
      "step": 46320
    },
    {
      "epoch": 0.09652083333333333,
      "grad_norm": 0.7943782210350037,
      "learning_rate": 0.0002936784096181607,
      "loss": 3.9866,
      "step": 46330
    },
    {
      "epoch": 0.09654166666666666,
      "grad_norm": 0.9655819535255432,
      "learning_rate": 0.00029367557745187193,
      "loss": 3.9531,
      "step": 46340
    },
    {
      "epoch": 0.0965625,
      "grad_norm": 0.9315405488014221,
      "learning_rate": 0.00029367274466496156,
      "loss": 3.9954,
      "step": 46350
    },
    {
      "epoch": 0.09658333333333333,
      "grad_norm": 0.8463749289512634,
      "learning_rate": 0.0002936699112574418,
      "loss": 4.0735,
      "step": 46360
    },
    {
      "epoch": 0.09660416666666667,
      "grad_norm": 0.716788649559021,
      "learning_rate": 0.00029366707722932483,
      "loss": 4.0551,
      "step": 46370
    },
    {
      "epoch": 0.096625,
      "grad_norm": 0.7077880501747131,
      "learning_rate": 0.000293664242580623,
      "loss": 3.922,
      "step": 46380
    },
    {
      "epoch": 0.09664583333333333,
      "grad_norm": 0.8764641880989075,
      "learning_rate": 0.00029366140731134846,
      "loss": 3.9687,
      "step": 46390
    },
    {
      "epoch": 0.09666666666666666,
      "grad_norm": 0.7916440367698669,
      "learning_rate": 0.00029365857142151354,
      "loss": 4.2179,
      "step": 46400
    },
    {
      "epoch": 0.0966875,
      "grad_norm": 0.7199515104293823,
      "learning_rate": 0.00029365573491113047,
      "loss": 4.0171,
      "step": 46410
    },
    {
      "epoch": 0.09670833333333333,
      "grad_norm": 0.8514782786369324,
      "learning_rate": 0.0002936528977802115,
      "loss": 4.006,
      "step": 46420
    },
    {
      "epoch": 0.09672916666666667,
      "grad_norm": 0.8852013945579529,
      "learning_rate": 0.0002936500600287688,
      "loss": 3.9036,
      "step": 46430
    },
    {
      "epoch": 0.09675,
      "grad_norm": 0.8588011860847473,
      "learning_rate": 0.00029364722165681477,
      "loss": 4.0568,
      "step": 46440
    },
    {
      "epoch": 0.09677083333333333,
      "grad_norm": 0.8685310482978821,
      "learning_rate": 0.0002936443826643616,
      "loss": 3.9223,
      "step": 46450
    },
    {
      "epoch": 0.09679166666666666,
      "grad_norm": 0.7856481075286865,
      "learning_rate": 0.0002936415430514215,
      "loss": 3.8483,
      "step": 46460
    },
    {
      "epoch": 0.0968125,
      "grad_norm": 0.7501025795936584,
      "learning_rate": 0.00029363870281800685,
      "loss": 4.1985,
      "step": 46470
    },
    {
      "epoch": 0.09683333333333333,
      "grad_norm": 0.7500737309455872,
      "learning_rate": 0.00029363586196412984,
      "loss": 4.0021,
      "step": 46480
    },
    {
      "epoch": 0.09685416666666667,
      "grad_norm": 0.9198769330978394,
      "learning_rate": 0.00029363302048980274,
      "loss": 3.984,
      "step": 46490
    },
    {
      "epoch": 0.096875,
      "grad_norm": 0.7681224942207336,
      "learning_rate": 0.0002936301783950379,
      "loss": 4.0098,
      "step": 46500
    },
    {
      "epoch": 0.09689583333333333,
      "grad_norm": 0.9878162741661072,
      "learning_rate": 0.0002936273356798475,
      "loss": 3.9974,
      "step": 46510
    },
    {
      "epoch": 0.09691666666666666,
      "grad_norm": 0.7782607078552246,
      "learning_rate": 0.00029362449234424386,
      "loss": 4.0058,
      "step": 46520
    },
    {
      "epoch": 0.0969375,
      "grad_norm": 0.7389387488365173,
      "learning_rate": 0.0002936216483882393,
      "loss": 4.0637,
      "step": 46530
    },
    {
      "epoch": 0.09695833333333333,
      "grad_norm": 0.8099526762962341,
      "learning_rate": 0.000293618803811846,
      "loss": 4.0899,
      "step": 46540
    },
    {
      "epoch": 0.09697916666666667,
      "grad_norm": 0.8525927066802979,
      "learning_rate": 0.00029361595861507637,
      "loss": 3.9868,
      "step": 46550
    },
    {
      "epoch": 0.097,
      "grad_norm": 0.7432307004928589,
      "learning_rate": 0.0002936131127979426,
      "loss": 4.008,
      "step": 46560
    },
    {
      "epoch": 0.09702083333333333,
      "grad_norm": 0.849456250667572,
      "learning_rate": 0.0002936102663604571,
      "loss": 4.0013,
      "step": 46570
    },
    {
      "epoch": 0.09704166666666666,
      "grad_norm": 0.8985823392868042,
      "learning_rate": 0.0002936074193026321,
      "loss": 4.0003,
      "step": 46580
    },
    {
      "epoch": 0.0970625,
      "grad_norm": 0.7941288352012634,
      "learning_rate": 0.0002936045716244798,
      "loss": 3.9512,
      "step": 46590
    },
    {
      "epoch": 0.09708333333333333,
      "grad_norm": 0.7117406725883484,
      "learning_rate": 0.00029360172332601264,
      "loss": 4.107,
      "step": 46600
    },
    {
      "epoch": 0.09710416666666667,
      "grad_norm": 0.8271649479866028,
      "learning_rate": 0.0002935988744072429,
      "loss": 4.0049,
      "step": 46610
    },
    {
      "epoch": 0.097125,
      "grad_norm": 0.8262935876846313,
      "learning_rate": 0.00029359602486818284,
      "loss": 3.9537,
      "step": 46620
    },
    {
      "epoch": 0.09714583333333333,
      "grad_norm": 0.813737154006958,
      "learning_rate": 0.00029359317470884476,
      "loss": 3.9909,
      "step": 46630
    },
    {
      "epoch": 0.09716666666666667,
      "grad_norm": 0.8304045796394348,
      "learning_rate": 0.00029359032392924106,
      "loss": 4.2131,
      "step": 46640
    },
    {
      "epoch": 0.0971875,
      "grad_norm": 0.825265109539032,
      "learning_rate": 0.00029358747252938394,
      "loss": 4.1037,
      "step": 46650
    },
    {
      "epoch": 0.09720833333333333,
      "grad_norm": 0.7475466728210449,
      "learning_rate": 0.0002935846205092858,
      "loss": 4.085,
      "step": 46660
    },
    {
      "epoch": 0.09722916666666667,
      "grad_norm": 0.8651233911514282,
      "learning_rate": 0.00029358176786895896,
      "loss": 4.0821,
      "step": 46670
    },
    {
      "epoch": 0.09725,
      "grad_norm": 0.7834148406982422,
      "learning_rate": 0.0002935789146084157,
      "loss": 3.9834,
      "step": 46680
    },
    {
      "epoch": 0.09727083333333333,
      "grad_norm": 0.9636504650115967,
      "learning_rate": 0.0002935760607276684,
      "loss": 4.084,
      "step": 46690
    },
    {
      "epoch": 0.09729166666666667,
      "grad_norm": 0.8700416684150696,
      "learning_rate": 0.00029357320622672926,
      "loss": 3.9454,
      "step": 46700
    },
    {
      "epoch": 0.0973125,
      "grad_norm": 0.8495625257492065,
      "learning_rate": 0.0002935703511056108,
      "loss": 4.0206,
      "step": 46710
    },
    {
      "epoch": 0.09733333333333333,
      "grad_norm": 0.8255255222320557,
      "learning_rate": 0.00029356749536432514,
      "loss": 4.0458,
      "step": 46720
    },
    {
      "epoch": 0.09735416666666667,
      "grad_norm": 0.8789747953414917,
      "learning_rate": 0.0002935646390028848,
      "loss": 4.0792,
      "step": 46730
    },
    {
      "epoch": 0.097375,
      "grad_norm": 0.7113121747970581,
      "learning_rate": 0.00029356178202130206,
      "loss": 4.0351,
      "step": 46740
    },
    {
      "epoch": 0.09739583333333333,
      "grad_norm": 0.7882273197174072,
      "learning_rate": 0.00029355892441958924,
      "loss": 4.0773,
      "step": 46750
    },
    {
      "epoch": 0.09741666666666667,
      "grad_norm": 0.8116236329078674,
      "learning_rate": 0.00029355606619775864,
      "loss": 3.9887,
      "step": 46760
    },
    {
      "epoch": 0.0974375,
      "grad_norm": 0.8258769512176514,
      "learning_rate": 0.00029355320735582267,
      "loss": 4.1052,
      "step": 46770
    },
    {
      "epoch": 0.09745833333333333,
      "grad_norm": 0.7701417803764343,
      "learning_rate": 0.00029355034789379375,
      "loss": 4.0449,
      "step": 46780
    },
    {
      "epoch": 0.09747916666666667,
      "grad_norm": 0.7965903282165527,
      "learning_rate": 0.00029354748781168407,
      "loss": 3.9912,
      "step": 46790
    },
    {
      "epoch": 0.0975,
      "grad_norm": 0.7308945059776306,
      "learning_rate": 0.00029354462710950605,
      "loss": 3.9834,
      "step": 46800
    },
    {
      "epoch": 0.09752083333333333,
      "grad_norm": 0.7368971705436707,
      "learning_rate": 0.0002935417657872721,
      "loss": 3.8771,
      "step": 46810
    },
    {
      "epoch": 0.09754166666666667,
      "grad_norm": 0.8631055355072021,
      "learning_rate": 0.00029353890384499454,
      "loss": 3.939,
      "step": 46820
    },
    {
      "epoch": 0.0975625,
      "grad_norm": 0.7141445279121399,
      "learning_rate": 0.0002935360412826857,
      "loss": 3.7813,
      "step": 46830
    },
    {
      "epoch": 0.09758333333333333,
      "grad_norm": 0.8616940975189209,
      "learning_rate": 0.000293533178100358,
      "loss": 4.0156,
      "step": 46840
    },
    {
      "epoch": 0.09760416666666667,
      "grad_norm": 0.7957085967063904,
      "learning_rate": 0.00029353031429802377,
      "loss": 4.0405,
      "step": 46850
    },
    {
      "epoch": 0.097625,
      "grad_norm": 0.7393426299095154,
      "learning_rate": 0.0002935274498756954,
      "loss": 3.7949,
      "step": 46860
    },
    {
      "epoch": 0.09764583333333333,
      "grad_norm": 0.7329308390617371,
      "learning_rate": 0.0002935245848333853,
      "loss": 3.9535,
      "step": 46870
    },
    {
      "epoch": 0.09766666666666667,
      "grad_norm": 0.8251875042915344,
      "learning_rate": 0.0002935217191711058,
      "loss": 3.9549,
      "step": 46880
    },
    {
      "epoch": 0.0976875,
      "grad_norm": 0.8141350150108337,
      "learning_rate": 0.0002935188528888692,
      "loss": 3.8621,
      "step": 46890
    },
    {
      "epoch": 0.09770833333333333,
      "grad_norm": 1.0813504457473755,
      "learning_rate": 0.000293515985986688,
      "loss": 4.182,
      "step": 46900
    },
    {
      "epoch": 0.09772916666666667,
      "grad_norm": 0.7639939785003662,
      "learning_rate": 0.0002935131184645746,
      "loss": 3.9977,
      "step": 46910
    },
    {
      "epoch": 0.09775,
      "grad_norm": 0.7103754878044128,
      "learning_rate": 0.00029351025032254126,
      "loss": 4.1002,
      "step": 46920
    },
    {
      "epoch": 0.09777083333333333,
      "grad_norm": 0.69572913646698,
      "learning_rate": 0.00029350738156060053,
      "loss": 4.0071,
      "step": 46930
    },
    {
      "epoch": 0.09779166666666667,
      "grad_norm": 0.6946271061897278,
      "learning_rate": 0.00029350451217876466,
      "loss": 4.1441,
      "step": 46940
    },
    {
      "epoch": 0.0978125,
      "grad_norm": 0.7504689693450928,
      "learning_rate": 0.0002935016421770461,
      "loss": 3.9185,
      "step": 46950
    },
    {
      "epoch": 0.09783333333333333,
      "grad_norm": 0.7509973049163818,
      "learning_rate": 0.0002934987715554573,
      "loss": 3.9402,
      "step": 46960
    },
    {
      "epoch": 0.09785416666666667,
      "grad_norm": 0.6871477961540222,
      "learning_rate": 0.0002934959003140105,
      "loss": 3.9295,
      "step": 46970
    },
    {
      "epoch": 0.097875,
      "grad_norm": 0.8557692170143127,
      "learning_rate": 0.0002934930284527183,
      "loss": 4.1306,
      "step": 46980
    },
    {
      "epoch": 0.09789583333333333,
      "grad_norm": 1.0151721239089966,
      "learning_rate": 0.000293490155971593,
      "loss": 4.1212,
      "step": 46990
    },
    {
      "epoch": 0.09791666666666667,
      "grad_norm": 0.7988532781600952,
      "learning_rate": 0.00029348728287064704,
      "loss": 3.956,
      "step": 47000
    },
    {
      "epoch": 0.09791666666666667,
      "eval_loss": 4.286574363708496,
      "eval_runtime": 12.837,
      "eval_samples_per_second": 0.779,
      "eval_steps_per_second": 0.234,
      "step": 47000
    },
    {
      "epoch": 0.0979375,
      "grad_norm": 0.8488372564315796,
      "learning_rate": 0.00029348440914989273,
      "loss": 4.0811,
      "step": 47010
    },
    {
      "epoch": 0.09795833333333333,
      "grad_norm": 0.9412222504615784,
      "learning_rate": 0.00029348153480934265,
      "loss": 4.0637,
      "step": 47020
    },
    {
      "epoch": 0.09797916666666667,
      "grad_norm": 0.7563731670379639,
      "learning_rate": 0.0002934786598490091,
      "loss": 3.9543,
      "step": 47030
    },
    {
      "epoch": 0.098,
      "grad_norm": 0.8456201553344727,
      "learning_rate": 0.00029347578426890456,
      "loss": 3.9229,
      "step": 47040
    },
    {
      "epoch": 0.09802083333333333,
      "grad_norm": 0.8371520638465881,
      "learning_rate": 0.00029347290806904143,
      "loss": 3.8122,
      "step": 47050
    },
    {
      "epoch": 0.09804166666666667,
      "grad_norm": 0.7771221995353699,
      "learning_rate": 0.00029347003124943207,
      "loss": 4.1252,
      "step": 47060
    },
    {
      "epoch": 0.0980625,
      "grad_norm": 0.7986473441123962,
      "learning_rate": 0.000293467153810089,
      "loss": 3.9943,
      "step": 47070
    },
    {
      "epoch": 0.09808333333333333,
      "grad_norm": 0.8942128419876099,
      "learning_rate": 0.0002934642757510246,
      "loss": 3.9841,
      "step": 47080
    },
    {
      "epoch": 0.09810416666666667,
      "grad_norm": 0.9035899639129639,
      "learning_rate": 0.00029346139707225134,
      "loss": 3.7435,
      "step": 47090
    },
    {
      "epoch": 0.098125,
      "grad_norm": 0.8319689035415649,
      "learning_rate": 0.0002934585177737816,
      "loss": 3.894,
      "step": 47100
    },
    {
      "epoch": 0.09814583333333333,
      "grad_norm": 0.7116249203681946,
      "learning_rate": 0.0002934556378556279,
      "loss": 4.0223,
      "step": 47110
    },
    {
      "epoch": 0.09816666666666667,
      "grad_norm": 0.8204658031463623,
      "learning_rate": 0.0002934527573178026,
      "loss": 4.0601,
      "step": 47120
    },
    {
      "epoch": 0.0981875,
      "grad_norm": 0.883533239364624,
      "learning_rate": 0.00029344987616031817,
      "loss": 3.8983,
      "step": 47130
    },
    {
      "epoch": 0.09820833333333333,
      "grad_norm": 0.9911308884620667,
      "learning_rate": 0.000293446994383187,
      "loss": 4.0151,
      "step": 47140
    },
    {
      "epoch": 0.09822916666666667,
      "grad_norm": 0.7664318680763245,
      "learning_rate": 0.0002934441119864217,
      "loss": 4.0221,
      "step": 47150
    },
    {
      "epoch": 0.09825,
      "grad_norm": 0.8289836645126343,
      "learning_rate": 0.0002934412289700345,
      "loss": 4.1253,
      "step": 47160
    },
    {
      "epoch": 0.09827083333333334,
      "grad_norm": 0.8632632493972778,
      "learning_rate": 0.00029343834533403804,
      "loss": 3.9823,
      "step": 47170
    },
    {
      "epoch": 0.09829166666666667,
      "grad_norm": 0.895704984664917,
      "learning_rate": 0.0002934354610784447,
      "loss": 4.089,
      "step": 47180
    },
    {
      "epoch": 0.0983125,
      "grad_norm": 0.734760582447052,
      "learning_rate": 0.00029343257620326695,
      "loss": 3.9753,
      "step": 47190
    },
    {
      "epoch": 0.09833333333333333,
      "grad_norm": 0.9424364566802979,
      "learning_rate": 0.0002934296907085173,
      "loss": 3.9707,
      "step": 47200
    },
    {
      "epoch": 0.09835416666666667,
      "grad_norm": 0.8086329102516174,
      "learning_rate": 0.00029342680459420805,
      "loss": 4.017,
      "step": 47210
    },
    {
      "epoch": 0.098375,
      "grad_norm": 0.7572298645973206,
      "learning_rate": 0.0002934239178603518,
      "loss": 4.1001,
      "step": 47220
    },
    {
      "epoch": 0.09839583333333334,
      "grad_norm": 0.7728487253189087,
      "learning_rate": 0.00029342103050696103,
      "loss": 4.1189,
      "step": 47230
    },
    {
      "epoch": 0.09841666666666667,
      "grad_norm": 0.8716822862625122,
      "learning_rate": 0.0002934181425340482,
      "loss": 3.9293,
      "step": 47240
    },
    {
      "epoch": 0.0984375,
      "grad_norm": 0.8844538331031799,
      "learning_rate": 0.0002934152539416257,
      "loss": 4.1568,
      "step": 47250
    },
    {
      "epoch": 0.09845833333333333,
      "grad_norm": 0.7625339031219482,
      "learning_rate": 0.0002934123647297061,
      "loss": 3.91,
      "step": 47260
    },
    {
      "epoch": 0.09847916666666667,
      "grad_norm": 0.7267929315567017,
      "learning_rate": 0.00029340947489830184,
      "loss": 4.0305,
      "step": 47270
    },
    {
      "epoch": 0.0985,
      "grad_norm": 0.8579215407371521,
      "learning_rate": 0.0002934065844474254,
      "loss": 3.9841,
      "step": 47280
    },
    {
      "epoch": 0.09852083333333334,
      "grad_norm": 0.7883702516555786,
      "learning_rate": 0.00029340369337708933,
      "loss": 4.2355,
      "step": 47290
    },
    {
      "epoch": 0.09854166666666667,
      "grad_norm": 0.7911539673805237,
      "learning_rate": 0.00029340080168730603,
      "loss": 3.8045,
      "step": 47300
    },
    {
      "epoch": 0.0985625,
      "grad_norm": 0.7253926396369934,
      "learning_rate": 0.00029339790937808806,
      "loss": 4.0086,
      "step": 47310
    },
    {
      "epoch": 0.09858333333333333,
      "grad_norm": 0.8216734528541565,
      "learning_rate": 0.0002933950164494479,
      "loss": 3.9209,
      "step": 47320
    },
    {
      "epoch": 0.09860416666666667,
      "grad_norm": 0.8695818781852722,
      "learning_rate": 0.00029339212290139795,
      "loss": 4.2289,
      "step": 47330
    },
    {
      "epoch": 0.098625,
      "grad_norm": 0.7620000243186951,
      "learning_rate": 0.0002933892287339508,
      "loss": 3.9978,
      "step": 47340
    },
    {
      "epoch": 0.09864583333333334,
      "grad_norm": 0.7502625584602356,
      "learning_rate": 0.00029338633394711895,
      "loss": 4.2342,
      "step": 47350
    },
    {
      "epoch": 0.09866666666666667,
      "grad_norm": 0.8333707451820374,
      "learning_rate": 0.00029338343854091493,
      "loss": 4.1377,
      "step": 47360
    },
    {
      "epoch": 0.0986875,
      "grad_norm": 0.7773231863975525,
      "learning_rate": 0.0002933805425153512,
      "loss": 3.899,
      "step": 47370
    },
    {
      "epoch": 0.09870833333333333,
      "grad_norm": 0.7568817138671875,
      "learning_rate": 0.0002933776458704403,
      "loss": 3.919,
      "step": 47380
    },
    {
      "epoch": 0.09872916666666667,
      "grad_norm": 0.7336480021476746,
      "learning_rate": 0.0002933747486061947,
      "loss": 3.9067,
      "step": 47390
    },
    {
      "epoch": 0.09875,
      "grad_norm": 0.9175287485122681,
      "learning_rate": 0.0002933718507226269,
      "loss": 4.1145,
      "step": 47400
    },
    {
      "epoch": 0.09877083333333334,
      "grad_norm": 0.6970336437225342,
      "learning_rate": 0.00029336895221974946,
      "loss": 3.9954,
      "step": 47410
    },
    {
      "epoch": 0.09879166666666667,
      "grad_norm": 0.7734704613685608,
      "learning_rate": 0.00029336605309757493,
      "loss": 3.9061,
      "step": 47420
    },
    {
      "epoch": 0.0988125,
      "grad_norm": 0.8274029493331909,
      "learning_rate": 0.0002933631533561158,
      "loss": 3.8471,
      "step": 47430
    },
    {
      "epoch": 0.09883333333333333,
      "grad_norm": 0.788686215877533,
      "learning_rate": 0.0002933602529953846,
      "loss": 4.0784,
      "step": 47440
    },
    {
      "epoch": 0.09885416666666667,
      "grad_norm": 0.9297365546226501,
      "learning_rate": 0.00029335735201539383,
      "loss": 3.8914,
      "step": 47450
    },
    {
      "epoch": 0.098875,
      "grad_norm": 0.7887527942657471,
      "learning_rate": 0.0002933544504161561,
      "loss": 3.8535,
      "step": 47460
    },
    {
      "epoch": 0.09889583333333334,
      "grad_norm": 0.7966414093971252,
      "learning_rate": 0.0002933515481976838,
      "loss": 4.0694,
      "step": 47470
    },
    {
      "epoch": 0.09891666666666667,
      "grad_norm": 0.7667539119720459,
      "learning_rate": 0.0002933486453599896,
      "loss": 4.0607,
      "step": 47480
    },
    {
      "epoch": 0.0989375,
      "grad_norm": 0.9922259449958801,
      "learning_rate": 0.000293345741903086,
      "loss": 3.9776,
      "step": 47490
    },
    {
      "epoch": 0.09895833333333333,
      "grad_norm": 0.8321512937545776,
      "learning_rate": 0.0002933428378269855,
      "loss": 3.941,
      "step": 47500
    },
    {
      "epoch": 0.09897916666666666,
      "grad_norm": 0.873842179775238,
      "learning_rate": 0.00029333993313170075,
      "loss": 4.1358,
      "step": 47510
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.7720524072647095,
      "learning_rate": 0.00029333702781724413,
      "loss": 3.946,
      "step": 47520
    },
    {
      "epoch": 0.09902083333333334,
      "grad_norm": 0.7630630731582642,
      "learning_rate": 0.0002933341218836284,
      "loss": 3.9112,
      "step": 47530
    },
    {
      "epoch": 0.09904166666666667,
      "grad_norm": 0.7275964617729187,
      "learning_rate": 0.0002933312153308659,
      "loss": 4.081,
      "step": 47540
    },
    {
      "epoch": 0.0990625,
      "grad_norm": 0.9284539222717285,
      "learning_rate": 0.0002933283081589693,
      "loss": 4.0526,
      "step": 47550
    },
    {
      "epoch": 0.09908333333333333,
      "grad_norm": 0.9822106957435608,
      "learning_rate": 0.0002933254003679512,
      "loss": 4.1105,
      "step": 47560
    },
    {
      "epoch": 0.09910416666666666,
      "grad_norm": 0.8202856779098511,
      "learning_rate": 0.0002933224919578241,
      "loss": 3.9995,
      "step": 47570
    },
    {
      "epoch": 0.099125,
      "grad_norm": 0.8212708234786987,
      "learning_rate": 0.0002933195829286005,
      "loss": 4.076,
      "step": 47580
    },
    {
      "epoch": 0.09914583333333334,
      "grad_norm": 0.7797238230705261,
      "learning_rate": 0.000293316673280293,
      "loss": 3.9969,
      "step": 47590
    },
    {
      "epoch": 0.09916666666666667,
      "grad_norm": 0.8424199819564819,
      "learning_rate": 0.0002933137630129143,
      "loss": 3.9508,
      "step": 47600
    },
    {
      "epoch": 0.0991875,
      "grad_norm": 0.7882276177406311,
      "learning_rate": 0.0002933108521264768,
      "loss": 4.0074,
      "step": 47610
    },
    {
      "epoch": 0.09920833333333333,
      "grad_norm": 0.8117292523384094,
      "learning_rate": 0.00029330794062099323,
      "loss": 4.1246,
      "step": 47620
    },
    {
      "epoch": 0.09922916666666666,
      "grad_norm": 0.8007997870445251,
      "learning_rate": 0.000293305028496476,
      "loss": 4.1091,
      "step": 47630
    },
    {
      "epoch": 0.09925,
      "grad_norm": 0.8753410577774048,
      "learning_rate": 0.00029330211575293784,
      "loss": 3.9582,
      "step": 47640
    },
    {
      "epoch": 0.09927083333333334,
      "grad_norm": 0.8327863812446594,
      "learning_rate": 0.00029329920239039124,
      "loss": 4.1667,
      "step": 47650
    },
    {
      "epoch": 0.09929166666666667,
      "grad_norm": 0.6958761811256409,
      "learning_rate": 0.00029329628840884874,
      "loss": 3.9031,
      "step": 47660
    },
    {
      "epoch": 0.0993125,
      "grad_norm": 0.7629930973052979,
      "learning_rate": 0.0002932933738083231,
      "loss": 3.8925,
      "step": 47670
    },
    {
      "epoch": 0.09933333333333333,
      "grad_norm": 0.7567424178123474,
      "learning_rate": 0.00029329045858882667,
      "loss": 4.1094,
      "step": 47680
    },
    {
      "epoch": 0.09935416666666666,
      "grad_norm": 0.7268300652503967,
      "learning_rate": 0.0002932875427503723,
      "loss": 4.152,
      "step": 47690
    },
    {
      "epoch": 0.099375,
      "grad_norm": 0.7327772378921509,
      "learning_rate": 0.00029328462629297245,
      "loss": 3.9603,
      "step": 47700
    },
    {
      "epoch": 0.09939583333333334,
      "grad_norm": 0.709102988243103,
      "learning_rate": 0.0002932817092166397,
      "loss": 3.9712,
      "step": 47710
    },
    {
      "epoch": 0.09941666666666667,
      "grad_norm": 0.8208205103874207,
      "learning_rate": 0.0002932787915213867,
      "loss": 3.9861,
      "step": 47720
    },
    {
      "epoch": 0.0994375,
      "grad_norm": 0.7061445713043213,
      "learning_rate": 0.000293275873207226,
      "loss": 4.0136,
      "step": 47730
    },
    {
      "epoch": 0.09945833333333333,
      "grad_norm": 0.7958305478096008,
      "learning_rate": 0.00029327295427417023,
      "loss": 3.8072,
      "step": 47740
    },
    {
      "epoch": 0.09947916666666666,
      "grad_norm": 0.9317709803581238,
      "learning_rate": 0.000293270034722232,
      "loss": 4.0987,
      "step": 47750
    },
    {
      "epoch": 0.0995,
      "grad_norm": 0.7192344665527344,
      "learning_rate": 0.000293267114551424,
      "loss": 3.8612,
      "step": 47760
    },
    {
      "epoch": 0.09952083333333334,
      "grad_norm": 0.8794879913330078,
      "learning_rate": 0.00029326419376175876,
      "loss": 3.9788,
      "step": 47770
    },
    {
      "epoch": 0.09954166666666667,
      "grad_norm": 0.9681157469749451,
      "learning_rate": 0.00029326127235324885,
      "loss": 3.8749,
      "step": 47780
    },
    {
      "epoch": 0.0995625,
      "grad_norm": 0.8535354733467102,
      "learning_rate": 0.000293258350325907,
      "loss": 3.8568,
      "step": 47790
    },
    {
      "epoch": 0.09958333333333333,
      "grad_norm": 0.7619017958641052,
      "learning_rate": 0.00029325542767974575,
      "loss": 4.014,
      "step": 47800
    },
    {
      "epoch": 0.09960416666666666,
      "grad_norm": 0.802689790725708,
      "learning_rate": 0.0002932525044147778,
      "loss": 3.9159,
      "step": 47810
    },
    {
      "epoch": 0.099625,
      "grad_norm": 0.8904974460601807,
      "learning_rate": 0.0002932495805310157,
      "loss": 4.0193,
      "step": 47820
    },
    {
      "epoch": 0.09964583333333334,
      "grad_norm": 0.8420990705490112,
      "learning_rate": 0.00029324665602847215,
      "loss": 3.9607,
      "step": 47830
    },
    {
      "epoch": 0.09966666666666667,
      "grad_norm": 0.7978883981704712,
      "learning_rate": 0.0002932437309071597,
      "loss": 4.1455,
      "step": 47840
    },
    {
      "epoch": 0.0996875,
      "grad_norm": 0.8461341261863708,
      "learning_rate": 0.0002932408051670911,
      "loss": 3.8847,
      "step": 47850
    },
    {
      "epoch": 0.09970833333333333,
      "grad_norm": 0.7385954260826111,
      "learning_rate": 0.00029323787880827887,
      "loss": 3.8897,
      "step": 47860
    },
    {
      "epoch": 0.09972916666666666,
      "grad_norm": 0.7400155067443848,
      "learning_rate": 0.0002932349518307357,
      "loss": 4.0359,
      "step": 47870
    },
    {
      "epoch": 0.09975,
      "grad_norm": 0.7641866207122803,
      "learning_rate": 0.0002932320242344743,
      "loss": 3.9807,
      "step": 47880
    },
    {
      "epoch": 0.09977083333333334,
      "grad_norm": 0.7876996397972107,
      "learning_rate": 0.00029322909601950717,
      "loss": 3.977,
      "step": 47890
    },
    {
      "epoch": 0.09979166666666667,
      "grad_norm": 0.8762141466140747,
      "learning_rate": 0.00029322616718584704,
      "loss": 3.8671,
      "step": 47900
    },
    {
      "epoch": 0.0998125,
      "grad_norm": 0.78408282995224,
      "learning_rate": 0.0002932232377335066,
      "loss": 3.9272,
      "step": 47910
    },
    {
      "epoch": 0.09983333333333333,
      "grad_norm": 0.791938304901123,
      "learning_rate": 0.0002932203076624984,
      "loss": 4.1735,
      "step": 47920
    },
    {
      "epoch": 0.09985416666666666,
      "grad_norm": 0.8397022485733032,
      "learning_rate": 0.00029321737697283524,
      "loss": 4.0246,
      "step": 47930
    },
    {
      "epoch": 0.099875,
      "grad_norm": 0.845992922782898,
      "learning_rate": 0.00029321444566452967,
      "loss": 4.0681,
      "step": 47940
    },
    {
      "epoch": 0.09989583333333334,
      "grad_norm": 0.8215623497962952,
      "learning_rate": 0.0002932115137375944,
      "loss": 3.9697,
      "step": 47950
    },
    {
      "epoch": 0.09991666666666667,
      "grad_norm": 0.8136407136917114,
      "learning_rate": 0.00029320858119204207,
      "loss": 4.074,
      "step": 47960
    },
    {
      "epoch": 0.0999375,
      "grad_norm": 0.8700049519538879,
      "learning_rate": 0.0002932056480278853,
      "loss": 4.0678,
      "step": 47970
    },
    {
      "epoch": 0.09995833333333333,
      "grad_norm": 0.7943379282951355,
      "learning_rate": 0.0002932027142451369,
      "loss": 3.9094,
      "step": 47980
    },
    {
      "epoch": 0.09997916666666666,
      "grad_norm": 0.857939600944519,
      "learning_rate": 0.00029319977984380944,
      "loss": 4.0355,
      "step": 47990
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8543757796287537,
      "learning_rate": 0.0002931968448239156,
      "loss": 4.0474,
      "step": 48000
    },
    {
      "epoch": 0.1,
      "eval_loss": 4.289906978607178,
      "eval_runtime": 10.053,
      "eval_samples_per_second": 0.995,
      "eval_steps_per_second": 0.298,
      "step": 48000
    },
    {
      "epoch": 0.10002083333333334,
      "grad_norm": 0.8843062520027161,
      "learning_rate": 0.00029319390918546804,
      "loss": 3.9355,
      "step": 48010
    },
    {
      "epoch": 0.10004166666666667,
      "grad_norm": 0.816810131072998,
      "learning_rate": 0.0002931909729284795,
      "loss": 3.9121,
      "step": 48020
    },
    {
      "epoch": 0.1000625,
      "grad_norm": 0.773061215877533,
      "learning_rate": 0.00029318803605296264,
      "loss": 3.8712,
      "step": 48030
    },
    {
      "epoch": 0.10008333333333333,
      "grad_norm": 0.8586753010749817,
      "learning_rate": 0.0002931850985589301,
      "loss": 4.0974,
      "step": 48040
    },
    {
      "epoch": 0.10010416666666666,
      "grad_norm": 0.8092135190963745,
      "learning_rate": 0.00029318216044639463,
      "loss": 4.0471,
      "step": 48050
    },
    {
      "epoch": 0.100125,
      "grad_norm": 0.7748659253120422,
      "learning_rate": 0.00029317922171536896,
      "loss": 4.0627,
      "step": 48060
    },
    {
      "epoch": 0.10014583333333334,
      "grad_norm": 0.8715799450874329,
      "learning_rate": 0.0002931762823658657,
      "loss": 4.0038,
      "step": 48070
    },
    {
      "epoch": 0.10016666666666667,
      "grad_norm": 0.8398181200027466,
      "learning_rate": 0.0002931733423978975,
      "loss": 3.9143,
      "step": 48080
    },
    {
      "epoch": 0.1001875,
      "grad_norm": 0.8415820002555847,
      "learning_rate": 0.0002931704018114772,
      "loss": 4.1442,
      "step": 48090
    },
    {
      "epoch": 0.10020833333333333,
      "grad_norm": 0.7531724572181702,
      "learning_rate": 0.00029316746060661746,
      "loss": 3.9571,
      "step": 48100
    },
    {
      "epoch": 0.10022916666666666,
      "grad_norm": 0.752133309841156,
      "learning_rate": 0.0002931645187833309,
      "loss": 3.8803,
      "step": 48110
    },
    {
      "epoch": 0.10025,
      "grad_norm": 0.9217782020568848,
      "learning_rate": 0.00029316157634163035,
      "loss": 4.0354,
      "step": 48120
    },
    {
      "epoch": 0.10027083333333334,
      "grad_norm": 0.8473939895629883,
      "learning_rate": 0.0002931586332815284,
      "loss": 3.9859,
      "step": 48130
    },
    {
      "epoch": 0.10029166666666667,
      "grad_norm": 0.8177861571311951,
      "learning_rate": 0.00029315568960303784,
      "loss": 4.085,
      "step": 48140
    },
    {
      "epoch": 0.1003125,
      "grad_norm": 0.8352412581443787,
      "learning_rate": 0.0002931527453061714,
      "loss": 3.9094,
      "step": 48150
    },
    {
      "epoch": 0.10033333333333333,
      "grad_norm": 0.7417232394218445,
      "learning_rate": 0.0002931498003909417,
      "loss": 4.0231,
      "step": 48160
    },
    {
      "epoch": 0.10035416666666666,
      "grad_norm": 0.8653228878974915,
      "learning_rate": 0.0002931468548573616,
      "loss": 3.9814,
      "step": 48170
    },
    {
      "epoch": 0.100375,
      "grad_norm": 0.8144654035568237,
      "learning_rate": 0.0002931439087054436,
      "loss": 4.063,
      "step": 48180
    },
    {
      "epoch": 0.10039583333333334,
      "grad_norm": 0.7889935970306396,
      "learning_rate": 0.00029314096193520077,
      "loss": 3.8462,
      "step": 48190
    },
    {
      "epoch": 0.10041666666666667,
      "grad_norm": 0.8404820561408997,
      "learning_rate": 0.00029313801454664554,
      "loss": 4.0805,
      "step": 48200
    },
    {
      "epoch": 0.1004375,
      "grad_norm": 0.7923071384429932,
      "learning_rate": 0.00029313506653979074,
      "loss": 3.9353,
      "step": 48210
    },
    {
      "epoch": 0.10045833333333333,
      "grad_norm": 0.8893242478370667,
      "learning_rate": 0.0002931321179146491,
      "loss": 4.1147,
      "step": 48220
    },
    {
      "epoch": 0.10047916666666666,
      "grad_norm": 0.886955976486206,
      "learning_rate": 0.00029312916867123344,
      "loss": 4.1148,
      "step": 48230
    },
    {
      "epoch": 0.1005,
      "grad_norm": 0.7061347365379333,
      "learning_rate": 0.00029312621880955636,
      "loss": 3.8669,
      "step": 48240
    },
    {
      "epoch": 0.10052083333333334,
      "grad_norm": 0.8133607506752014,
      "learning_rate": 0.0002931232683296307,
      "loss": 4.0559,
      "step": 48250
    },
    {
      "epoch": 0.10054166666666667,
      "grad_norm": 0.7835643887519836,
      "learning_rate": 0.00029312031723146913,
      "loss": 3.9161,
      "step": 48260
    },
    {
      "epoch": 0.1005625,
      "grad_norm": 0.8083547353744507,
      "learning_rate": 0.00029311736551508453,
      "loss": 4.1201,
      "step": 48270
    },
    {
      "epoch": 0.10058333333333333,
      "grad_norm": 0.8246859908103943,
      "learning_rate": 0.00029311441318048947,
      "loss": 3.9337,
      "step": 48280
    },
    {
      "epoch": 0.10060416666666666,
      "grad_norm": 0.801796019077301,
      "learning_rate": 0.0002931114602276968,
      "loss": 4.0163,
      "step": 48290
    },
    {
      "epoch": 0.100625,
      "grad_norm": 0.7840844392776489,
      "learning_rate": 0.0002931085066567193,
      "loss": 4.0318,
      "step": 48300
    },
    {
      "epoch": 0.10064583333333334,
      "grad_norm": 0.7900235056877136,
      "learning_rate": 0.00029310555246756973,
      "loss": 4.0952,
      "step": 48310
    },
    {
      "epoch": 0.10066666666666667,
      "grad_norm": 0.8517465591430664,
      "learning_rate": 0.00029310259766026075,
      "loss": 4.0203,
      "step": 48320
    },
    {
      "epoch": 0.1006875,
      "grad_norm": 0.7868654131889343,
      "learning_rate": 0.0002930996422348052,
      "loss": 3.9934,
      "step": 48330
    },
    {
      "epoch": 0.10070833333333333,
      "grad_norm": 0.8206043839454651,
      "learning_rate": 0.0002930966861912159,
      "loss": 4.0506,
      "step": 48340
    },
    {
      "epoch": 0.10072916666666666,
      "grad_norm": 1.0599678754806519,
      "learning_rate": 0.0002930937295295055,
      "loss": 3.7486,
      "step": 48350
    },
    {
      "epoch": 0.10075,
      "grad_norm": 0.714768648147583,
      "learning_rate": 0.00029309077224968686,
      "loss": 4.0196,
      "step": 48360
    },
    {
      "epoch": 0.10077083333333334,
      "grad_norm": 0.7742012739181519,
      "learning_rate": 0.00029308781435177274,
      "loss": 4.3208,
      "step": 48370
    },
    {
      "epoch": 0.10079166666666667,
      "grad_norm": 0.7835144400596619,
      "learning_rate": 0.0002930848558357758,
      "loss": 3.9986,
      "step": 48380
    },
    {
      "epoch": 0.1008125,
      "grad_norm": 0.8875382542610168,
      "learning_rate": 0.00029308189670170903,
      "loss": 3.8927,
      "step": 48390
    },
    {
      "epoch": 0.10083333333333333,
      "grad_norm": 0.8478334546089172,
      "learning_rate": 0.00029307893694958503,
      "loss": 3.9623,
      "step": 48400
    },
    {
      "epoch": 0.10085416666666666,
      "grad_norm": 0.7733252644538879,
      "learning_rate": 0.0002930759765794167,
      "loss": 3.9346,
      "step": 48410
    },
    {
      "epoch": 0.100875,
      "grad_norm": 0.7413328886032104,
      "learning_rate": 0.0002930730155912168,
      "loss": 3.9085,
      "step": 48420
    },
    {
      "epoch": 0.10089583333333334,
      "grad_norm": 0.9449418783187866,
      "learning_rate": 0.0002930700539849981,
      "loss": 4.0404,
      "step": 48430
    },
    {
      "epoch": 0.10091666666666667,
      "grad_norm": 0.7948735952377319,
      "learning_rate": 0.00029306709176077334,
      "loss": 3.927,
      "step": 48440
    },
    {
      "epoch": 0.1009375,
      "grad_norm": 0.7707638740539551,
      "learning_rate": 0.0002930641289185554,
      "loss": 3.8619,
      "step": 48450
    },
    {
      "epoch": 0.10095833333333333,
      "grad_norm": 0.8079097867012024,
      "learning_rate": 0.0002930611654583571,
      "loss": 4.0775,
      "step": 48460
    },
    {
      "epoch": 0.10097916666666666,
      "grad_norm": 0.7329848408699036,
      "learning_rate": 0.0002930582013801911,
      "loss": 4.0869,
      "step": 48470
    },
    {
      "epoch": 0.101,
      "grad_norm": 0.8265479207038879,
      "learning_rate": 0.00029305523668407037,
      "loss": 3.9796,
      "step": 48480
    },
    {
      "epoch": 0.10102083333333334,
      "grad_norm": 0.8349348306655884,
      "learning_rate": 0.0002930522713700076,
      "loss": 3.9687,
      "step": 48490
    },
    {
      "epoch": 0.10104166666666667,
      "grad_norm": 0.7911477088928223,
      "learning_rate": 0.0002930493054380157,
      "loss": 4.054,
      "step": 48500
    },
    {
      "epoch": 0.1010625,
      "grad_norm": 0.9646768569946289,
      "learning_rate": 0.0002930463388881074,
      "loss": 3.9227,
      "step": 48510
    },
    {
      "epoch": 0.10108333333333333,
      "grad_norm": 0.6918789744377136,
      "learning_rate": 0.0002930433717202955,
      "loss": 3.9203,
      "step": 48520
    },
    {
      "epoch": 0.10110416666666666,
      "grad_norm": 0.8314200639724731,
      "learning_rate": 0.0002930404039345929,
      "loss": 4.0931,
      "step": 48530
    },
    {
      "epoch": 0.101125,
      "grad_norm": 0.8475630879402161,
      "learning_rate": 0.00029303743553101236,
      "loss": 4.1129,
      "step": 48540
    },
    {
      "epoch": 0.10114583333333334,
      "grad_norm": 0.8553993105888367,
      "learning_rate": 0.00029303446650956667,
      "loss": 4.0284,
      "step": 48550
    },
    {
      "epoch": 0.10116666666666667,
      "grad_norm": 0.6581719517707825,
      "learning_rate": 0.0002930314968702688,
      "loss": 3.8942,
      "step": 48560
    },
    {
      "epoch": 0.1011875,
      "grad_norm": 0.6285997033119202,
      "learning_rate": 0.0002930285266131314,
      "loss": 4.0276,
      "step": 48570
    },
    {
      "epoch": 0.10120833333333333,
      "grad_norm": 0.7463507652282715,
      "learning_rate": 0.0002930255557381674,
      "loss": 3.9576,
      "step": 48580
    },
    {
      "epoch": 0.10122916666666666,
      "grad_norm": 0.8259686231613159,
      "learning_rate": 0.00029302258424538963,
      "loss": 4.0482,
      "step": 48590
    },
    {
      "epoch": 0.10125,
      "grad_norm": 0.8114915490150452,
      "learning_rate": 0.0002930196121348109,
      "loss": 4.0009,
      "step": 48600
    },
    {
      "epoch": 0.10127083333333334,
      "grad_norm": 0.8224873542785645,
      "learning_rate": 0.000293016639406444,
      "loss": 3.9391,
      "step": 48610
    },
    {
      "epoch": 0.10129166666666667,
      "grad_norm": 0.78005051612854,
      "learning_rate": 0.00029301366606030186,
      "loss": 3.8487,
      "step": 48620
    },
    {
      "epoch": 0.1013125,
      "grad_norm": 0.8872798085212708,
      "learning_rate": 0.00029301069209639735,
      "loss": 4.0259,
      "step": 48630
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 0.7924345135688782,
      "learning_rate": 0.0002930077175147432,
      "loss": 3.8465,
      "step": 48640
    },
    {
      "epoch": 0.10135416666666666,
      "grad_norm": 0.7517092823982239,
      "learning_rate": 0.00029300474231535234,
      "loss": 4.0916,
      "step": 48650
    },
    {
      "epoch": 0.101375,
      "grad_norm": 0.7913499474525452,
      "learning_rate": 0.0002930017664982376,
      "loss": 4.0741,
      "step": 48660
    },
    {
      "epoch": 0.10139583333333334,
      "grad_norm": 0.7412816286087036,
      "learning_rate": 0.0002929987900634118,
      "loss": 3.8859,
      "step": 48670
    },
    {
      "epoch": 0.10141666666666667,
      "grad_norm": 0.7289633750915527,
      "learning_rate": 0.0002929958130108879,
      "loss": 4.1113,
      "step": 48680
    },
    {
      "epoch": 0.1014375,
      "grad_norm": 0.7767918109893799,
      "learning_rate": 0.00029299283534067863,
      "loss": 4.0098,
      "step": 48690
    },
    {
      "epoch": 0.10145833333333333,
      "grad_norm": 0.7512784004211426,
      "learning_rate": 0.00029298985705279696,
      "loss": 3.9756,
      "step": 48700
    },
    {
      "epoch": 0.10147916666666666,
      "grad_norm": 0.7407847046852112,
      "learning_rate": 0.0002929868781472556,
      "loss": 4.0508,
      "step": 48710
    },
    {
      "epoch": 0.1015,
      "grad_norm": 0.7690333724021912,
      "learning_rate": 0.00029298389862406765,
      "loss": 3.9943,
      "step": 48720
    },
    {
      "epoch": 0.10152083333333334,
      "grad_norm": 0.7743546366691589,
      "learning_rate": 0.00029298091848324576,
      "loss": 4.0104,
      "step": 48730
    },
    {
      "epoch": 0.10154166666666667,
      "grad_norm": 0.8832343816757202,
      "learning_rate": 0.00029297793772480296,
      "loss": 3.9181,
      "step": 48740
    },
    {
      "epoch": 0.1015625,
      "grad_norm": 0.8318539261817932,
      "learning_rate": 0.000292974956348752,
      "loss": 3.9926,
      "step": 48750
    },
    {
      "epoch": 0.10158333333333333,
      "grad_norm": 0.8682903051376343,
      "learning_rate": 0.0002929719743551059,
      "loss": 3.9908,
      "step": 48760
    },
    {
      "epoch": 0.10160416666666666,
      "grad_norm": 0.8463100790977478,
      "learning_rate": 0.0002929689917438774,
      "loss": 4.0358,
      "step": 48770
    },
    {
      "epoch": 0.101625,
      "grad_norm": 0.9606810808181763,
      "learning_rate": 0.0002929660085150795,
      "loss": 3.8609,
      "step": 48780
    },
    {
      "epoch": 0.10164583333333334,
      "grad_norm": 0.8414937853813171,
      "learning_rate": 0.00029296302466872505,
      "loss": 4.0187,
      "step": 48790
    },
    {
      "epoch": 0.10166666666666667,
      "grad_norm": 0.753025233745575,
      "learning_rate": 0.00029296004020482687,
      "loss": 3.9163,
      "step": 48800
    },
    {
      "epoch": 0.1016875,
      "grad_norm": 0.7454790472984314,
      "learning_rate": 0.0002929570551233979,
      "loss": 4.1404,
      "step": 48810
    },
    {
      "epoch": 0.10170833333333333,
      "grad_norm": 0.8382830619812012,
      "learning_rate": 0.00029295406942445105,
      "loss": 4.0039,
      "step": 48820
    },
    {
      "epoch": 0.10172916666666666,
      "grad_norm": 0.8115407824516296,
      "learning_rate": 0.0002929510831079992,
      "loss": 4.0264,
      "step": 48830
    },
    {
      "epoch": 0.10175,
      "grad_norm": 0.8527920246124268,
      "learning_rate": 0.0002929480961740553,
      "loss": 4.0552,
      "step": 48840
    },
    {
      "epoch": 0.10177083333333334,
      "grad_norm": 0.6670491099357605,
      "learning_rate": 0.0002929451086226321,
      "loss": 3.9676,
      "step": 48850
    },
    {
      "epoch": 0.10179166666666667,
      "grad_norm": 0.9203506112098694,
      "learning_rate": 0.00029294212045374277,
      "loss": 3.9041,
      "step": 48860
    },
    {
      "epoch": 0.1018125,
      "grad_norm": 1.0079104900360107,
      "learning_rate": 0.00029293913166739995,
      "loss": 4.2032,
      "step": 48870
    },
    {
      "epoch": 0.10183333333333333,
      "grad_norm": 0.7375483512878418,
      "learning_rate": 0.0002929361422636167,
      "loss": 4.0414,
      "step": 48880
    },
    {
      "epoch": 0.10185416666666666,
      "grad_norm": 0.7357567548751831,
      "learning_rate": 0.00029293315224240585,
      "loss": 3.8608,
      "step": 48890
    },
    {
      "epoch": 0.101875,
      "grad_norm": 0.872169554233551,
      "learning_rate": 0.0002929301616037804,
      "loss": 3.8202,
      "step": 48900
    },
    {
      "epoch": 0.10189583333333334,
      "grad_norm": 0.7828966379165649,
      "learning_rate": 0.00029292717034775317,
      "loss": 4.0236,
      "step": 48910
    },
    {
      "epoch": 0.10191666666666667,
      "grad_norm": 0.744910478591919,
      "learning_rate": 0.0002929241784743372,
      "loss": 3.7734,
      "step": 48920
    },
    {
      "epoch": 0.1019375,
      "grad_norm": 0.8325081467628479,
      "learning_rate": 0.0002929211859835453,
      "loss": 4.1502,
      "step": 48930
    },
    {
      "epoch": 0.10195833333333333,
      "grad_norm": 0.7611968517303467,
      "learning_rate": 0.0002929181928753905,
      "loss": 4.1402,
      "step": 48940
    },
    {
      "epoch": 0.10197916666666666,
      "grad_norm": 0.7041853666305542,
      "learning_rate": 0.0002929151991498857,
      "loss": 3.8247,
      "step": 48950
    },
    {
      "epoch": 0.102,
      "grad_norm": 1.2178140878677368,
      "learning_rate": 0.00029291220480704376,
      "loss": 3.9907,
      "step": 48960
    },
    {
      "epoch": 0.10202083333333334,
      "grad_norm": 0.8013404607772827,
      "learning_rate": 0.00029290920984687766,
      "loss": 4.0456,
      "step": 48970
    },
    {
      "epoch": 0.10204166666666667,
      "grad_norm": 0.911751925945282,
      "learning_rate": 0.00029290621426940035,
      "loss": 3.9297,
      "step": 48980
    },
    {
      "epoch": 0.1020625,
      "grad_norm": 0.7358882427215576,
      "learning_rate": 0.0002929032180746248,
      "loss": 4.0997,
      "step": 48990
    },
    {
      "epoch": 0.10208333333333333,
      "grad_norm": 0.7615472078323364,
      "learning_rate": 0.00029290022126256384,
      "loss": 3.9868,
      "step": 49000
    },
    {
      "epoch": 0.10208333333333333,
      "eval_loss": 4.279221534729004,
      "eval_runtime": 11.132,
      "eval_samples_per_second": 0.898,
      "eval_steps_per_second": 0.269,
      "step": 49000
    },
    {
      "epoch": 0.10210416666666666,
      "grad_norm": 0.9754301309585571,
      "learning_rate": 0.0002928972238332305,
      "loss": 3.9163,
      "step": 49010
    },
    {
      "epoch": 0.102125,
      "grad_norm": 0.7644997835159302,
      "learning_rate": 0.0002928942257866378,
      "loss": 3.9264,
      "step": 49020
    },
    {
      "epoch": 0.10214583333333334,
      "grad_norm": 0.9104974865913391,
      "learning_rate": 0.0002928912271227985,
      "loss": 3.9533,
      "step": 49030
    },
    {
      "epoch": 0.10216666666666667,
      "grad_norm": 0.7123526334762573,
      "learning_rate": 0.0002928882278417257,
      "loss": 4.0344,
      "step": 49040
    },
    {
      "epoch": 0.1021875,
      "grad_norm": 0.7307769060134888,
      "learning_rate": 0.0002928852279434323,
      "loss": 4.0587,
      "step": 49050
    },
    {
      "epoch": 0.10220833333333333,
      "grad_norm": 0.7550917863845825,
      "learning_rate": 0.0002928822274279313,
      "loss": 3.9351,
      "step": 49060
    },
    {
      "epoch": 0.10222916666666666,
      "grad_norm": 0.7527019381523132,
      "learning_rate": 0.00029287922629523566,
      "loss": 4.1098,
      "step": 49070
    },
    {
      "epoch": 0.10225,
      "grad_norm": 0.8842973709106445,
      "learning_rate": 0.0002928762245453583,
      "loss": 3.9981,
      "step": 49080
    },
    {
      "epoch": 0.10227083333333334,
      "grad_norm": 0.8290863037109375,
      "learning_rate": 0.0002928732221783122,
      "loss": 4.0481,
      "step": 49090
    },
    {
      "epoch": 0.10229166666666667,
      "grad_norm": 0.7998533248901367,
      "learning_rate": 0.00029287021919411027,
      "loss": 4.0834,
      "step": 49100
    },
    {
      "epoch": 0.1023125,
      "grad_norm": 0.762007474899292,
      "learning_rate": 0.00029286721559276563,
      "loss": 3.982,
      "step": 49110
    },
    {
      "epoch": 0.10233333333333333,
      "grad_norm": 0.8979332447052002,
      "learning_rate": 0.0002928642113742911,
      "loss": 4.0194,
      "step": 49120
    },
    {
      "epoch": 0.10235416666666666,
      "grad_norm": 0.9974207878112793,
      "learning_rate": 0.0002928612065386998,
      "loss": 4.1009,
      "step": 49130
    },
    {
      "epoch": 0.102375,
      "grad_norm": 0.9366331100463867,
      "learning_rate": 0.00029285820108600457,
      "loss": 4.029,
      "step": 49140
    },
    {
      "epoch": 0.10239583333333334,
      "grad_norm": 0.8985358476638794,
      "learning_rate": 0.0002928551950162185,
      "loss": 3.9376,
      "step": 49150
    },
    {
      "epoch": 0.10241666666666667,
      "grad_norm": 0.746322512626648,
      "learning_rate": 0.0002928521883293546,
      "loss": 4.0996,
      "step": 49160
    },
    {
      "epoch": 0.1024375,
      "grad_norm": 0.9474925398826599,
      "learning_rate": 0.0002928491810254257,
      "loss": 3.8871,
      "step": 49170
    },
    {
      "epoch": 0.10245833333333333,
      "grad_norm": 0.7851362824440002,
      "learning_rate": 0.0002928461731044448,
      "loss": 4.1091,
      "step": 49180
    },
    {
      "epoch": 0.10247916666666666,
      "grad_norm": 0.783072292804718,
      "learning_rate": 0.00029284316456642515,
      "loss": 3.7817,
      "step": 49190
    },
    {
      "epoch": 0.1025,
      "grad_norm": 0.9836112260818481,
      "learning_rate": 0.00029284015541137945,
      "loss": 3.905,
      "step": 49200
    },
    {
      "epoch": 0.10252083333333334,
      "grad_norm": 0.8573542237281799,
      "learning_rate": 0.00029283714563932086,
      "loss": 3.9814,
      "step": 49210
    },
    {
      "epoch": 0.10254166666666667,
      "grad_norm": 0.7882057428359985,
      "learning_rate": 0.0002928341352502624,
      "loss": 4.1734,
      "step": 49220
    },
    {
      "epoch": 0.1025625,
      "grad_norm": 0.9768480658531189,
      "learning_rate": 0.0002928311242442169,
      "loss": 3.9894,
      "step": 49230
    },
    {
      "epoch": 0.10258333333333333,
      "grad_norm": 0.9667037129402161,
      "learning_rate": 0.00029282811262119755,
      "loss": 4.0288,
      "step": 49240
    },
    {
      "epoch": 0.10260416666666666,
      "grad_norm": 0.8566751480102539,
      "learning_rate": 0.00029282510038121726,
      "loss": 3.8351,
      "step": 49250
    },
    {
      "epoch": 0.102625,
      "grad_norm": 0.7664220333099365,
      "learning_rate": 0.00029282208752428907,
      "loss": 3.6883,
      "step": 49260
    },
    {
      "epoch": 0.10264583333333334,
      "grad_norm": 0.9574827551841736,
      "learning_rate": 0.000292819074050426,
      "loss": 3.7981,
      "step": 49270
    },
    {
      "epoch": 0.10266666666666667,
      "grad_norm": 0.7889763712882996,
      "learning_rate": 0.00029281605995964114,
      "loss": 4.1148,
      "step": 49280
    },
    {
      "epoch": 0.1026875,
      "grad_norm": 0.829759955406189,
      "learning_rate": 0.0002928130452519473,
      "loss": 3.9801,
      "step": 49290
    },
    {
      "epoch": 0.10270833333333333,
      "grad_norm": 0.8234230279922485,
      "learning_rate": 0.00029281002992735775,
      "loss": 4.0917,
      "step": 49300
    },
    {
      "epoch": 0.10272916666666666,
      "grad_norm": 0.7281298637390137,
      "learning_rate": 0.00029280701398588533,
      "loss": 3.9818,
      "step": 49310
    },
    {
      "epoch": 0.10275,
      "grad_norm": 0.7572320699691772,
      "learning_rate": 0.00029280399742754313,
      "loss": 4.1521,
      "step": 49320
    },
    {
      "epoch": 0.10277083333333334,
      "grad_norm": 0.8192873597145081,
      "learning_rate": 0.0002928009802523442,
      "loss": 4.0046,
      "step": 49330
    },
    {
      "epoch": 0.10279166666666667,
      "grad_norm": 0.8160560727119446,
      "learning_rate": 0.0002927979624603016,
      "loss": 4.0175,
      "step": 49340
    },
    {
      "epoch": 0.1028125,
      "grad_norm": 0.7159867286682129,
      "learning_rate": 0.00029279494405142826,
      "loss": 4.0199,
      "step": 49350
    },
    {
      "epoch": 0.10283333333333333,
      "grad_norm": 0.766180157661438,
      "learning_rate": 0.0002927919250257373,
      "loss": 3.9971,
      "step": 49360
    },
    {
      "epoch": 0.10285416666666666,
      "grad_norm": 0.9074235558509827,
      "learning_rate": 0.0002927889053832418,
      "loss": 4.0298,
      "step": 49370
    },
    {
      "epoch": 0.102875,
      "grad_norm": 0.7642560005187988,
      "learning_rate": 0.0002927858851239547,
      "loss": 3.898,
      "step": 49380
    },
    {
      "epoch": 0.10289583333333334,
      "grad_norm": 0.829748809337616,
      "learning_rate": 0.0002927828642478891,
      "loss": 3.9329,
      "step": 49390
    },
    {
      "epoch": 0.10291666666666667,
      "grad_norm": 0.7976492643356323,
      "learning_rate": 0.000292779842755058,
      "loss": 3.9423,
      "step": 49400
    },
    {
      "epoch": 0.1029375,
      "grad_norm": 0.7786514163017273,
      "learning_rate": 0.0002927768206454746,
      "loss": 3.9403,
      "step": 49410
    },
    {
      "epoch": 0.10295833333333333,
      "grad_norm": 0.7262424230575562,
      "learning_rate": 0.0002927737979191518,
      "loss": 4.1115,
      "step": 49420
    },
    {
      "epoch": 0.10297916666666666,
      "grad_norm": 0.7670385837554932,
      "learning_rate": 0.00029277077457610267,
      "loss": 4.1396,
      "step": 49430
    },
    {
      "epoch": 0.103,
      "grad_norm": 0.82208251953125,
      "learning_rate": 0.0002927677506163404,
      "loss": 4.142,
      "step": 49440
    },
    {
      "epoch": 0.10302083333333334,
      "grad_norm": 0.7978679537773132,
      "learning_rate": 0.00029276472603987784,
      "loss": 4.1244,
      "step": 49450
    },
    {
      "epoch": 0.10304166666666667,
      "grad_norm": 0.7851456999778748,
      "learning_rate": 0.00029276170084672825,
      "loss": 3.9971,
      "step": 49460
    },
    {
      "epoch": 0.1030625,
      "grad_norm": 0.7363708019256592,
      "learning_rate": 0.0002927586750369046,
      "loss": 3.9513,
      "step": 49470
    },
    {
      "epoch": 0.10308333333333333,
      "grad_norm": 0.7379972338676453,
      "learning_rate": 0.00029275564861042,
      "loss": 4.002,
      "step": 49480
    },
    {
      "epoch": 0.10310416666666666,
      "grad_norm": 0.816502571105957,
      "learning_rate": 0.0002927526215672874,
      "loss": 3.9003,
      "step": 49490
    },
    {
      "epoch": 0.103125,
      "grad_norm": 0.6890751123428345,
      "learning_rate": 0.00029274959390752014,
      "loss": 4.088,
      "step": 49500
    },
    {
      "epoch": 0.10314583333333334,
      "grad_norm": 0.9515795111656189,
      "learning_rate": 0.000292746565631131,
      "loss": 4.0423,
      "step": 49510
    },
    {
      "epoch": 0.10316666666666667,
      "grad_norm": 0.8364551663398743,
      "learning_rate": 0.0002927435367381333,
      "loss": 4.1687,
      "step": 49520
    },
    {
      "epoch": 0.1031875,
      "grad_norm": 0.8386387228965759,
      "learning_rate": 0.00029274050722854003,
      "loss": 3.9976,
      "step": 49530
    },
    {
      "epoch": 0.10320833333333333,
      "grad_norm": 0.7329249382019043,
      "learning_rate": 0.0002927374771023642,
      "loss": 4.0518,
      "step": 49540
    },
    {
      "epoch": 0.10322916666666666,
      "grad_norm": 0.7842952609062195,
      "learning_rate": 0.000292734446359619,
      "loss": 4.1366,
      "step": 49550
    },
    {
      "epoch": 0.10325,
      "grad_norm": 1.1091388463974,
      "learning_rate": 0.00029273141500031744,
      "loss": 3.8086,
      "step": 49560
    },
    {
      "epoch": 0.10327083333333334,
      "grad_norm": 0.853715181350708,
      "learning_rate": 0.00029272838302447273,
      "loss": 4.2191,
      "step": 49570
    },
    {
      "epoch": 0.10329166666666667,
      "grad_norm": 0.7744817733764648,
      "learning_rate": 0.00029272535043209786,
      "loss": 3.8953,
      "step": 49580
    },
    {
      "epoch": 0.1033125,
      "grad_norm": 0.9503114223480225,
      "learning_rate": 0.000292722317223206,
      "loss": 4.0883,
      "step": 49590
    },
    {
      "epoch": 0.10333333333333333,
      "grad_norm": 0.9309439063072205,
      "learning_rate": 0.00029271928339781025,
      "loss": 3.9083,
      "step": 49600
    },
    {
      "epoch": 0.10335416666666666,
      "grad_norm": 0.7342001795768738,
      "learning_rate": 0.00029271624895592363,
      "loss": 4.1028,
      "step": 49610
    },
    {
      "epoch": 0.103375,
      "grad_norm": 0.7266141176223755,
      "learning_rate": 0.00029271321389755933,
      "loss": 3.969,
      "step": 49620
    },
    {
      "epoch": 0.10339583333333334,
      "grad_norm": 0.9200646281242371,
      "learning_rate": 0.0002927101782227304,
      "loss": 4.0235,
      "step": 49630
    },
    {
      "epoch": 0.10341666666666667,
      "grad_norm": 0.6631282567977905,
      "learning_rate": 0.00029270714193145006,
      "loss": 4.1643,
      "step": 49640
    },
    {
      "epoch": 0.1034375,
      "grad_norm": 0.7198712229728699,
      "learning_rate": 0.0002927041050237313,
      "loss": 4.0177,
      "step": 49650
    },
    {
      "epoch": 0.10345833333333333,
      "grad_norm": 0.9006595611572266,
      "learning_rate": 0.00029270106749958733,
      "loss": 4.0086,
      "step": 49660
    },
    {
      "epoch": 0.10347916666666666,
      "grad_norm": 0.8360154032707214,
      "learning_rate": 0.0002926980293590312,
      "loss": 3.8695,
      "step": 49670
    },
    {
      "epoch": 0.1035,
      "grad_norm": 0.9182197451591492,
      "learning_rate": 0.0002926949906020761,
      "loss": 3.9632,
      "step": 49680
    },
    {
      "epoch": 0.10352083333333334,
      "grad_norm": 0.9201945662498474,
      "learning_rate": 0.0002926919512287351,
      "loss": 3.9462,
      "step": 49690
    },
    {
      "epoch": 0.10354166666666667,
      "grad_norm": 0.7564398646354675,
      "learning_rate": 0.00029268891123902135,
      "loss": 4.0421,
      "step": 49700
    },
    {
      "epoch": 0.1035625,
      "grad_norm": 0.744978129863739,
      "learning_rate": 0.000292685870632948,
      "loss": 3.9736,
      "step": 49710
    },
    {
      "epoch": 0.10358333333333333,
      "grad_norm": 0.8487722873687744,
      "learning_rate": 0.0002926828294105281,
      "loss": 3.9147,
      "step": 49720
    },
    {
      "epoch": 0.10360416666666666,
      "grad_norm": 0.7436109185218811,
      "learning_rate": 0.00029267978757177495,
      "loss": 4.0179,
      "step": 49730
    },
    {
      "epoch": 0.103625,
      "grad_norm": 0.8878900408744812,
      "learning_rate": 0.00029267674511670154,
      "loss": 4.1525,
      "step": 49740
    },
    {
      "epoch": 0.10364583333333334,
      "grad_norm": 0.7143101692199707,
      "learning_rate": 0.0002926737020453211,
      "loss": 4.0508,
      "step": 49750
    },
    {
      "epoch": 0.10366666666666667,
      "grad_norm": 0.7519477605819702,
      "learning_rate": 0.0002926706583576467,
      "loss": 4.0238,
      "step": 49760
    },
    {
      "epoch": 0.1036875,
      "grad_norm": 0.7808490991592407,
      "learning_rate": 0.0002926676140536916,
      "loss": 4.1462,
      "step": 49770
    },
    {
      "epoch": 0.10370833333333333,
      "grad_norm": 0.8784478902816772,
      "learning_rate": 0.0002926645691334688,
      "loss": 4.0128,
      "step": 49780
    },
    {
      "epoch": 0.10372916666666666,
      "grad_norm": 1.1122761964797974,
      "learning_rate": 0.00029266152359699155,
      "loss": 3.9807,
      "step": 49790
    },
    {
      "epoch": 0.10375,
      "grad_norm": 0.7357746958732605,
      "learning_rate": 0.00029265847744427303,
      "loss": 3.9639,
      "step": 49800
    },
    {
      "epoch": 0.10377083333333334,
      "grad_norm": 0.7455911636352539,
      "learning_rate": 0.0002926554306753263,
      "loss": 3.8197,
      "step": 49810
    },
    {
      "epoch": 0.10379166666666667,
      "grad_norm": 1.1235969066619873,
      "learning_rate": 0.0002926523832901646,
      "loss": 3.9328,
      "step": 49820
    },
    {
      "epoch": 0.1038125,
      "grad_norm": 0.7532281279563904,
      "learning_rate": 0.0002926493352888011,
      "loss": 4.0109,
      "step": 49830
    },
    {
      "epoch": 0.10383333333333333,
      "grad_norm": 0.7917546629905701,
      "learning_rate": 0.0002926462866712489,
      "loss": 4.0569,
      "step": 49840
    },
    {
      "epoch": 0.10385416666666666,
      "grad_norm": 0.864628791809082,
      "learning_rate": 0.0002926432374375212,
      "loss": 3.9632,
      "step": 49850
    },
    {
      "epoch": 0.103875,
      "grad_norm": 0.8916741013526917,
      "learning_rate": 0.00029264018758763124,
      "loss": 4.0212,
      "step": 49860
    },
    {
      "epoch": 0.10389583333333334,
      "grad_norm": 0.7745014429092407,
      "learning_rate": 0.00029263713712159207,
      "loss": 3.7903,
      "step": 49870
    },
    {
      "epoch": 0.10391666666666667,
      "grad_norm": 0.7800654768943787,
      "learning_rate": 0.0002926340860394169,
      "loss": 3.9733,
      "step": 49880
    },
    {
      "epoch": 0.1039375,
      "grad_norm": 0.82977694272995,
      "learning_rate": 0.000292631034341119,
      "loss": 3.9504,
      "step": 49890
    },
    {
      "epoch": 0.10395833333333333,
      "grad_norm": 0.8692675828933716,
      "learning_rate": 0.00029262798202671147,
      "loss": 3.7943,
      "step": 49900
    },
    {
      "epoch": 0.10397916666666666,
      "grad_norm": 0.9102606177330017,
      "learning_rate": 0.0002926249290962075,
      "loss": 4.0497,
      "step": 49910
    },
    {
      "epoch": 0.104,
      "grad_norm": 0.7787212133407593,
      "learning_rate": 0.0002926218755496203,
      "loss": 3.9585,
      "step": 49920
    },
    {
      "epoch": 0.10402083333333334,
      "grad_norm": 0.7164571285247803,
      "learning_rate": 0.000292618821386963,
      "loss": 3.9474,
      "step": 49930
    },
    {
      "epoch": 0.10404166666666667,
      "grad_norm": 0.8608791828155518,
      "learning_rate": 0.0002926157666082489,
      "loss": 3.8387,
      "step": 49940
    },
    {
      "epoch": 0.1040625,
      "grad_norm": 0.8274163007736206,
      "learning_rate": 0.0002926127112134912,
      "loss": 4.2699,
      "step": 49950
    },
    {
      "epoch": 0.10408333333333333,
      "grad_norm": 0.7702623605728149,
      "learning_rate": 0.0002926096552027029,
      "loss": 3.9437,
      "step": 49960
    },
    {
      "epoch": 0.10410416666666666,
      "grad_norm": 0.9424062371253967,
      "learning_rate": 0.0002926065985758974,
      "loss": 4.0845,
      "step": 49970
    },
    {
      "epoch": 0.104125,
      "grad_norm": 0.7174128890037537,
      "learning_rate": 0.0002926035413330879,
      "loss": 3.8873,
      "step": 49980
    },
    {
      "epoch": 0.10414583333333334,
      "grad_norm": 0.84706050157547,
      "learning_rate": 0.00029260048347428747,
      "loss": 4.1487,
      "step": 49990
    },
    {
      "epoch": 0.10416666666666667,
      "grad_norm": 0.8415717482566833,
      "learning_rate": 0.0002925974249995094,
      "loss": 4.1809,
      "step": 50000
    },
    {
      "epoch": 0.10416666666666667,
      "eval_loss": 4.297389984130859,
      "eval_runtime": 10.293,
      "eval_samples_per_second": 0.972,
      "eval_steps_per_second": 0.291,
      "step": 50000
    },
    {
      "epoch": 0.1041875,
      "grad_norm": 0.7332421541213989,
      "learning_rate": 0.00029259436590876696,
      "loss": 4.0715,
      "step": 50010
    },
    {
      "epoch": 0.10420833333333333,
      "grad_norm": 0.7491800785064697,
      "learning_rate": 0.0002925913062020733,
      "loss": 3.9114,
      "step": 50020
    },
    {
      "epoch": 0.10422916666666666,
      "grad_norm": 0.9135246872901917,
      "learning_rate": 0.0002925882458794416,
      "loss": 4.0655,
      "step": 50030
    },
    {
      "epoch": 0.10425,
      "grad_norm": 0.6985059380531311,
      "learning_rate": 0.0002925851849408851,
      "loss": 3.8971,
      "step": 50040
    },
    {
      "epoch": 0.10427083333333333,
      "grad_norm": 1.4761148691177368,
      "learning_rate": 0.000292582123386417,
      "loss": 4.0234,
      "step": 50050
    },
    {
      "epoch": 0.10429166666666667,
      "grad_norm": 0.664412260055542,
      "learning_rate": 0.0002925790612160507,
      "loss": 3.9561,
      "step": 50060
    },
    {
      "epoch": 0.1043125,
      "grad_norm": 0.9128052592277527,
      "learning_rate": 0.0002925759984297992,
      "loss": 4.0387,
      "step": 50070
    },
    {
      "epoch": 0.10433333333333333,
      "grad_norm": 0.9343786835670471,
      "learning_rate": 0.00029257293502767584,
      "loss": 3.8637,
      "step": 50080
    },
    {
      "epoch": 0.10435416666666666,
      "grad_norm": 0.7153036594390869,
      "learning_rate": 0.0002925698710096938,
      "loss": 3.7199,
      "step": 50090
    },
    {
      "epoch": 0.104375,
      "grad_norm": 1.027160406112671,
      "learning_rate": 0.00029256680637586643,
      "loss": 4.066,
      "step": 50100
    },
    {
      "epoch": 0.10439583333333333,
      "grad_norm": 0.8474220633506775,
      "learning_rate": 0.0002925637411262068,
      "loss": 4.0601,
      "step": 50110
    },
    {
      "epoch": 0.10441666666666667,
      "grad_norm": 0.7367342710494995,
      "learning_rate": 0.00029256067526072833,
      "loss": 4.1273,
      "step": 50120
    },
    {
      "epoch": 0.1044375,
      "grad_norm": 0.7844774127006531,
      "learning_rate": 0.0002925576087794441,
      "loss": 4.0051,
      "step": 50130
    },
    {
      "epoch": 0.10445833333333333,
      "grad_norm": 0.8256841897964478,
      "learning_rate": 0.00029255454168236746,
      "loss": 4.1477,
      "step": 50140
    },
    {
      "epoch": 0.10447916666666666,
      "grad_norm": 0.7564240097999573,
      "learning_rate": 0.00029255147396951164,
      "loss": 4.0054,
      "step": 50150
    },
    {
      "epoch": 0.1045,
      "grad_norm": 0.8072596192359924,
      "learning_rate": 0.00029254840564088986,
      "loss": 4.0328,
      "step": 50160
    },
    {
      "epoch": 0.10452083333333333,
      "grad_norm": 0.7570194602012634,
      "learning_rate": 0.00029254533669651535,
      "loss": 4.1092,
      "step": 50170
    },
    {
      "epoch": 0.10454166666666667,
      "grad_norm": 0.7939029932022095,
      "learning_rate": 0.00029254226713640145,
      "loss": 4.0607,
      "step": 50180
    },
    {
      "epoch": 0.1045625,
      "grad_norm": 0.8470191955566406,
      "learning_rate": 0.0002925391969605614,
      "loss": 3.9466,
      "step": 50190
    },
    {
      "epoch": 0.10458333333333333,
      "grad_norm": 0.8378742933273315,
      "learning_rate": 0.00029253612616900843,
      "loss": 3.8653,
      "step": 50200
    },
    {
      "epoch": 0.10460416666666666,
      "grad_norm": 0.7377639412879944,
      "learning_rate": 0.0002925330547617558,
      "loss": 3.9531,
      "step": 50210
    },
    {
      "epoch": 0.104625,
      "grad_norm": 0.7611543536186218,
      "learning_rate": 0.0002925299827388168,
      "loss": 3.9893,
      "step": 50220
    },
    {
      "epoch": 0.10464583333333333,
      "grad_norm": 0.8976886868476868,
      "learning_rate": 0.0002925269101002047,
      "loss": 3.8919,
      "step": 50230
    },
    {
      "epoch": 0.10466666666666667,
      "grad_norm": 0.7549887895584106,
      "learning_rate": 0.0002925238368459327,
      "loss": 4.0386,
      "step": 50240
    },
    {
      "epoch": 0.1046875,
      "grad_norm": 0.8677572011947632,
      "learning_rate": 0.00029252076297601423,
      "loss": 3.9659,
      "step": 50250
    },
    {
      "epoch": 0.10470833333333333,
      "grad_norm": 0.762859582901001,
      "learning_rate": 0.0002925176884904624,
      "loss": 4.075,
      "step": 50260
    },
    {
      "epoch": 0.10472916666666666,
      "grad_norm": 0.8148066997528076,
      "learning_rate": 0.00029251461338929065,
      "loss": 3.7264,
      "step": 50270
    },
    {
      "epoch": 0.10475,
      "grad_norm": 0.8349539637565613,
      "learning_rate": 0.0002925115376725121,
      "loss": 3.913,
      "step": 50280
    },
    {
      "epoch": 0.10477083333333333,
      "grad_norm": 0.7816223502159119,
      "learning_rate": 0.0002925084613401402,
      "loss": 3.8862,
      "step": 50290
    },
    {
      "epoch": 0.10479166666666667,
      "grad_norm": 0.7295699119567871,
      "learning_rate": 0.0002925053843921881,
      "loss": 4.0102,
      "step": 50300
    },
    {
      "epoch": 0.1048125,
      "grad_norm": 0.8120856881141663,
      "learning_rate": 0.0002925023068286692,
      "loss": 3.8875,
      "step": 50310
    },
    {
      "epoch": 0.10483333333333333,
      "grad_norm": 1.1395620107650757,
      "learning_rate": 0.00029249922864959664,
      "loss": 3.9359,
      "step": 50320
    },
    {
      "epoch": 0.10485416666666666,
      "grad_norm": 0.7384068369865417,
      "learning_rate": 0.0002924961498549839,
      "loss": 4.0018,
      "step": 50330
    },
    {
      "epoch": 0.104875,
      "grad_norm": 0.8635039329528809,
      "learning_rate": 0.0002924930704448442,
      "loss": 4.1305,
      "step": 50340
    },
    {
      "epoch": 0.10489583333333333,
      "grad_norm": 0.7934401035308838,
      "learning_rate": 0.0002924899904191908,
      "loss": 3.9081,
      "step": 50350
    },
    {
      "epoch": 0.10491666666666667,
      "grad_norm": 0.8167548775672913,
      "learning_rate": 0.00029248690977803704,
      "loss": 4.1142,
      "step": 50360
    },
    {
      "epoch": 0.1049375,
      "grad_norm": 0.8746498823165894,
      "learning_rate": 0.00029248382852139625,
      "loss": 4.0032,
      "step": 50370
    },
    {
      "epoch": 0.10495833333333333,
      "grad_norm": 0.7526291012763977,
      "learning_rate": 0.0002924807466492817,
      "loss": 3.9386,
      "step": 50380
    },
    {
      "epoch": 0.10497916666666667,
      "grad_norm": 0.8463457822799683,
      "learning_rate": 0.0002924776641617067,
      "loss": 3.9327,
      "step": 50390
    },
    {
      "epoch": 0.105,
      "grad_norm": 0.7756918668746948,
      "learning_rate": 0.00029247458105868465,
      "loss": 4.0188,
      "step": 50400
    },
    {
      "epoch": 0.10502083333333333,
      "grad_norm": 0.7623472809791565,
      "learning_rate": 0.0002924714973402288,
      "loss": 3.9955,
      "step": 50410
    },
    {
      "epoch": 0.10504166666666667,
      "grad_norm": 0.8627665638923645,
      "learning_rate": 0.0002924684130063524,
      "loss": 3.7877,
      "step": 50420
    },
    {
      "epoch": 0.1050625,
      "grad_norm": 0.7579430341720581,
      "learning_rate": 0.0002924653280570689,
      "loss": 3.8942,
      "step": 50430
    },
    {
      "epoch": 0.10508333333333333,
      "grad_norm": 0.7957767844200134,
      "learning_rate": 0.0002924622424923917,
      "loss": 3.8836,
      "step": 50440
    },
    {
      "epoch": 0.10510416666666667,
      "grad_norm": 0.6570121645927429,
      "learning_rate": 0.0002924591563123338,
      "loss": 4.1169,
      "step": 50450
    },
    {
      "epoch": 0.105125,
      "grad_norm": 0.8972878456115723,
      "learning_rate": 0.0002924560695169088,
      "loss": 3.9676,
      "step": 50460
    },
    {
      "epoch": 0.10514583333333333,
      "grad_norm": 0.6778743863105774,
      "learning_rate": 0.00029245298210613,
      "loss": 4.0302,
      "step": 50470
    },
    {
      "epoch": 0.10516666666666667,
      "grad_norm": 0.7888743281364441,
      "learning_rate": 0.0002924498940800107,
      "loss": 4.1227,
      "step": 50480
    },
    {
      "epoch": 0.1051875,
      "grad_norm": 0.7683044075965881,
      "learning_rate": 0.00029244680543856423,
      "loss": 3.8516,
      "step": 50490
    },
    {
      "epoch": 0.10520833333333333,
      "grad_norm": 0.8148704171180725,
      "learning_rate": 0.00029244371618180394,
      "loss": 3.9154,
      "step": 50500
    },
    {
      "epoch": 0.10522916666666667,
      "grad_norm": 0.9741986393928528,
      "learning_rate": 0.0002924406263097432,
      "loss": 4.0475,
      "step": 50510
    },
    {
      "epoch": 0.10525,
      "grad_norm": 0.7736107707023621,
      "learning_rate": 0.0002924375358223953,
      "loss": 3.9644,
      "step": 50520
    },
    {
      "epoch": 0.10527083333333333,
      "grad_norm": 1.2221715450286865,
      "learning_rate": 0.00029243444471977365,
      "loss": 4.0309,
      "step": 50530
    },
    {
      "epoch": 0.10529166666666667,
      "grad_norm": 0.6649412512779236,
      "learning_rate": 0.00029243135300189156,
      "loss": 4.0933,
      "step": 50540
    },
    {
      "epoch": 0.1053125,
      "grad_norm": 0.7663376927375793,
      "learning_rate": 0.0002924282606687624,
      "loss": 4.0095,
      "step": 50550
    },
    {
      "epoch": 0.10533333333333333,
      "grad_norm": 0.7610189318656921,
      "learning_rate": 0.0002924251677203996,
      "loss": 3.9598,
      "step": 50560
    },
    {
      "epoch": 0.10535416666666667,
      "grad_norm": 0.9958245158195496,
      "learning_rate": 0.0002924220741568164,
      "loss": 4.2527,
      "step": 50570
    },
    {
      "epoch": 0.105375,
      "grad_norm": 0.7776246666908264,
      "learning_rate": 0.0002924189799780262,
      "loss": 3.9269,
      "step": 50580
    },
    {
      "epoch": 0.10539583333333333,
      "grad_norm": 0.8658514022827148,
      "learning_rate": 0.00029241588518404236,
      "loss": 4.0698,
      "step": 50590
    },
    {
      "epoch": 0.10541666666666667,
      "grad_norm": 0.8035275340080261,
      "learning_rate": 0.00029241278977487834,
      "loss": 3.9233,
      "step": 50600
    },
    {
      "epoch": 0.1054375,
      "grad_norm": 0.7829310297966003,
      "learning_rate": 0.0002924096937505474,
      "loss": 4.0918,
      "step": 50610
    },
    {
      "epoch": 0.10545833333333333,
      "grad_norm": 0.7781623601913452,
      "learning_rate": 0.00029240659711106295,
      "loss": 4.006,
      "step": 50620
    },
    {
      "epoch": 0.10547916666666667,
      "grad_norm": 0.9349314570426941,
      "learning_rate": 0.00029240349985643836,
      "loss": 3.9699,
      "step": 50630
    },
    {
      "epoch": 0.1055,
      "grad_norm": 0.8020880818367004,
      "learning_rate": 0.000292400401986687,
      "loss": 3.7798,
      "step": 50640
    },
    {
      "epoch": 0.10552083333333333,
      "grad_norm": 0.8185389041900635,
      "learning_rate": 0.0002923973035018223,
      "loss": 3.7593,
      "step": 50650
    },
    {
      "epoch": 0.10554166666666667,
      "grad_norm": 0.785984218120575,
      "learning_rate": 0.00029239420440185766,
      "loss": 4.0674,
      "step": 50660
    },
    {
      "epoch": 0.1055625,
      "grad_norm": 0.789100706577301,
      "learning_rate": 0.0002923911046868064,
      "loss": 3.9638,
      "step": 50670
    },
    {
      "epoch": 0.10558333333333333,
      "grad_norm": 0.8402634263038635,
      "learning_rate": 0.0002923880043566819,
      "loss": 4.0903,
      "step": 50680
    },
    {
      "epoch": 0.10560416666666667,
      "grad_norm": 1.0088058710098267,
      "learning_rate": 0.00029238490341149755,
      "loss": 3.9821,
      "step": 50690
    },
    {
      "epoch": 0.105625,
      "grad_norm": 0.834857702255249,
      "learning_rate": 0.0002923818018512668,
      "loss": 4.2185,
      "step": 50700
    },
    {
      "epoch": 0.10564583333333333,
      "grad_norm": 0.853425145149231,
      "learning_rate": 0.00029237869967600305,
      "loss": 4.0249,
      "step": 50710
    },
    {
      "epoch": 0.10566666666666667,
      "grad_norm": 0.8179558515548706,
      "learning_rate": 0.00029237559688571966,
      "loss": 4.0019,
      "step": 50720
    },
    {
      "epoch": 0.1056875,
      "grad_norm": 0.7183098196983337,
      "learning_rate": 0.0002923724934804301,
      "loss": 4.0692,
      "step": 50730
    },
    {
      "epoch": 0.10570833333333333,
      "grad_norm": 0.9169472455978394,
      "learning_rate": 0.0002923693894601476,
      "loss": 3.8953,
      "step": 50740
    },
    {
      "epoch": 0.10572916666666667,
      "grad_norm": 0.7225739359855652,
      "learning_rate": 0.0002923662848248858,
      "loss": 3.9849,
      "step": 50750
    },
    {
      "epoch": 0.10575,
      "grad_norm": 0.8414003252983093,
      "learning_rate": 0.000292363179574658,
      "loss": 3.8344,
      "step": 50760
    },
    {
      "epoch": 0.10577083333333333,
      "grad_norm": 0.7592816352844238,
      "learning_rate": 0.0002923600737094775,
      "loss": 3.98,
      "step": 50770
    },
    {
      "epoch": 0.10579166666666667,
      "grad_norm": 0.7695099711418152,
      "learning_rate": 0.000292356967229358,
      "loss": 3.9001,
      "step": 50780
    },
    {
      "epoch": 0.1058125,
      "grad_norm": 0.7274512052536011,
      "learning_rate": 0.0002923538601343126,
      "loss": 3.9954,
      "step": 50790
    },
    {
      "epoch": 0.10583333333333333,
      "grad_norm": 0.901178777217865,
      "learning_rate": 0.00029235075242435495,
      "loss": 4.0556,
      "step": 50800
    },
    {
      "epoch": 0.10585416666666667,
      "grad_norm": 0.7860174179077148,
      "learning_rate": 0.0002923476440994984,
      "loss": 4.0082,
      "step": 50810
    },
    {
      "epoch": 0.105875,
      "grad_norm": 0.7748461961746216,
      "learning_rate": 0.00029234453515975634,
      "loss": 4.0004,
      "step": 50820
    },
    {
      "epoch": 0.10589583333333333,
      "grad_norm": 0.8100540041923523,
      "learning_rate": 0.0002923414256051423,
      "loss": 4.0609,
      "step": 50830
    },
    {
      "epoch": 0.10591666666666667,
      "grad_norm": 0.8516915440559387,
      "learning_rate": 0.00029233831543566956,
      "loss": 3.9553,
      "step": 50840
    },
    {
      "epoch": 0.1059375,
      "grad_norm": 0.7434536814689636,
      "learning_rate": 0.00029233520465135165,
      "loss": 4.0271,
      "step": 50850
    },
    {
      "epoch": 0.10595833333333333,
      "grad_norm": 0.6617941856384277,
      "learning_rate": 0.00029233209325220204,
      "loss": 4.0948,
      "step": 50860
    },
    {
      "epoch": 0.10597916666666667,
      "grad_norm": 0.7185391783714294,
      "learning_rate": 0.00029232898123823407,
      "loss": 4.055,
      "step": 50870
    },
    {
      "epoch": 0.106,
      "grad_norm": 0.839154064655304,
      "learning_rate": 0.0002923258686094613,
      "loss": 4.2611,
      "step": 50880
    },
    {
      "epoch": 0.10602083333333333,
      "grad_norm": 0.7931175827980042,
      "learning_rate": 0.0002923227553658971,
      "loss": 3.9377,
      "step": 50890
    },
    {
      "epoch": 0.10604166666666667,
      "grad_norm": 0.8959558010101318,
      "learning_rate": 0.0002923196415075549,
      "loss": 3.8956,
      "step": 50900
    },
    {
      "epoch": 0.1060625,
      "grad_norm": 0.7956362962722778,
      "learning_rate": 0.0002923165270344482,
      "loss": 3.9591,
      "step": 50910
    },
    {
      "epoch": 0.10608333333333334,
      "grad_norm": 0.7994216680526733,
      "learning_rate": 0.00029231341194659044,
      "loss": 3.7879,
      "step": 50920
    },
    {
      "epoch": 0.10610416666666667,
      "grad_norm": 0.7551946640014648,
      "learning_rate": 0.00029231029624399504,
      "loss": 4.0773,
      "step": 50930
    },
    {
      "epoch": 0.106125,
      "grad_norm": 0.805530309677124,
      "learning_rate": 0.0002923071799266755,
      "loss": 3.9732,
      "step": 50940
    },
    {
      "epoch": 0.10614583333333333,
      "grad_norm": 0.7089834213256836,
      "learning_rate": 0.0002923040629946453,
      "loss": 3.9836,
      "step": 50950
    },
    {
      "epoch": 0.10616666666666667,
      "grad_norm": 0.7376680374145508,
      "learning_rate": 0.0002923009454479179,
      "loss": 3.841,
      "step": 50960
    },
    {
      "epoch": 0.1061875,
      "grad_norm": 0.8623104095458984,
      "learning_rate": 0.0002922978272865067,
      "loss": 4.1089,
      "step": 50970
    },
    {
      "epoch": 0.10620833333333334,
      "grad_norm": 0.965140700340271,
      "learning_rate": 0.0002922947085104252,
      "loss": 3.9599,
      "step": 50980
    },
    {
      "epoch": 0.10622916666666667,
      "grad_norm": 0.8694900274276733,
      "learning_rate": 0.0002922915891196869,
      "loss": 4.0509,
      "step": 50990
    },
    {
      "epoch": 0.10625,
      "grad_norm": 0.7380486726760864,
      "learning_rate": 0.00029228846911430527,
      "loss": 3.7905,
      "step": 51000
    },
    {
      "epoch": 0.10625,
      "eval_loss": 4.296773910522461,
      "eval_runtime": 11.8694,
      "eval_samples_per_second": 0.843,
      "eval_steps_per_second": 0.253,
      "step": 51000
    },
    {
      "epoch": 0.10627083333333333,
      "grad_norm": 0.8346457481384277,
      "learning_rate": 0.00029228534849429374,
      "loss": 3.862,
      "step": 51010
    },
    {
      "epoch": 0.10629166666666667,
      "grad_norm": 0.8386745452880859,
      "learning_rate": 0.0002922822272596659,
      "loss": 4.107,
      "step": 51020
    },
    {
      "epoch": 0.1063125,
      "grad_norm": 0.8432703614234924,
      "learning_rate": 0.00029227910541043504,
      "loss": 3.7825,
      "step": 51030
    },
    {
      "epoch": 0.10633333333333334,
      "grad_norm": 0.7449776530265808,
      "learning_rate": 0.0002922759829466149,
      "loss": 3.9622,
      "step": 51040
    },
    {
      "epoch": 0.10635416666666667,
      "grad_norm": 0.7446163892745972,
      "learning_rate": 0.0002922728598682187,
      "loss": 4.0294,
      "step": 51050
    },
    {
      "epoch": 0.106375,
      "grad_norm": 0.7579222917556763,
      "learning_rate": 0.0002922697361752602,
      "loss": 3.822,
      "step": 51060
    },
    {
      "epoch": 0.10639583333333333,
      "grad_norm": 0.7363486886024475,
      "learning_rate": 0.00029226661186775266,
      "loss": 4.036,
      "step": 51070
    },
    {
      "epoch": 0.10641666666666667,
      "grad_norm": 0.881227970123291,
      "learning_rate": 0.0002922634869457097,
      "loss": 3.9936,
      "step": 51080
    },
    {
      "epoch": 0.1064375,
      "grad_norm": 0.8812421560287476,
      "learning_rate": 0.0002922603614091447,
      "loss": 4.0119,
      "step": 51090
    },
    {
      "epoch": 0.10645833333333334,
      "grad_norm": 0.8263999223709106,
      "learning_rate": 0.00029225723525807136,
      "loss": 4.0147,
      "step": 51100
    },
    {
      "epoch": 0.10647916666666667,
      "grad_norm": 0.7266913056373596,
      "learning_rate": 0.00029225410849250305,
      "loss": 4.0459,
      "step": 51110
    },
    {
      "epoch": 0.1065,
      "grad_norm": 0.7062184810638428,
      "learning_rate": 0.0002922509811124533,
      "loss": 3.9404,
      "step": 51120
    },
    {
      "epoch": 0.10652083333333333,
      "grad_norm": 0.786698579788208,
      "learning_rate": 0.00029224785311793554,
      "loss": 3.9763,
      "step": 51130
    },
    {
      "epoch": 0.10654166666666667,
      "grad_norm": 0.7686131000518799,
      "learning_rate": 0.0002922447245089635,
      "loss": 4.0751,
      "step": 51140
    },
    {
      "epoch": 0.1065625,
      "grad_norm": 0.7963362336158752,
      "learning_rate": 0.00029224159528555045,
      "loss": 4.1282,
      "step": 51150
    },
    {
      "epoch": 0.10658333333333334,
      "grad_norm": 0.7746624946594238,
      "learning_rate": 0.00029223846544771,
      "loss": 4.0634,
      "step": 51160
    },
    {
      "epoch": 0.10660416666666667,
      "grad_norm": 0.7235612869262695,
      "learning_rate": 0.00029223533499545576,
      "loss": 3.9442,
      "step": 51170
    },
    {
      "epoch": 0.106625,
      "grad_norm": 0.8485565781593323,
      "learning_rate": 0.0002922322039288011,
      "loss": 4.0562,
      "step": 51180
    },
    {
      "epoch": 0.10664583333333333,
      "grad_norm": 0.7547968029975891,
      "learning_rate": 0.00029222907224775967,
      "loss": 3.9971,
      "step": 51190
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.816499650478363,
      "learning_rate": 0.000292225939952345,
      "loss": 4.0246,
      "step": 51200
    },
    {
      "epoch": 0.1066875,
      "grad_norm": 0.7282909750938416,
      "learning_rate": 0.00029222280704257044,
      "loss": 3.8919,
      "step": 51210
    },
    {
      "epoch": 0.10670833333333334,
      "grad_norm": 0.8192281723022461,
      "learning_rate": 0.0002922196735184497,
      "loss": 3.9158,
      "step": 51220
    },
    {
      "epoch": 0.10672916666666667,
      "grad_norm": 0.8846397995948792,
      "learning_rate": 0.00029221653937999627,
      "loss": 4.0009,
      "step": 51230
    },
    {
      "epoch": 0.10675,
      "grad_norm": 0.7249765992164612,
      "learning_rate": 0.0002922134046272237,
      "loss": 3.937,
      "step": 51240
    },
    {
      "epoch": 0.10677083333333333,
      "grad_norm": 0.7953372001647949,
      "learning_rate": 0.0002922102692601455,
      "loss": 4.1856,
      "step": 51250
    },
    {
      "epoch": 0.10679166666666666,
      "grad_norm": 0.8694043159484863,
      "learning_rate": 0.00029220713327877517,
      "loss": 3.8699,
      "step": 51260
    },
    {
      "epoch": 0.1068125,
      "grad_norm": 0.7265217900276184,
      "learning_rate": 0.00029220399668312643,
      "loss": 3.9448,
      "step": 51270
    },
    {
      "epoch": 0.10683333333333334,
      "grad_norm": 1.0783276557922363,
      "learning_rate": 0.00029220085947321265,
      "loss": 3.9503,
      "step": 51280
    },
    {
      "epoch": 0.10685416666666667,
      "grad_norm": 0.8365939259529114,
      "learning_rate": 0.0002921977216490474,
      "loss": 4.1027,
      "step": 51290
    },
    {
      "epoch": 0.106875,
      "grad_norm": 0.7701013684272766,
      "learning_rate": 0.00029219458321064434,
      "loss": 3.9475,
      "step": 51300
    },
    {
      "epoch": 0.10689583333333333,
      "grad_norm": 0.7184340953826904,
      "learning_rate": 0.0002921914441580169,
      "loss": 3.9289,
      "step": 51310
    },
    {
      "epoch": 0.10691666666666666,
      "grad_norm": 0.6850623488426208,
      "learning_rate": 0.00029218830449117883,
      "loss": 4.0371,
      "step": 51320
    },
    {
      "epoch": 0.1069375,
      "grad_norm": 0.8108096718788147,
      "learning_rate": 0.0002921851642101435,
      "loss": 4.0663,
      "step": 51330
    },
    {
      "epoch": 0.10695833333333334,
      "grad_norm": 0.8161534070968628,
      "learning_rate": 0.0002921820233149245,
      "loss": 4.0464,
      "step": 51340
    },
    {
      "epoch": 0.10697916666666667,
      "grad_norm": 0.7987128496170044,
      "learning_rate": 0.00029217888180553547,
      "loss": 4.03,
      "step": 51350
    },
    {
      "epoch": 0.107,
      "grad_norm": 0.8720340132713318,
      "learning_rate": 0.0002921757396819899,
      "loss": 3.9637,
      "step": 51360
    },
    {
      "epoch": 0.10702083333333333,
      "grad_norm": 0.8332940340042114,
      "learning_rate": 0.0002921725969443015,
      "loss": 3.8769,
      "step": 51370
    },
    {
      "epoch": 0.10704166666666666,
      "grad_norm": 0.8439117074012756,
      "learning_rate": 0.0002921694535924837,
      "loss": 3.8649,
      "step": 51380
    },
    {
      "epoch": 0.1070625,
      "grad_norm": 0.8776065707206726,
      "learning_rate": 0.00029216630962655016,
      "loss": 4.0344,
      "step": 51390
    },
    {
      "epoch": 0.10708333333333334,
      "grad_norm": 0.738735556602478,
      "learning_rate": 0.00029216316504651445,
      "loss": 3.8641,
      "step": 51400
    },
    {
      "epoch": 0.10710416666666667,
      "grad_norm": 0.8037091493606567,
      "learning_rate": 0.0002921600198523901,
      "loss": 3.9625,
      "step": 51410
    },
    {
      "epoch": 0.107125,
      "grad_norm": 0.7587477564811707,
      "learning_rate": 0.00029215687404419077,
      "loss": 3.7675,
      "step": 51420
    },
    {
      "epoch": 0.10714583333333333,
      "grad_norm": 0.9433364272117615,
      "learning_rate": 0.00029215372762192996,
      "loss": 4.1119,
      "step": 51430
    },
    {
      "epoch": 0.10716666666666666,
      "grad_norm": 0.7502623200416565,
      "learning_rate": 0.0002921505805856213,
      "loss": 4.1368,
      "step": 51440
    },
    {
      "epoch": 0.1071875,
      "grad_norm": 0.754521906375885,
      "learning_rate": 0.00029214743293527854,
      "loss": 4.0781,
      "step": 51450
    },
    {
      "epoch": 0.10720833333333334,
      "grad_norm": 0.7416971921920776,
      "learning_rate": 0.00029214428467091503,
      "loss": 3.9534,
      "step": 51460
    },
    {
      "epoch": 0.10722916666666667,
      "grad_norm": 0.9126066565513611,
      "learning_rate": 0.00029214113579254447,
      "loss": 3.9077,
      "step": 51470
    },
    {
      "epoch": 0.10725,
      "grad_norm": 1.542122483253479,
      "learning_rate": 0.00029213798630018046,
      "loss": 4.0877,
      "step": 51480
    },
    {
      "epoch": 0.10727083333333333,
      "grad_norm": 0.8194891214370728,
      "learning_rate": 0.00029213483619383666,
      "loss": 4.1349,
      "step": 51490
    },
    {
      "epoch": 0.10729166666666666,
      "grad_norm": 0.8701623678207397,
      "learning_rate": 0.0002921316854735266,
      "loss": 3.8439,
      "step": 51500
    },
    {
      "epoch": 0.1073125,
      "grad_norm": 0.721686601638794,
      "learning_rate": 0.00029212853413926397,
      "loss": 3.9645,
      "step": 51510
    },
    {
      "epoch": 0.10733333333333334,
      "grad_norm": 0.8494043946266174,
      "learning_rate": 0.0002921253821910623,
      "loss": 3.97,
      "step": 51520
    },
    {
      "epoch": 0.10735416666666667,
      "grad_norm": 0.8931439518928528,
      "learning_rate": 0.0002921222296289352,
      "loss": 3.9963,
      "step": 51530
    },
    {
      "epoch": 0.107375,
      "grad_norm": 0.7747337222099304,
      "learning_rate": 0.00029211907645289634,
      "loss": 3.935,
      "step": 51540
    },
    {
      "epoch": 0.10739583333333333,
      "grad_norm": 0.7565237879753113,
      "learning_rate": 0.0002921159226629593,
      "loss": 3.9925,
      "step": 51550
    },
    {
      "epoch": 0.10741666666666666,
      "grad_norm": 0.8155282139778137,
      "learning_rate": 0.00029211276825913776,
      "loss": 3.9368,
      "step": 51560
    },
    {
      "epoch": 0.1074375,
      "grad_norm": 0.6745347380638123,
      "learning_rate": 0.00029210961324144534,
      "loss": 3.7378,
      "step": 51570
    },
    {
      "epoch": 0.10745833333333334,
      "grad_norm": 0.8709880113601685,
      "learning_rate": 0.0002921064576098956,
      "loss": 4.0982,
      "step": 51580
    },
    {
      "epoch": 0.10747916666666667,
      "grad_norm": 0.9265515804290771,
      "learning_rate": 0.0002921033013645022,
      "loss": 4.0775,
      "step": 51590
    },
    {
      "epoch": 0.1075,
      "grad_norm": 0.881605863571167,
      "learning_rate": 0.00029210014450527884,
      "loss": 4.0188,
      "step": 51600
    },
    {
      "epoch": 0.10752083333333333,
      "grad_norm": 0.7834116816520691,
      "learning_rate": 0.0002920969870322391,
      "loss": 4.0769,
      "step": 51610
    },
    {
      "epoch": 0.10754166666666666,
      "grad_norm": 0.8273080587387085,
      "learning_rate": 0.0002920938289453966,
      "loss": 4.0006,
      "step": 51620
    },
    {
      "epoch": 0.1075625,
      "grad_norm": 0.6867583394050598,
      "learning_rate": 0.000292090670244765,
      "loss": 3.9926,
      "step": 51630
    },
    {
      "epoch": 0.10758333333333334,
      "grad_norm": 0.9835606217384338,
      "learning_rate": 0.00029208751093035793,
      "loss": 3.8799,
      "step": 51640
    },
    {
      "epoch": 0.10760416666666667,
      "grad_norm": 0.8329886794090271,
      "learning_rate": 0.00029208435100218903,
      "loss": 3.9406,
      "step": 51650
    },
    {
      "epoch": 0.107625,
      "grad_norm": 0.6891643404960632,
      "learning_rate": 0.0002920811904602721,
      "loss": 4.0072,
      "step": 51660
    },
    {
      "epoch": 0.10764583333333333,
      "grad_norm": 0.7854464054107666,
      "learning_rate": 0.00029207802930462056,
      "loss": 3.9541,
      "step": 51670
    },
    {
      "epoch": 0.10766666666666666,
      "grad_norm": 0.7853583693504333,
      "learning_rate": 0.0002920748675352482,
      "loss": 3.8468,
      "step": 51680
    },
    {
      "epoch": 0.1076875,
      "grad_norm": 0.7087932825088501,
      "learning_rate": 0.0002920717051521686,
      "loss": 3.9833,
      "step": 51690
    },
    {
      "epoch": 0.10770833333333334,
      "grad_norm": 0.8101626038551331,
      "learning_rate": 0.00029206854215539554,
      "loss": 4.0226,
      "step": 51700
    },
    {
      "epoch": 0.10772916666666667,
      "grad_norm": 0.8133219480514526,
      "learning_rate": 0.0002920653785449426,
      "loss": 4.0932,
      "step": 51710
    },
    {
      "epoch": 0.10775,
      "grad_norm": 0.7019925713539124,
      "learning_rate": 0.0002920622143208234,
      "loss": 4.0903,
      "step": 51720
    },
    {
      "epoch": 0.10777083333333333,
      "grad_norm": 0.9063321948051453,
      "learning_rate": 0.0002920590494830518,
      "loss": 3.9818,
      "step": 51730
    },
    {
      "epoch": 0.10779166666666666,
      "grad_norm": 1.0794398784637451,
      "learning_rate": 0.0002920558840316412,
      "loss": 3.9744,
      "step": 51740
    },
    {
      "epoch": 0.1078125,
      "grad_norm": 0.7844918966293335,
      "learning_rate": 0.00029205271796660544,
      "loss": 4.007,
      "step": 51750
    },
    {
      "epoch": 0.10783333333333334,
      "grad_norm": 0.810516357421875,
      "learning_rate": 0.0002920495512879582,
      "loss": 4.0214,
      "step": 51760
    },
    {
      "epoch": 0.10785416666666667,
      "grad_norm": 0.761742115020752,
      "learning_rate": 0.0002920463839957131,
      "loss": 4.1674,
      "step": 51770
    },
    {
      "epoch": 0.107875,
      "grad_norm": 0.9442174434661865,
      "learning_rate": 0.00029204321608988386,
      "loss": 4.0093,
      "step": 51780
    },
    {
      "epoch": 0.10789583333333333,
      "grad_norm": 0.8025702238082886,
      "learning_rate": 0.00029204004757048415,
      "loss": 4.0775,
      "step": 51790
    },
    {
      "epoch": 0.10791666666666666,
      "grad_norm": 0.8644669055938721,
      "learning_rate": 0.00029203687843752765,
      "loss": 3.9648,
      "step": 51800
    },
    {
      "epoch": 0.1079375,
      "grad_norm": 0.814372718334198,
      "learning_rate": 0.0002920337086910281,
      "loss": 4.0959,
      "step": 51810
    },
    {
      "epoch": 0.10795833333333334,
      "grad_norm": 0.9712896347045898,
      "learning_rate": 0.0002920305383309991,
      "loss": 4.1543,
      "step": 51820
    },
    {
      "epoch": 0.10797916666666667,
      "grad_norm": 0.8118899464607239,
      "learning_rate": 0.00029202736735745445,
      "loss": 4.0551,
      "step": 51830
    },
    {
      "epoch": 0.108,
      "grad_norm": 0.9023054242134094,
      "learning_rate": 0.0002920241957704077,
      "loss": 3.9148,
      "step": 51840
    },
    {
      "epoch": 0.10802083333333333,
      "grad_norm": 0.987561821937561,
      "learning_rate": 0.0002920210235698727,
      "loss": 4.0607,
      "step": 51850
    },
    {
      "epoch": 0.10804166666666666,
      "grad_norm": 0.7615936398506165,
      "learning_rate": 0.0002920178507558631,
      "loss": 3.8562,
      "step": 51860
    },
    {
      "epoch": 0.1080625,
      "grad_norm": 0.7280365824699402,
      "learning_rate": 0.0002920146773283926,
      "loss": 4.1818,
      "step": 51870
    },
    {
      "epoch": 0.10808333333333334,
      "grad_norm": 0.7535092234611511,
      "learning_rate": 0.0002920115032874749,
      "loss": 4.0763,
      "step": 51880
    },
    {
      "epoch": 0.10810416666666667,
      "grad_norm": 0.7573708295822144,
      "learning_rate": 0.0002920083286331237,
      "loss": 4.1118,
      "step": 51890
    },
    {
      "epoch": 0.108125,
      "grad_norm": 0.9810128211975098,
      "learning_rate": 0.0002920051533653527,
      "loss": 3.9832,
      "step": 51900
    },
    {
      "epoch": 0.10814583333333333,
      "grad_norm": 0.714684247970581,
      "learning_rate": 0.00029200197748417575,
      "loss": 3.9388,
      "step": 51910
    },
    {
      "epoch": 0.10816666666666666,
      "grad_norm": 0.7415071129798889,
      "learning_rate": 0.00029199880098960637,
      "loss": 3.8826,
      "step": 51920
    },
    {
      "epoch": 0.1081875,
      "grad_norm": 1.1449800729751587,
      "learning_rate": 0.00029199562388165844,
      "loss": 4.109,
      "step": 51930
    },
    {
      "epoch": 0.10820833333333334,
      "grad_norm": 0.7511093616485596,
      "learning_rate": 0.0002919924461603455,
      "loss": 3.9502,
      "step": 51940
    },
    {
      "epoch": 0.10822916666666667,
      "grad_norm": 0.6977457404136658,
      "learning_rate": 0.00029198926782568154,
      "loss": 4.0603,
      "step": 51950
    },
    {
      "epoch": 0.10825,
      "grad_norm": 0.8111187815666199,
      "learning_rate": 0.0002919860888776801,
      "loss": 3.8996,
      "step": 51960
    },
    {
      "epoch": 0.10827083333333333,
      "grad_norm": 0.8054956793785095,
      "learning_rate": 0.00029198290931635494,
      "loss": 4.0093,
      "step": 51970
    },
    {
      "epoch": 0.10829166666666666,
      "grad_norm": 0.8818517923355103,
      "learning_rate": 0.00029197972914171987,
      "loss": 3.9685,
      "step": 51980
    },
    {
      "epoch": 0.1083125,
      "grad_norm": 0.868332028388977,
      "learning_rate": 0.0002919765483537885,
      "loss": 3.9428,
      "step": 51990
    },
    {
      "epoch": 0.10833333333333334,
      "grad_norm": 0.7117992639541626,
      "learning_rate": 0.00029197336695257467,
      "loss": 4.1425,
      "step": 52000
    },
    {
      "epoch": 0.10833333333333334,
      "eval_loss": 4.292825222015381,
      "eval_runtime": 11.5883,
      "eval_samples_per_second": 0.863,
      "eval_steps_per_second": 0.259,
      "step": 52000
    },
    {
      "epoch": 0.10835416666666667,
      "grad_norm": 0.9602883458137512,
      "learning_rate": 0.0002919701849380921,
      "loss": 4.1732,
      "step": 52010
    },
    {
      "epoch": 0.108375,
      "grad_norm": 1.132872462272644,
      "learning_rate": 0.00029196700231035445,
      "loss": 3.8757,
      "step": 52020
    },
    {
      "epoch": 0.10839583333333333,
      "grad_norm": 0.8030247688293457,
      "learning_rate": 0.00029196381906937565,
      "loss": 3.9705,
      "step": 52030
    },
    {
      "epoch": 0.10841666666666666,
      "grad_norm": 0.8685594797134399,
      "learning_rate": 0.00029196063521516927,
      "loss": 4.1132,
      "step": 52040
    },
    {
      "epoch": 0.1084375,
      "grad_norm": 0.7503647804260254,
      "learning_rate": 0.00029195745074774915,
      "loss": 3.9934,
      "step": 52050
    },
    {
      "epoch": 0.10845833333333334,
      "grad_norm": 0.7165424227714539,
      "learning_rate": 0.00029195426566712906,
      "loss": 4.0667,
      "step": 52060
    },
    {
      "epoch": 0.10847916666666667,
      "grad_norm": 0.7634149193763733,
      "learning_rate": 0.00029195107997332276,
      "loss": 4.0073,
      "step": 52070
    },
    {
      "epoch": 0.1085,
      "grad_norm": 0.8187643885612488,
      "learning_rate": 0.0002919478936663439,
      "loss": 4.0633,
      "step": 52080
    },
    {
      "epoch": 0.10852083333333333,
      "grad_norm": 0.8465825915336609,
      "learning_rate": 0.0002919447067462064,
      "loss": 3.9046,
      "step": 52090
    },
    {
      "epoch": 0.10854166666666666,
      "grad_norm": 0.9938410520553589,
      "learning_rate": 0.00029194151921292395,
      "loss": 4.074,
      "step": 52100
    },
    {
      "epoch": 0.1085625,
      "grad_norm": 0.8423704504966736,
      "learning_rate": 0.0002919383310665103,
      "loss": 3.9815,
      "step": 52110
    },
    {
      "epoch": 0.10858333333333334,
      "grad_norm": 0.7817022800445557,
      "learning_rate": 0.00029193514230697925,
      "loss": 4.1427,
      "step": 52120
    },
    {
      "epoch": 0.10860416666666667,
      "grad_norm": 0.8780257105827332,
      "learning_rate": 0.00029193195293434455,
      "loss": 4.0044,
      "step": 52130
    },
    {
      "epoch": 0.108625,
      "grad_norm": 0.7431384921073914,
      "learning_rate": 0.00029192876294861997,
      "loss": 3.9484,
      "step": 52140
    },
    {
      "epoch": 0.10864583333333333,
      "grad_norm": 0.7732836008071899,
      "learning_rate": 0.00029192557234981935,
      "loss": 4.063,
      "step": 52150
    },
    {
      "epoch": 0.10866666666666666,
      "grad_norm": 0.7548495531082153,
      "learning_rate": 0.00029192238113795644,
      "loss": 4.044,
      "step": 52160
    },
    {
      "epoch": 0.1086875,
      "grad_norm": 0.7877428531646729,
      "learning_rate": 0.000291919189313045,
      "loss": 4.141,
      "step": 52170
    },
    {
      "epoch": 0.10870833333333334,
      "grad_norm": 0.8103417754173279,
      "learning_rate": 0.0002919159968750988,
      "loss": 4.1789,
      "step": 52180
    },
    {
      "epoch": 0.10872916666666667,
      "grad_norm": 0.7253836989402771,
      "learning_rate": 0.0002919128038241318,
      "loss": 4.0021,
      "step": 52190
    },
    {
      "epoch": 0.10875,
      "grad_norm": 0.818221926689148,
      "learning_rate": 0.0002919096101601575,
      "loss": 3.94,
      "step": 52200
    },
    {
      "epoch": 0.10877083333333333,
      "grad_norm": 0.7055040001869202,
      "learning_rate": 0.00029190641588319,
      "loss": 4.0548,
      "step": 52210
    },
    {
      "epoch": 0.10879166666666666,
      "grad_norm": 0.8298307657241821,
      "learning_rate": 0.00029190322099324284,
      "loss": 4.1305,
      "step": 52220
    },
    {
      "epoch": 0.1088125,
      "grad_norm": 0.8079668879508972,
      "learning_rate": 0.00029190002549033,
      "loss": 3.9561,
      "step": 52230
    },
    {
      "epoch": 0.10883333333333334,
      "grad_norm": 0.9573561549186707,
      "learning_rate": 0.0002918968293744652,
      "loss": 3.8645,
      "step": 52240
    },
    {
      "epoch": 0.10885416666666667,
      "grad_norm": 0.8227382302284241,
      "learning_rate": 0.0002918936326456623,
      "loss": 3.9068,
      "step": 52250
    },
    {
      "epoch": 0.108875,
      "grad_norm": 0.8383076190948486,
      "learning_rate": 0.000291890435303935,
      "loss": 3.929,
      "step": 52260
    },
    {
      "epoch": 0.10889583333333333,
      "grad_norm": 0.8024759888648987,
      "learning_rate": 0.0002918872373492972,
      "loss": 4.0615,
      "step": 52270
    },
    {
      "epoch": 0.10891666666666666,
      "grad_norm": 0.7810993194580078,
      "learning_rate": 0.00029188403878176275,
      "loss": 3.9906,
      "step": 52280
    },
    {
      "epoch": 0.1089375,
      "grad_norm": 0.7234829068183899,
      "learning_rate": 0.0002918808396013454,
      "loss": 4.0508,
      "step": 52290
    },
    {
      "epoch": 0.10895833333333334,
      "grad_norm": 0.7852441072463989,
      "learning_rate": 0.0002918776398080589,
      "loss": 3.9925,
      "step": 52300
    },
    {
      "epoch": 0.10897916666666667,
      "grad_norm": 0.9247604012489319,
      "learning_rate": 0.00029187443940191727,
      "loss": 4.1285,
      "step": 52310
    },
    {
      "epoch": 0.109,
      "grad_norm": 0.7500501275062561,
      "learning_rate": 0.00029187123838293413,
      "loss": 4.1962,
      "step": 52320
    },
    {
      "epoch": 0.10902083333333333,
      "grad_norm": 0.8548446297645569,
      "learning_rate": 0.00029186803675112344,
      "loss": 4.002,
      "step": 52330
    },
    {
      "epoch": 0.10904166666666666,
      "grad_norm": 0.7514891028404236,
      "learning_rate": 0.000291864834506499,
      "loss": 3.878,
      "step": 52340
    },
    {
      "epoch": 0.1090625,
      "grad_norm": 0.7346019148826599,
      "learning_rate": 0.0002918616316490746,
      "loss": 3.9506,
      "step": 52350
    },
    {
      "epoch": 0.10908333333333334,
      "grad_norm": 0.8644079566001892,
      "learning_rate": 0.0002918584281788641,
      "loss": 3.9435,
      "step": 52360
    },
    {
      "epoch": 0.10910416666666667,
      "grad_norm": 0.7271287441253662,
      "learning_rate": 0.0002918552240958814,
      "loss": 3.8575,
      "step": 52370
    },
    {
      "epoch": 0.109125,
      "grad_norm": 0.9098513722419739,
      "learning_rate": 0.0002918520194001402,
      "loss": 3.9648,
      "step": 52380
    },
    {
      "epoch": 0.10914583333333333,
      "grad_norm": 0.8556364178657532,
      "learning_rate": 0.0002918488140916545,
      "loss": 4.1142,
      "step": 52390
    },
    {
      "epoch": 0.10916666666666666,
      "grad_norm": 0.8531723618507385,
      "learning_rate": 0.000291845608170438,
      "loss": 4.0164,
      "step": 52400
    },
    {
      "epoch": 0.1091875,
      "grad_norm": 0.9475483894348145,
      "learning_rate": 0.00029184240163650466,
      "loss": 4.1148,
      "step": 52410
    },
    {
      "epoch": 0.10920833333333334,
      "grad_norm": 0.8153632879257202,
      "learning_rate": 0.0002918391944898683,
      "loss": 4.1306,
      "step": 52420
    },
    {
      "epoch": 0.10922916666666667,
      "grad_norm": 0.9830898642539978,
      "learning_rate": 0.0002918359867305427,
      "loss": 3.9117,
      "step": 52430
    },
    {
      "epoch": 0.10925,
      "grad_norm": 0.7919710874557495,
      "learning_rate": 0.00029183277835854185,
      "loss": 4.1084,
      "step": 52440
    },
    {
      "epoch": 0.10927083333333333,
      "grad_norm": 1.1078754663467407,
      "learning_rate": 0.0002918295693738795,
      "loss": 4.0675,
      "step": 52450
    },
    {
      "epoch": 0.10929166666666666,
      "grad_norm": 0.8586977124214172,
      "learning_rate": 0.00029182635977656956,
      "loss": 3.8616,
      "step": 52460
    },
    {
      "epoch": 0.1093125,
      "grad_norm": 0.7405294179916382,
      "learning_rate": 0.00029182314956662593,
      "loss": 3.9091,
      "step": 52470
    },
    {
      "epoch": 0.10933333333333334,
      "grad_norm": 1.0049537420272827,
      "learning_rate": 0.0002918199387440624,
      "loss": 3.8397,
      "step": 52480
    },
    {
      "epoch": 0.10935416666666667,
      "grad_norm": 0.7389025688171387,
      "learning_rate": 0.0002918167273088928,
      "loss": 4.0645,
      "step": 52490
    },
    {
      "epoch": 0.109375,
      "grad_norm": 0.766385555267334,
      "learning_rate": 0.00029181351526113116,
      "loss": 3.9259,
      "step": 52500
    },
    {
      "epoch": 0.10939583333333333,
      "grad_norm": 0.7778509259223938,
      "learning_rate": 0.00029181030260079125,
      "loss": 4.1662,
      "step": 52510
    },
    {
      "epoch": 0.10941666666666666,
      "grad_norm": 0.8445219993591309,
      "learning_rate": 0.00029180708932788693,
      "loss": 4.0251,
      "step": 52520
    },
    {
      "epoch": 0.1094375,
      "grad_norm": 0.8038216233253479,
      "learning_rate": 0.0002918038754424322,
      "loss": 3.9978,
      "step": 52530
    },
    {
      "epoch": 0.10945833333333334,
      "grad_norm": 0.8453511595726013,
      "learning_rate": 0.00029180066094444077,
      "loss": 3.828,
      "step": 52540
    },
    {
      "epoch": 0.10947916666666667,
      "grad_norm": 0.8067003488540649,
      "learning_rate": 0.00029179744583392663,
      "loss": 3.9561,
      "step": 52550
    },
    {
      "epoch": 0.1095,
      "grad_norm": 0.7459459900856018,
      "learning_rate": 0.00029179423011090364,
      "loss": 4.1009,
      "step": 52560
    },
    {
      "epoch": 0.10952083333333333,
      "grad_norm": 0.8324541449546814,
      "learning_rate": 0.0002917910137753858,
      "loss": 3.9422,
      "step": 52570
    },
    {
      "epoch": 0.10954166666666666,
      "grad_norm": 0.832737386226654,
      "learning_rate": 0.0002917877968273868,
      "loss": 3.8588,
      "step": 52580
    },
    {
      "epoch": 0.1095625,
      "grad_norm": 0.7939635515213013,
      "learning_rate": 0.0002917845792669207,
      "loss": 3.9388,
      "step": 52590
    },
    {
      "epoch": 0.10958333333333334,
      "grad_norm": 0.7925247550010681,
      "learning_rate": 0.0002917813610940013,
      "loss": 4.0098,
      "step": 52600
    },
    {
      "epoch": 0.10960416666666667,
      "grad_norm": 0.8496633768081665,
      "learning_rate": 0.00029177814230864254,
      "loss": 4.0395,
      "step": 52610
    },
    {
      "epoch": 0.109625,
      "grad_norm": 0.8074082732200623,
      "learning_rate": 0.0002917749229108583,
      "loss": 3.9595,
      "step": 52620
    },
    {
      "epoch": 0.10964583333333333,
      "grad_norm": 0.8831207752227783,
      "learning_rate": 0.0002917717029006626,
      "loss": 3.9476,
      "step": 52630
    },
    {
      "epoch": 0.10966666666666666,
      "grad_norm": 0.7828157544136047,
      "learning_rate": 0.00029176848227806924,
      "loss": 4.0193,
      "step": 52640
    },
    {
      "epoch": 0.1096875,
      "grad_norm": 2.1978719234466553,
      "learning_rate": 0.00029176526104309207,
      "loss": 4.2943,
      "step": 52650
    },
    {
      "epoch": 0.10970833333333334,
      "grad_norm": 0.7968044877052307,
      "learning_rate": 0.00029176203919574516,
      "loss": 3.8197,
      "step": 52660
    },
    {
      "epoch": 0.10972916666666667,
      "grad_norm": 0.7645314335823059,
      "learning_rate": 0.00029175881673604233,
      "loss": 3.8248,
      "step": 52670
    },
    {
      "epoch": 0.10975,
      "grad_norm": 0.8111442923545837,
      "learning_rate": 0.00029175559366399756,
      "loss": 3.9206,
      "step": 52680
    },
    {
      "epoch": 0.10977083333333333,
      "grad_norm": 0.7780027985572815,
      "learning_rate": 0.0002917523699796247,
      "loss": 3.8892,
      "step": 52690
    },
    {
      "epoch": 0.10979166666666666,
      "grad_norm": 0.7356646060943604,
      "learning_rate": 0.00029174914568293767,
      "loss": 4.0607,
      "step": 52700
    },
    {
      "epoch": 0.1098125,
      "grad_norm": 0.8040390610694885,
      "learning_rate": 0.0002917459207739505,
      "loss": 3.9026,
      "step": 52710
    },
    {
      "epoch": 0.10983333333333334,
      "grad_norm": 0.7996958494186401,
      "learning_rate": 0.00029174269525267704,
      "loss": 3.8874,
      "step": 52720
    },
    {
      "epoch": 0.10985416666666667,
      "grad_norm": 0.7688407301902771,
      "learning_rate": 0.00029173946911913124,
      "loss": 3.9387,
      "step": 52730
    },
    {
      "epoch": 0.109875,
      "grad_norm": 0.7038112878799438,
      "learning_rate": 0.00029173624237332704,
      "loss": 3.8037,
      "step": 52740
    },
    {
      "epoch": 0.10989583333333333,
      "grad_norm": 0.805330753326416,
      "learning_rate": 0.0002917330150152784,
      "loss": 3.8332,
      "step": 52750
    },
    {
      "epoch": 0.10991666666666666,
      "grad_norm": 0.7707400918006897,
      "learning_rate": 0.0002917297870449992,
      "loss": 4.0045,
      "step": 52760
    },
    {
      "epoch": 0.1099375,
      "grad_norm": 0.7355412244796753,
      "learning_rate": 0.0002917265584625034,
      "loss": 4.0422,
      "step": 52770
    },
    {
      "epoch": 0.10995833333333334,
      "grad_norm": 0.7653030753135681,
      "learning_rate": 0.00029172332926780505,
      "loss": 3.8315,
      "step": 52780
    },
    {
      "epoch": 0.10997916666666667,
      "grad_norm": 0.7614937424659729,
      "learning_rate": 0.000291720099460918,
      "loss": 3.9342,
      "step": 52790
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7058159112930298,
      "learning_rate": 0.0002917168690418562,
      "loss": 4.0702,
      "step": 52800
    },
    {
      "epoch": 0.11002083333333333,
      "grad_norm": 0.8921005129814148,
      "learning_rate": 0.00029171363801063356,
      "loss": 3.9833,
      "step": 52810
    },
    {
      "epoch": 0.11004166666666666,
      "grad_norm": 0.7762746214866638,
      "learning_rate": 0.00029171040636726415,
      "loss": 4.0211,
      "step": 52820
    },
    {
      "epoch": 0.1100625,
      "grad_norm": 0.7757589221000671,
      "learning_rate": 0.0002917071741117619,
      "loss": 3.8361,
      "step": 52830
    },
    {
      "epoch": 0.11008333333333334,
      "grad_norm": 0.7362900972366333,
      "learning_rate": 0.0002917039412441407,
      "loss": 3.7991,
      "step": 52840
    },
    {
      "epoch": 0.11010416666666667,
      "grad_norm": 0.6952081918716431,
      "learning_rate": 0.0002917007077644146,
      "loss": 4.0634,
      "step": 52850
    },
    {
      "epoch": 0.110125,
      "grad_norm": 0.7980598211288452,
      "learning_rate": 0.0002916974736725975,
      "loss": 4.0623,
      "step": 52860
    },
    {
      "epoch": 0.11014583333333333,
      "grad_norm": 0.7988148331642151,
      "learning_rate": 0.00029169423896870344,
      "loss": 4.1201,
      "step": 52870
    },
    {
      "epoch": 0.11016666666666666,
      "grad_norm": 0.8626530766487122,
      "learning_rate": 0.00029169100365274636,
      "loss": 4.0571,
      "step": 52880
    },
    {
      "epoch": 0.1101875,
      "grad_norm": 0.7965443134307861,
      "learning_rate": 0.00029168776772474017,
      "loss": 3.8099,
      "step": 52890
    },
    {
      "epoch": 0.11020833333333334,
      "grad_norm": 0.7561006546020508,
      "learning_rate": 0.00029168453118469894,
      "loss": 4.0266,
      "step": 52900
    },
    {
      "epoch": 0.11022916666666667,
      "grad_norm": 0.8024379014968872,
      "learning_rate": 0.0002916812940326366,
      "loss": 4.0878,
      "step": 52910
    },
    {
      "epoch": 0.11025,
      "grad_norm": 0.7615507245063782,
      "learning_rate": 0.0002916780562685672,
      "loss": 3.9266,
      "step": 52920
    },
    {
      "epoch": 0.11027083333333333,
      "grad_norm": 0.9090479612350464,
      "learning_rate": 0.00029167481789250466,
      "loss": 3.9366,
      "step": 52930
    },
    {
      "epoch": 0.11029166666666666,
      "grad_norm": 0.8365195989608765,
      "learning_rate": 0.0002916715789044629,
      "loss": 3.9034,
      "step": 52940
    },
    {
      "epoch": 0.1103125,
      "grad_norm": 0.8081237077713013,
      "learning_rate": 0.00029166833930445614,
      "loss": 3.8996,
      "step": 52950
    },
    {
      "epoch": 0.11033333333333334,
      "grad_norm": 0.8502915501594543,
      "learning_rate": 0.00029166509909249813,
      "loss": 3.9922,
      "step": 52960
    },
    {
      "epoch": 0.11035416666666667,
      "grad_norm": 0.8141067028045654,
      "learning_rate": 0.000291661858268603,
      "loss": 3.9005,
      "step": 52970
    },
    {
      "epoch": 0.110375,
      "grad_norm": 0.8019058108329773,
      "learning_rate": 0.00029165861683278475,
      "loss": 3.8704,
      "step": 52980
    },
    {
      "epoch": 0.11039583333333333,
      "grad_norm": 1.0281845331192017,
      "learning_rate": 0.0002916553747850573,
      "loss": 3.919,
      "step": 52990
    },
    {
      "epoch": 0.11041666666666666,
      "grad_norm": 0.8038377165794373,
      "learning_rate": 0.0002916521321254347,
      "loss": 3.9946,
      "step": 53000
    },
    {
      "epoch": 0.11041666666666666,
      "eval_loss": 4.287143707275391,
      "eval_runtime": 9.7771,
      "eval_samples_per_second": 1.023,
      "eval_steps_per_second": 0.307,
      "step": 53000
    },
    {
      "epoch": 0.1104375,
      "grad_norm": 0.8986204266548157,
      "learning_rate": 0.0002916488888539309,
      "loss": 4.0505,
      "step": 53010
    },
    {
      "epoch": 0.11045833333333334,
      "grad_norm": 0.7640153169631958,
      "learning_rate": 0.0002916456449705601,
      "loss": 3.8295,
      "step": 53020
    },
    {
      "epoch": 0.11047916666666667,
      "grad_norm": 0.7983289957046509,
      "learning_rate": 0.00029164240047533616,
      "loss": 3.868,
      "step": 53030
    },
    {
      "epoch": 0.1105,
      "grad_norm": 0.7742973566055298,
      "learning_rate": 0.00029163915536827305,
      "loss": 3.8922,
      "step": 53040
    },
    {
      "epoch": 0.11052083333333333,
      "grad_norm": 0.8335437178611755,
      "learning_rate": 0.0002916359096493849,
      "loss": 3.9397,
      "step": 53050
    },
    {
      "epoch": 0.11054166666666666,
      "grad_norm": 0.7938936948776245,
      "learning_rate": 0.0002916326633186856,
      "loss": 4.0751,
      "step": 53060
    },
    {
      "epoch": 0.1105625,
      "grad_norm": 0.8706938624382019,
      "learning_rate": 0.00029162941637618934,
      "loss": 3.8612,
      "step": 53070
    },
    {
      "epoch": 0.11058333333333334,
      "grad_norm": 0.7677713632583618,
      "learning_rate": 0.0002916261688219101,
      "loss": 4.0338,
      "step": 53080
    },
    {
      "epoch": 0.11060416666666667,
      "grad_norm": 0.9367477297782898,
      "learning_rate": 0.0002916229206558618,
      "loss": 3.8915,
      "step": 53090
    },
    {
      "epoch": 0.110625,
      "grad_norm": 0.7873819470405579,
      "learning_rate": 0.0002916196718780585,
      "loss": 4.1746,
      "step": 53100
    },
    {
      "epoch": 0.11064583333333333,
      "grad_norm": 0.7975022196769714,
      "learning_rate": 0.00029161642248851436,
      "loss": 4.0805,
      "step": 53110
    },
    {
      "epoch": 0.11066666666666666,
      "grad_norm": 0.8965891599655151,
      "learning_rate": 0.00029161317248724327,
      "loss": 4.0682,
      "step": 53120
    },
    {
      "epoch": 0.1106875,
      "grad_norm": 0.7114343047142029,
      "learning_rate": 0.00029160992187425935,
      "loss": 4.0278,
      "step": 53130
    },
    {
      "epoch": 0.11070833333333334,
      "grad_norm": 0.7752771973609924,
      "learning_rate": 0.00029160667064957664,
      "loss": 4.0363,
      "step": 53140
    },
    {
      "epoch": 0.11072916666666667,
      "grad_norm": 0.817577064037323,
      "learning_rate": 0.0002916034188132092,
      "loss": 3.9887,
      "step": 53150
    },
    {
      "epoch": 0.11075,
      "grad_norm": 0.7602166533470154,
      "learning_rate": 0.0002916001663651709,
      "loss": 3.9578,
      "step": 53160
    },
    {
      "epoch": 0.11077083333333333,
      "grad_norm": 0.6868917346000671,
      "learning_rate": 0.0002915969133054761,
      "loss": 4.0167,
      "step": 53170
    },
    {
      "epoch": 0.11079166666666666,
      "grad_norm": 0.7333712577819824,
      "learning_rate": 0.0002915936596341386,
      "loss": 3.8314,
      "step": 53180
    },
    {
      "epoch": 0.1108125,
      "grad_norm": 0.8951585292816162,
      "learning_rate": 0.00029159040535117254,
      "loss": 3.9547,
      "step": 53190
    },
    {
      "epoch": 0.11083333333333334,
      "grad_norm": 0.7691102623939514,
      "learning_rate": 0.000291587150456592,
      "loss": 4.0171,
      "step": 53200
    },
    {
      "epoch": 0.11085416666666667,
      "grad_norm": 0.7777038812637329,
      "learning_rate": 0.00029158389495041097,
      "loss": 4.0557,
      "step": 53210
    },
    {
      "epoch": 0.110875,
      "grad_norm": 0.7678014636039734,
      "learning_rate": 0.0002915806388326436,
      "loss": 4.0594,
      "step": 53220
    },
    {
      "epoch": 0.11089583333333333,
      "grad_norm": 0.8808465600013733,
      "learning_rate": 0.00029157738210330386,
      "loss": 4.1487,
      "step": 53230
    },
    {
      "epoch": 0.11091666666666666,
      "grad_norm": 0.8025858998298645,
      "learning_rate": 0.00029157412476240593,
      "loss": 3.9933,
      "step": 53240
    },
    {
      "epoch": 0.1109375,
      "grad_norm": 0.7906595468521118,
      "learning_rate": 0.00029157086680996376,
      "loss": 3.918,
      "step": 53250
    },
    {
      "epoch": 0.11095833333333334,
      "grad_norm": 0.8262672424316406,
      "learning_rate": 0.0002915676082459915,
      "loss": 4.1917,
      "step": 53260
    },
    {
      "epoch": 0.11097916666666667,
      "grad_norm": 0.7214429974555969,
      "learning_rate": 0.00029156434907050326,
      "loss": 4.0127,
      "step": 53270
    },
    {
      "epoch": 0.111,
      "grad_norm": 0.7250967025756836,
      "learning_rate": 0.000291561089283513,
      "loss": 4.0867,
      "step": 53280
    },
    {
      "epoch": 0.11102083333333333,
      "grad_norm": 0.8093532919883728,
      "learning_rate": 0.0002915578288850349,
      "loss": 3.9426,
      "step": 53290
    },
    {
      "epoch": 0.11104166666666666,
      "grad_norm": 0.9679776430130005,
      "learning_rate": 0.000291554567875083,
      "loss": 3.9925,
      "step": 53300
    },
    {
      "epoch": 0.1110625,
      "grad_norm": 0.7204603552818298,
      "learning_rate": 0.00029155130625367143,
      "loss": 3.9257,
      "step": 53310
    },
    {
      "epoch": 0.11108333333333334,
      "grad_norm": 0.8536656498908997,
      "learning_rate": 0.0002915480440208142,
      "loss": 4.1043,
      "step": 53320
    },
    {
      "epoch": 0.11110416666666667,
      "grad_norm": 0.7618528008460999,
      "learning_rate": 0.0002915447811765255,
      "loss": 4.0696,
      "step": 53330
    },
    {
      "epoch": 0.111125,
      "grad_norm": 0.8743622303009033,
      "learning_rate": 0.0002915415177208193,
      "loss": 3.9548,
      "step": 53340
    },
    {
      "epoch": 0.11114583333333333,
      "grad_norm": 0.6830845475196838,
      "learning_rate": 0.00029153825365370984,
      "loss": 3.9555,
      "step": 53350
    },
    {
      "epoch": 0.11116666666666666,
      "grad_norm": 0.92741858959198,
      "learning_rate": 0.0002915349889752111,
      "loss": 4.0029,
      "step": 53360
    },
    {
      "epoch": 0.1111875,
      "grad_norm": 0.7706344127655029,
      "learning_rate": 0.0002915317236853373,
      "loss": 4.0708,
      "step": 53370
    },
    {
      "epoch": 0.11120833333333334,
      "grad_norm": 0.8862875699996948,
      "learning_rate": 0.00029152845778410245,
      "loss": 3.868,
      "step": 53380
    },
    {
      "epoch": 0.11122916666666667,
      "grad_norm": 0.7734929323196411,
      "learning_rate": 0.00029152519127152065,
      "loss": 4.0393,
      "step": 53390
    },
    {
      "epoch": 0.11125,
      "grad_norm": 0.8274433016777039,
      "learning_rate": 0.00029152192414760603,
      "loss": 4.0143,
      "step": 53400
    },
    {
      "epoch": 0.11127083333333333,
      "grad_norm": 0.8333505988121033,
      "learning_rate": 0.00029151865641237275,
      "loss": 3.7917,
      "step": 53410
    },
    {
      "epoch": 0.11129166666666666,
      "grad_norm": 1.049241065979004,
      "learning_rate": 0.0002915153880658349,
      "loss": 3.987,
      "step": 53420
    },
    {
      "epoch": 0.1113125,
      "grad_norm": 0.7601693868637085,
      "learning_rate": 0.00029151211910800656,
      "loss": 4.0545,
      "step": 53430
    },
    {
      "epoch": 0.11133333333333334,
      "grad_norm": 0.9181479215621948,
      "learning_rate": 0.0002915088495389019,
      "loss": 3.9335,
      "step": 53440
    },
    {
      "epoch": 0.11135416666666667,
      "grad_norm": 0.8045979142189026,
      "learning_rate": 0.000291505579358535,
      "loss": 3.8212,
      "step": 53450
    },
    {
      "epoch": 0.111375,
      "grad_norm": 0.7896431684494019,
      "learning_rate": 0.00029150230856692,
      "loss": 4.1041,
      "step": 53460
    },
    {
      "epoch": 0.11139583333333333,
      "grad_norm": 0.6560031175613403,
      "learning_rate": 0.0002914990371640711,
      "loss": 3.8303,
      "step": 53470
    },
    {
      "epoch": 0.11141666666666666,
      "grad_norm": 0.7690889835357666,
      "learning_rate": 0.00029149576515000234,
      "loss": 3.8923,
      "step": 53480
    },
    {
      "epoch": 0.1114375,
      "grad_norm": 0.7666255831718445,
      "learning_rate": 0.00029149249252472784,
      "loss": 3.9374,
      "step": 53490
    },
    {
      "epoch": 0.11145833333333334,
      "grad_norm": 0.7665466070175171,
      "learning_rate": 0.00029148921928826184,
      "loss": 4.1684,
      "step": 53500
    },
    {
      "epoch": 0.11147916666666667,
      "grad_norm": 0.7785353660583496,
      "learning_rate": 0.0002914859454406184,
      "loss": 4.0742,
      "step": 53510
    },
    {
      "epoch": 0.1115,
      "grad_norm": 0.7910484671592712,
      "learning_rate": 0.00029148267098181164,
      "loss": 4.0096,
      "step": 53520
    },
    {
      "epoch": 0.11152083333333333,
      "grad_norm": 0.7075024843215942,
      "learning_rate": 0.0002914793959118558,
      "loss": 3.9381,
      "step": 53530
    },
    {
      "epoch": 0.11154166666666666,
      "grad_norm": 0.737091064453125,
      "learning_rate": 0.00029147612023076495,
      "loss": 3.8916,
      "step": 53540
    },
    {
      "epoch": 0.1115625,
      "grad_norm": 0.7996664643287659,
      "learning_rate": 0.00029147284393855324,
      "loss": 3.8037,
      "step": 53550
    },
    {
      "epoch": 0.11158333333333334,
      "grad_norm": 0.7620794177055359,
      "learning_rate": 0.0002914695670352349,
      "loss": 4.0547,
      "step": 53560
    },
    {
      "epoch": 0.11160416666666667,
      "grad_norm": 0.9369173049926758,
      "learning_rate": 0.0002914662895208239,
      "loss": 4.0153,
      "step": 53570
    },
    {
      "epoch": 0.111625,
      "grad_norm": 0.8283045887947083,
      "learning_rate": 0.00029146301139533465,
      "loss": 3.9179,
      "step": 53580
    },
    {
      "epoch": 0.11164583333333333,
      "grad_norm": 0.8813813924789429,
      "learning_rate": 0.0002914597326587811,
      "loss": 4.0876,
      "step": 53590
    },
    {
      "epoch": 0.11166666666666666,
      "grad_norm": 0.8540322780609131,
      "learning_rate": 0.0002914564533111776,
      "loss": 3.921,
      "step": 53600
    },
    {
      "epoch": 0.1116875,
      "grad_norm": 0.8220049142837524,
      "learning_rate": 0.0002914531733525382,
      "loss": 4.0458,
      "step": 53610
    },
    {
      "epoch": 0.11170833333333334,
      "grad_norm": 0.7949165105819702,
      "learning_rate": 0.000291449892782877,
      "loss": 3.9973,
      "step": 53620
    },
    {
      "epoch": 0.11172916666666667,
      "grad_norm": 0.856960117816925,
      "learning_rate": 0.0002914466116022083,
      "loss": 3.9142,
      "step": 53630
    },
    {
      "epoch": 0.11175,
      "grad_norm": 0.8311901092529297,
      "learning_rate": 0.00029144332981054623,
      "loss": 4.0232,
      "step": 53640
    },
    {
      "epoch": 0.11177083333333333,
      "grad_norm": 0.7674480676651001,
      "learning_rate": 0.00029144004740790493,
      "loss": 4.0432,
      "step": 53650
    },
    {
      "epoch": 0.11179166666666666,
      "grad_norm": 0.8217912912368774,
      "learning_rate": 0.0002914367643942987,
      "loss": 3.8703,
      "step": 53660
    },
    {
      "epoch": 0.1118125,
      "grad_norm": 0.7695301175117493,
      "learning_rate": 0.0002914334807697416,
      "loss": 4.1283,
      "step": 53670
    },
    {
      "epoch": 0.11183333333333334,
      "grad_norm": 0.7896645665168762,
      "learning_rate": 0.0002914301965342477,
      "loss": 4.0795,
      "step": 53680
    },
    {
      "epoch": 0.11185416666666667,
      "grad_norm": 1.0392377376556396,
      "learning_rate": 0.00029142691168783147,
      "loss": 4.0667,
      "step": 53690
    },
    {
      "epoch": 0.111875,
      "grad_norm": 0.9117002487182617,
      "learning_rate": 0.000291423626230507,
      "loss": 3.966,
      "step": 53700
    },
    {
      "epoch": 0.11189583333333333,
      "grad_norm": 0.8944419026374817,
      "learning_rate": 0.00029142034016228834,
      "loss": 4.0523,
      "step": 53710
    },
    {
      "epoch": 0.11191666666666666,
      "grad_norm": 0.791966438293457,
      "learning_rate": 0.00029141705348318986,
      "loss": 4.0174,
      "step": 53720
    },
    {
      "epoch": 0.1119375,
      "grad_norm": 0.8486201167106628,
      "learning_rate": 0.00029141376619322564,
      "loss": 3.9041,
      "step": 53730
    },
    {
      "epoch": 0.11195833333333334,
      "grad_norm": 0.727866530418396,
      "learning_rate": 0.00029141047829240994,
      "loss": 4.0645,
      "step": 53740
    },
    {
      "epoch": 0.11197916666666667,
      "grad_norm": 0.7042128443717957,
      "learning_rate": 0.00029140718978075696,
      "loss": 3.9214,
      "step": 53750
    },
    {
      "epoch": 0.112,
      "grad_norm": 0.8535209894180298,
      "learning_rate": 0.0002914039006582809,
      "loss": 3.8172,
      "step": 53760
    },
    {
      "epoch": 0.11202083333333333,
      "grad_norm": 0.8558336496353149,
      "learning_rate": 0.0002914006109249959,
      "loss": 4.0244,
      "step": 53770
    },
    {
      "epoch": 0.11204166666666666,
      "grad_norm": 0.7634351253509521,
      "learning_rate": 0.0002913973205809163,
      "loss": 4.1981,
      "step": 53780
    },
    {
      "epoch": 0.1120625,
      "grad_norm": 0.9074376821517944,
      "learning_rate": 0.0002913940296260562,
      "loss": 3.9885,
      "step": 53790
    },
    {
      "epoch": 0.11208333333333333,
      "grad_norm": 0.7365894317626953,
      "learning_rate": 0.00029139073806042987,
      "loss": 3.9825,
      "step": 53800
    },
    {
      "epoch": 0.11210416666666667,
      "grad_norm": 0.9071856141090393,
      "learning_rate": 0.00029138744588405157,
      "loss": 4.0964,
      "step": 53810
    },
    {
      "epoch": 0.112125,
      "grad_norm": 0.7501065135002136,
      "learning_rate": 0.0002913841530969354,
      "loss": 4.0113,
      "step": 53820
    },
    {
      "epoch": 0.11214583333333333,
      "grad_norm": 0.769594669342041,
      "learning_rate": 0.0002913808596990957,
      "loss": 3.921,
      "step": 53830
    },
    {
      "epoch": 0.11216666666666666,
      "grad_norm": 0.9653618335723877,
      "learning_rate": 0.00029137756569054665,
      "loss": 3.9994,
      "step": 53840
    },
    {
      "epoch": 0.1121875,
      "grad_norm": 0.8307741284370422,
      "learning_rate": 0.0002913742710713024,
      "loss": 3.9399,
      "step": 53850
    },
    {
      "epoch": 0.11220833333333333,
      "grad_norm": 0.7629021406173706,
      "learning_rate": 0.0002913709758413774,
      "loss": 4.0677,
      "step": 53860
    },
    {
      "epoch": 0.11222916666666667,
      "grad_norm": 0.8333168625831604,
      "learning_rate": 0.0002913676800007856,
      "loss": 3.8942,
      "step": 53870
    },
    {
      "epoch": 0.11225,
      "grad_norm": 0.7365798950195312,
      "learning_rate": 0.0002913643835495414,
      "loss": 3.9329,
      "step": 53880
    },
    {
      "epoch": 0.11227083333333333,
      "grad_norm": 0.8182818293571472,
      "learning_rate": 0.0002913610864876591,
      "loss": 4.1152,
      "step": 53890
    },
    {
      "epoch": 0.11229166666666666,
      "grad_norm": 0.7590382099151611,
      "learning_rate": 0.0002913577888151528,
      "loss": 4.0,
      "step": 53900
    },
    {
      "epoch": 0.1123125,
      "grad_norm": 0.7891393899917603,
      "learning_rate": 0.0002913544905320368,
      "loss": 4.1027,
      "step": 53910
    },
    {
      "epoch": 0.11233333333333333,
      "grad_norm": 0.7939102649688721,
      "learning_rate": 0.0002913511916383254,
      "loss": 3.9175,
      "step": 53920
    },
    {
      "epoch": 0.11235416666666667,
      "grad_norm": 1.2716625928878784,
      "learning_rate": 0.00029134789213403273,
      "loss": 3.7981,
      "step": 53930
    },
    {
      "epoch": 0.112375,
      "grad_norm": 0.8454559445381165,
      "learning_rate": 0.0002913445920191732,
      "loss": 4.1802,
      "step": 53940
    },
    {
      "epoch": 0.11239583333333333,
      "grad_norm": 0.8109568953514099,
      "learning_rate": 0.00029134129129376095,
      "loss": 4.1076,
      "step": 53950
    },
    {
      "epoch": 0.11241666666666666,
      "grad_norm": 0.6924893260002136,
      "learning_rate": 0.00029133798995781025,
      "loss": 3.9523,
      "step": 53960
    },
    {
      "epoch": 0.1124375,
      "grad_norm": 0.8436433672904968,
      "learning_rate": 0.0002913346880113354,
      "loss": 3.9559,
      "step": 53970
    },
    {
      "epoch": 0.11245833333333333,
      "grad_norm": 0.8140881657600403,
      "learning_rate": 0.00029133138545435065,
      "loss": 3.9539,
      "step": 53980
    },
    {
      "epoch": 0.11247916666666667,
      "grad_norm": 0.7920872569084167,
      "learning_rate": 0.00029132808228687023,
      "loss": 4.0456,
      "step": 53990
    },
    {
      "epoch": 0.1125,
      "grad_norm": 0.8136446475982666,
      "learning_rate": 0.0002913247785089084,
      "loss": 4.0914,
      "step": 54000
    },
    {
      "epoch": 0.1125,
      "eval_loss": 4.280838966369629,
      "eval_runtime": 10.6116,
      "eval_samples_per_second": 0.942,
      "eval_steps_per_second": 0.283,
      "step": 54000
    },
    {
      "epoch": 0.11252083333333333,
      "grad_norm": 0.77712482213974,
      "learning_rate": 0.00029132147412047957,
      "loss": 3.9758,
      "step": 54010
    },
    {
      "epoch": 0.11254166666666666,
      "grad_norm": 0.8757309913635254,
      "learning_rate": 0.00029131816912159785,
      "loss": 4.0426,
      "step": 54020
    },
    {
      "epoch": 0.1125625,
      "grad_norm": 0.7290351986885071,
      "learning_rate": 0.00029131486351227756,
      "loss": 3.9122,
      "step": 54030
    },
    {
      "epoch": 0.11258333333333333,
      "grad_norm": 0.7096030712127686,
      "learning_rate": 0.000291311557292533,
      "loss": 3.8814,
      "step": 54040
    },
    {
      "epoch": 0.11260416666666667,
      "grad_norm": 0.8860689401626587,
      "learning_rate": 0.0002913082504623785,
      "loss": 3.8465,
      "step": 54050
    },
    {
      "epoch": 0.112625,
      "grad_norm": 0.76201331615448,
      "learning_rate": 0.00029130494302182826,
      "loss": 3.98,
      "step": 54060
    },
    {
      "epoch": 0.11264583333333333,
      "grad_norm": 0.779542863368988,
      "learning_rate": 0.0002913016349708966,
      "loss": 4.1541,
      "step": 54070
    },
    {
      "epoch": 0.11266666666666666,
      "grad_norm": 0.985028088092804,
      "learning_rate": 0.0002912983263095978,
      "loss": 3.8634,
      "step": 54080
    },
    {
      "epoch": 0.1126875,
      "grad_norm": 0.8575774431228638,
      "learning_rate": 0.00029129501703794615,
      "loss": 3.8876,
      "step": 54090
    },
    {
      "epoch": 0.11270833333333333,
      "grad_norm": 0.7997328639030457,
      "learning_rate": 0.00029129170715595597,
      "loss": 4.0255,
      "step": 54100
    },
    {
      "epoch": 0.11272916666666667,
      "grad_norm": 0.7222681045532227,
      "learning_rate": 0.0002912883966636415,
      "loss": 4.0313,
      "step": 54110
    },
    {
      "epoch": 0.11275,
      "grad_norm": 0.8360675573348999,
      "learning_rate": 0.00029128508556101716,
      "loss": 4.2073,
      "step": 54120
    },
    {
      "epoch": 0.11277083333333333,
      "grad_norm": 0.81132972240448,
      "learning_rate": 0.00029128177384809715,
      "loss": 4.0361,
      "step": 54130
    },
    {
      "epoch": 0.11279166666666667,
      "grad_norm": 0.7303118109703064,
      "learning_rate": 0.00029127846152489573,
      "loss": 3.9028,
      "step": 54140
    },
    {
      "epoch": 0.1128125,
      "grad_norm": 0.8683115839958191,
      "learning_rate": 0.0002912751485914274,
      "loss": 3.9677,
      "step": 54150
    },
    {
      "epoch": 0.11283333333333333,
      "grad_norm": 0.8812719583511353,
      "learning_rate": 0.0002912718350477063,
      "loss": 3.996,
      "step": 54160
    },
    {
      "epoch": 0.11285416666666667,
      "grad_norm": 0.8308274745941162,
      "learning_rate": 0.0002912685208937467,
      "loss": 3.8356,
      "step": 54170
    },
    {
      "epoch": 0.112875,
      "grad_norm": 0.6979871988296509,
      "learning_rate": 0.0002912652061295631,
      "loss": 4.0132,
      "step": 54180
    },
    {
      "epoch": 0.11289583333333333,
      "grad_norm": 0.9117338061332703,
      "learning_rate": 0.0002912618907551697,
      "loss": 3.9262,
      "step": 54190
    },
    {
      "epoch": 0.11291666666666667,
      "grad_norm": 0.8472652435302734,
      "learning_rate": 0.00029125857477058087,
      "loss": 4.0324,
      "step": 54200
    },
    {
      "epoch": 0.1129375,
      "grad_norm": 0.743266224861145,
      "learning_rate": 0.0002912552581758109,
      "loss": 4.0731,
      "step": 54210
    },
    {
      "epoch": 0.11295833333333333,
      "grad_norm": 0.7494754791259766,
      "learning_rate": 0.00029125194097087416,
      "loss": 4.1534,
      "step": 54220
    },
    {
      "epoch": 0.11297916666666667,
      "grad_norm": 0.751899242401123,
      "learning_rate": 0.0002912486231557849,
      "loss": 4.0764,
      "step": 54230
    },
    {
      "epoch": 0.113,
      "grad_norm": 0.7224110960960388,
      "learning_rate": 0.0002912453047305575,
      "loss": 3.9223,
      "step": 54240
    },
    {
      "epoch": 0.11302083333333333,
      "grad_norm": 0.8038419485092163,
      "learning_rate": 0.00029124198569520636,
      "loss": 3.8798,
      "step": 54250
    },
    {
      "epoch": 0.11304166666666667,
      "grad_norm": 0.6930558681488037,
      "learning_rate": 0.00029123866604974566,
      "loss": 3.9899,
      "step": 54260
    },
    {
      "epoch": 0.1130625,
      "grad_norm": 0.7548181414604187,
      "learning_rate": 0.00029123534579418987,
      "loss": 3.8553,
      "step": 54270
    },
    {
      "epoch": 0.11308333333333333,
      "grad_norm": 0.7979262471199036,
      "learning_rate": 0.00029123202492855325,
      "loss": 4.0494,
      "step": 54280
    },
    {
      "epoch": 0.11310416666666667,
      "grad_norm": 0.7424187660217285,
      "learning_rate": 0.0002912287034528502,
      "loss": 3.9087,
      "step": 54290
    },
    {
      "epoch": 0.113125,
      "grad_norm": 0.8549516797065735,
      "learning_rate": 0.00029122538136709507,
      "loss": 3.8293,
      "step": 54300
    },
    {
      "epoch": 0.11314583333333333,
      "grad_norm": 0.717536211013794,
      "learning_rate": 0.00029122205867130224,
      "loss": 4.023,
      "step": 54310
    },
    {
      "epoch": 0.11316666666666667,
      "grad_norm": 0.8807007074356079,
      "learning_rate": 0.00029121873536548594,
      "loss": 4.0192,
      "step": 54320
    },
    {
      "epoch": 0.1131875,
      "grad_norm": 0.7513592839241028,
      "learning_rate": 0.00029121541144966063,
      "loss": 4.0564,
      "step": 54330
    },
    {
      "epoch": 0.11320833333333333,
      "grad_norm": 0.7990778088569641,
      "learning_rate": 0.00029121208692384063,
      "loss": 3.9472,
      "step": 54340
    },
    {
      "epoch": 0.11322916666666667,
      "grad_norm": 0.7603349089622498,
      "learning_rate": 0.00029120876178804036,
      "loss": 4.0012,
      "step": 54350
    },
    {
      "epoch": 0.11325,
      "grad_norm": 0.8535602688789368,
      "learning_rate": 0.00029120543604227407,
      "loss": 4.0624,
      "step": 54360
    },
    {
      "epoch": 0.11327083333333333,
      "grad_norm": 0.8001286387443542,
      "learning_rate": 0.0002912021096865562,
      "loss": 4.0139,
      "step": 54370
    },
    {
      "epoch": 0.11329166666666667,
      "grad_norm": 0.8954506516456604,
      "learning_rate": 0.00029119878272090117,
      "loss": 3.9726,
      "step": 54380
    },
    {
      "epoch": 0.1133125,
      "grad_norm": 0.7244200706481934,
      "learning_rate": 0.0002911954551453232,
      "loss": 3.853,
      "step": 54390
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 0.9759459495544434,
      "learning_rate": 0.0002911921269598368,
      "loss": 3.9457,
      "step": 54400
    },
    {
      "epoch": 0.11335416666666667,
      "grad_norm": 0.8425066471099854,
      "learning_rate": 0.0002911887981644563,
      "loss": 3.8838,
      "step": 54410
    },
    {
      "epoch": 0.113375,
      "grad_norm": 1.0385279655456543,
      "learning_rate": 0.0002911854687591961,
      "loss": 3.8266,
      "step": 54420
    },
    {
      "epoch": 0.11339583333333333,
      "grad_norm": 1.0086040496826172,
      "learning_rate": 0.0002911821387440705,
      "loss": 4.2336,
      "step": 54430
    },
    {
      "epoch": 0.11341666666666667,
      "grad_norm": 0.8561246991157532,
      "learning_rate": 0.00029117880811909395,
      "loss": 3.9645,
      "step": 54440
    },
    {
      "epoch": 0.1134375,
      "grad_norm": 0.7583532333374023,
      "learning_rate": 0.0002911754768842809,
      "loss": 3.7842,
      "step": 54450
    },
    {
      "epoch": 0.11345833333333333,
      "grad_norm": 0.7862679362297058,
      "learning_rate": 0.0002911721450396456,
      "loss": 3.9556,
      "step": 54460
    },
    {
      "epoch": 0.11347916666666667,
      "grad_norm": 0.7411077618598938,
      "learning_rate": 0.00029116881258520254,
      "loss": 4.059,
      "step": 54470
    },
    {
      "epoch": 0.1135,
      "grad_norm": 0.6947376132011414,
      "learning_rate": 0.00029116547952096614,
      "loss": 4.0333,
      "step": 54480
    },
    {
      "epoch": 0.11352083333333333,
      "grad_norm": 0.7771292328834534,
      "learning_rate": 0.0002911621458469507,
      "loss": 3.9279,
      "step": 54490
    },
    {
      "epoch": 0.11354166666666667,
      "grad_norm": 0.7524527907371521,
      "learning_rate": 0.0002911588115631706,
      "loss": 4.2295,
      "step": 54500
    },
    {
      "epoch": 0.1135625,
      "grad_norm": 1.6225998401641846,
      "learning_rate": 0.0002911554766696404,
      "loss": 4.0799,
      "step": 54510
    },
    {
      "epoch": 0.11358333333333333,
      "grad_norm": 0.9445501565933228,
      "learning_rate": 0.00029115214116637436,
      "loss": 4.0504,
      "step": 54520
    },
    {
      "epoch": 0.11360416666666667,
      "grad_norm": 0.8149837255477905,
      "learning_rate": 0.00029114880505338694,
      "loss": 3.9698,
      "step": 54530
    },
    {
      "epoch": 0.113625,
      "grad_norm": 0.7575581669807434,
      "learning_rate": 0.0002911454683306926,
      "loss": 4.2666,
      "step": 54540
    },
    {
      "epoch": 0.11364583333333333,
      "grad_norm": 0.7737521529197693,
      "learning_rate": 0.0002911421309983057,
      "loss": 3.8698,
      "step": 54550
    },
    {
      "epoch": 0.11366666666666667,
      "grad_norm": 1.0397659540176392,
      "learning_rate": 0.0002911387930562406,
      "loss": 3.9867,
      "step": 54560
    },
    {
      "epoch": 0.1136875,
      "grad_norm": 0.789445161819458,
      "learning_rate": 0.00029113545450451186,
      "loss": 4.0222,
      "step": 54570
    },
    {
      "epoch": 0.11370833333333333,
      "grad_norm": 0.9298253655433655,
      "learning_rate": 0.0002911321153431338,
      "loss": 4.2021,
      "step": 54580
    },
    {
      "epoch": 0.11372916666666667,
      "grad_norm": 1.0476429462432861,
      "learning_rate": 0.0002911287755721209,
      "loss": 4.1678,
      "step": 54590
    },
    {
      "epoch": 0.11375,
      "grad_norm": 0.8239476680755615,
      "learning_rate": 0.00029112543519148744,
      "loss": 4.0078,
      "step": 54600
    },
    {
      "epoch": 0.11377083333333333,
      "grad_norm": 0.8165156245231628,
      "learning_rate": 0.00029112209420124803,
      "loss": 3.896,
      "step": 54610
    },
    {
      "epoch": 0.11379166666666667,
      "grad_norm": 0.8070113062858582,
      "learning_rate": 0.00029111875260141705,
      "loss": 3.9147,
      "step": 54620
    },
    {
      "epoch": 0.1138125,
      "grad_norm": 0.8266675472259521,
      "learning_rate": 0.0002911154103920089,
      "loss": 4.0051,
      "step": 54630
    },
    {
      "epoch": 0.11383333333333333,
      "grad_norm": 0.8317335247993469,
      "learning_rate": 0.00029111206757303804,
      "loss": 3.9733,
      "step": 54640
    },
    {
      "epoch": 0.11385416666666667,
      "grad_norm": 0.840154767036438,
      "learning_rate": 0.00029110872414451886,
      "loss": 3.9761,
      "step": 54650
    },
    {
      "epoch": 0.113875,
      "grad_norm": 0.7286726832389832,
      "learning_rate": 0.0002911053801064659,
      "loss": 4.0047,
      "step": 54660
    },
    {
      "epoch": 0.11389583333333334,
      "grad_norm": 0.841788649559021,
      "learning_rate": 0.00029110203545889353,
      "loss": 3.9343,
      "step": 54670
    },
    {
      "epoch": 0.11391666666666667,
      "grad_norm": 0.8023160696029663,
      "learning_rate": 0.0002910986902018162,
      "loss": 4.0907,
      "step": 54680
    },
    {
      "epoch": 0.1139375,
      "grad_norm": 0.7802908420562744,
      "learning_rate": 0.0002910953443352484,
      "loss": 3.8565,
      "step": 54690
    },
    {
      "epoch": 0.11395833333333333,
      "grad_norm": 1.0106667280197144,
      "learning_rate": 0.0002910919978592046,
      "loss": 4.0557,
      "step": 54700
    },
    {
      "epoch": 0.11397916666666667,
      "grad_norm": 0.6741986274719238,
      "learning_rate": 0.0002910886507736992,
      "loss": 3.8516,
      "step": 54710
    },
    {
      "epoch": 0.114,
      "grad_norm": 0.7139117121696472,
      "learning_rate": 0.0002910853030787466,
      "loss": 4.0426,
      "step": 54720
    },
    {
      "epoch": 0.11402083333333334,
      "grad_norm": 0.7387940287590027,
      "learning_rate": 0.00029108195477436146,
      "loss": 4.1256,
      "step": 54730
    },
    {
      "epoch": 0.11404166666666667,
      "grad_norm": 0.8619028925895691,
      "learning_rate": 0.000291078605860558,
      "loss": 3.851,
      "step": 54740
    },
    {
      "epoch": 0.1140625,
      "grad_norm": 0.8429527878761292,
      "learning_rate": 0.0002910752563373509,
      "loss": 4.1251,
      "step": 54750
    },
    {
      "epoch": 0.11408333333333333,
      "grad_norm": 0.7705411314964294,
      "learning_rate": 0.00029107190620475447,
      "loss": 4.0714,
      "step": 54760
    },
    {
      "epoch": 0.11410416666666667,
      "grad_norm": 0.7936342358589172,
      "learning_rate": 0.00029106855546278326,
      "loss": 3.9697,
      "step": 54770
    },
    {
      "epoch": 0.114125,
      "grad_norm": 0.7898793816566467,
      "learning_rate": 0.0002910652041114517,
      "loss": 4.0045,
      "step": 54780
    },
    {
      "epoch": 0.11414583333333334,
      "grad_norm": 0.8115124702453613,
      "learning_rate": 0.0002910618521507744,
      "loss": 4.1036,
      "step": 54790
    },
    {
      "epoch": 0.11416666666666667,
      "grad_norm": 0.7644979953765869,
      "learning_rate": 0.00029105849958076566,
      "loss": 3.9279,
      "step": 54800
    },
    {
      "epoch": 0.1141875,
      "grad_norm": 0.7506288290023804,
      "learning_rate": 0.00029105514640144004,
      "loss": 4.0457,
      "step": 54810
    },
    {
      "epoch": 0.11420833333333333,
      "grad_norm": 0.8403288125991821,
      "learning_rate": 0.00029105179261281204,
      "loss": 3.8715,
      "step": 54820
    },
    {
      "epoch": 0.11422916666666667,
      "grad_norm": 0.8105493187904358,
      "learning_rate": 0.00029104843821489614,
      "loss": 3.9632,
      "step": 54830
    },
    {
      "epoch": 0.11425,
      "grad_norm": 0.7322739958763123,
      "learning_rate": 0.0002910450832077067,
      "loss": 4.0979,
      "step": 54840
    },
    {
      "epoch": 0.11427083333333334,
      "grad_norm": 0.8530154228210449,
      "learning_rate": 0.0002910417275912585,
      "loss": 4.0981,
      "step": 54850
    },
    {
      "epoch": 0.11429166666666667,
      "grad_norm": 0.9795765280723572,
      "learning_rate": 0.00029103837136556577,
      "loss": 4.1436,
      "step": 54860
    },
    {
      "epoch": 0.1143125,
      "grad_norm": 0.7400732636451721,
      "learning_rate": 0.0002910350145306431,
      "loss": 3.9806,
      "step": 54870
    },
    {
      "epoch": 0.11433333333333333,
      "grad_norm": 0.7170628905296326,
      "learning_rate": 0.000291031657086505,
      "loss": 4.07,
      "step": 54880
    },
    {
      "epoch": 0.11435416666666667,
      "grad_norm": 0.8993966579437256,
      "learning_rate": 0.000291028299033166,
      "loss": 4.0839,
      "step": 54890
    },
    {
      "epoch": 0.114375,
      "grad_norm": 0.8258939385414124,
      "learning_rate": 0.00029102494037064054,
      "loss": 3.7945,
      "step": 54900
    },
    {
      "epoch": 0.11439583333333334,
      "grad_norm": 0.7812408208847046,
      "learning_rate": 0.0002910215810989432,
      "loss": 3.8222,
      "step": 54910
    },
    {
      "epoch": 0.11441666666666667,
      "grad_norm": 0.7441757321357727,
      "learning_rate": 0.0002910182212180884,
      "loss": 3.9879,
      "step": 54920
    },
    {
      "epoch": 0.1144375,
      "grad_norm": 0.836484968662262,
      "learning_rate": 0.0002910148607280907,
      "loss": 4.048,
      "step": 54930
    },
    {
      "epoch": 0.11445833333333333,
      "grad_norm": 0.844278872013092,
      "learning_rate": 0.00029101149962896465,
      "loss": 4.0222,
      "step": 54940
    },
    {
      "epoch": 0.11447916666666667,
      "grad_norm": 0.7436351776123047,
      "learning_rate": 0.00029100813792072474,
      "loss": 4.1547,
      "step": 54950
    },
    {
      "epoch": 0.1145,
      "grad_norm": 0.8790718913078308,
      "learning_rate": 0.0002910047756033854,
      "loss": 3.9384,
      "step": 54960
    },
    {
      "epoch": 0.11452083333333334,
      "grad_norm": 1.0069365501403809,
      "learning_rate": 0.0002910014126769614,
      "loss": 4.1157,
      "step": 54970
    },
    {
      "epoch": 0.11454166666666667,
      "grad_norm": 0.7754048705101013,
      "learning_rate": 0.000290998049141467,
      "loss": 3.9471,
      "step": 54980
    },
    {
      "epoch": 0.1145625,
      "grad_norm": 0.7519248127937317,
      "learning_rate": 0.00029099468499691687,
      "loss": 3.9414,
      "step": 54990
    },
    {
      "epoch": 0.11458333333333333,
      "grad_norm": 0.7190216779708862,
      "learning_rate": 0.0002909913202433255,
      "loss": 3.9746,
      "step": 55000
    },
    {
      "epoch": 0.11458333333333333,
      "eval_loss": 4.282595157623291,
      "eval_runtime": 8.7917,
      "eval_samples_per_second": 1.137,
      "eval_steps_per_second": 0.341,
      "step": 55000
    },
    {
      "epoch": 0.11460416666666666,
      "grad_norm": 0.73598313331604,
      "learning_rate": 0.0002909879548807075,
      "loss": 3.798,
      "step": 55010
    },
    {
      "epoch": 0.114625,
      "grad_norm": 0.7681795954704285,
      "learning_rate": 0.00029098458890907726,
      "loss": 3.9372,
      "step": 55020
    },
    {
      "epoch": 0.11464583333333334,
      "grad_norm": 0.8460932374000549,
      "learning_rate": 0.0002909812223284494,
      "loss": 4.1843,
      "step": 55030
    },
    {
      "epoch": 0.11466666666666667,
      "grad_norm": 0.8196831345558167,
      "learning_rate": 0.0002909778551388385,
      "loss": 4.1184,
      "step": 55040
    },
    {
      "epoch": 0.1146875,
      "grad_norm": 0.6837860345840454,
      "learning_rate": 0.000290974487340259,
      "loss": 3.992,
      "step": 55050
    },
    {
      "epoch": 0.11470833333333333,
      "grad_norm": 0.843625545501709,
      "learning_rate": 0.0002909711189327256,
      "loss": 3.8545,
      "step": 55060
    },
    {
      "epoch": 0.11472916666666666,
      "grad_norm": 0.7268226146697998,
      "learning_rate": 0.0002909677499162528,
      "loss": 3.9443,
      "step": 55070
    },
    {
      "epoch": 0.11475,
      "grad_norm": 0.7199708819389343,
      "learning_rate": 0.000290964380290855,
      "loss": 4.0985,
      "step": 55080
    },
    {
      "epoch": 0.11477083333333334,
      "grad_norm": 0.7235242128372192,
      "learning_rate": 0.00029096101005654697,
      "loss": 4.0323,
      "step": 55090
    },
    {
      "epoch": 0.11479166666666667,
      "grad_norm": 0.7907050251960754,
      "learning_rate": 0.0002909576392133431,
      "loss": 3.9805,
      "step": 55100
    },
    {
      "epoch": 0.1148125,
      "grad_norm": 0.8369475603103638,
      "learning_rate": 0.0002909542677612581,
      "loss": 3.9457,
      "step": 55110
    },
    {
      "epoch": 0.11483333333333333,
      "grad_norm": 0.8142032623291016,
      "learning_rate": 0.0002909508957003064,
      "loss": 3.759,
      "step": 55120
    },
    {
      "epoch": 0.11485416666666666,
      "grad_norm": 0.9956970810890198,
      "learning_rate": 0.00029094752303050265,
      "loss": 4.0784,
      "step": 55130
    },
    {
      "epoch": 0.114875,
      "grad_norm": 0.7185103297233582,
      "learning_rate": 0.00029094414975186137,
      "loss": 3.9774,
      "step": 55140
    },
    {
      "epoch": 0.11489583333333334,
      "grad_norm": 0.7733570337295532,
      "learning_rate": 0.00029094077586439715,
      "loss": 4.0479,
      "step": 55150
    },
    {
      "epoch": 0.11491666666666667,
      "grad_norm": 0.7490519285202026,
      "learning_rate": 0.0002909374013681246,
      "loss": 3.8437,
      "step": 55160
    },
    {
      "epoch": 0.1149375,
      "grad_norm": 0.8149108290672302,
      "learning_rate": 0.00029093402626305826,
      "loss": 4.1582,
      "step": 55170
    },
    {
      "epoch": 0.11495833333333333,
      "grad_norm": 0.7319273948669434,
      "learning_rate": 0.00029093065054921265,
      "loss": 4.1906,
      "step": 55180
    },
    {
      "epoch": 0.11497916666666666,
      "grad_norm": 0.7475303411483765,
      "learning_rate": 0.0002909272742266025,
      "loss": 3.926,
      "step": 55190
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.8271916508674622,
      "learning_rate": 0.0002909238972952423,
      "loss": 3.9795,
      "step": 55200
    },
    {
      "epoch": 0.11502083333333334,
      "grad_norm": 1.2443183660507202,
      "learning_rate": 0.00029092051975514654,
      "loss": 3.9289,
      "step": 55210
    },
    {
      "epoch": 0.11504166666666667,
      "grad_norm": 0.8365421295166016,
      "learning_rate": 0.00029091714160633003,
      "loss": 3.9704,
      "step": 55220
    },
    {
      "epoch": 0.1150625,
      "grad_norm": 0.8995363116264343,
      "learning_rate": 0.0002909137628488072,
      "loss": 3.9971,
      "step": 55230
    },
    {
      "epoch": 0.11508333333333333,
      "grad_norm": 0.7884370684623718,
      "learning_rate": 0.0002909103834825927,
      "loss": 3.9981,
      "step": 55240
    },
    {
      "epoch": 0.11510416666666666,
      "grad_norm": 0.8233088850975037,
      "learning_rate": 0.0002909070035077011,
      "loss": 3.686,
      "step": 55250
    },
    {
      "epoch": 0.115125,
      "grad_norm": 0.7961454391479492,
      "learning_rate": 0.00029090362292414707,
      "loss": 3.9204,
      "step": 55260
    },
    {
      "epoch": 0.11514583333333334,
      "grad_norm": 0.7829490900039673,
      "learning_rate": 0.0002909002417319451,
      "loss": 3.9261,
      "step": 55270
    },
    {
      "epoch": 0.11516666666666667,
      "grad_norm": 0.8642953038215637,
      "learning_rate": 0.0002908968599311099,
      "loss": 4.0254,
      "step": 55280
    },
    {
      "epoch": 0.1151875,
      "grad_norm": 0.7104470133781433,
      "learning_rate": 0.00029089347752165603,
      "loss": 4.0673,
      "step": 55290
    },
    {
      "epoch": 0.11520833333333333,
      "grad_norm": 0.8956674933433533,
      "learning_rate": 0.0002908900945035981,
      "loss": 3.9517,
      "step": 55300
    },
    {
      "epoch": 0.11522916666666666,
      "grad_norm": 0.7470389008522034,
      "learning_rate": 0.00029088671087695075,
      "loss": 4.1541,
      "step": 55310
    },
    {
      "epoch": 0.11525,
      "grad_norm": 0.9496526122093201,
      "learning_rate": 0.00029088332664172856,
      "loss": 4.0236,
      "step": 55320
    },
    {
      "epoch": 0.11527083333333334,
      "grad_norm": 1.01850426197052,
      "learning_rate": 0.0002908799417979461,
      "loss": 3.9318,
      "step": 55330
    },
    {
      "epoch": 0.11529166666666667,
      "grad_norm": 0.7430797815322876,
      "learning_rate": 0.00029087655634561815,
      "loss": 3.9599,
      "step": 55340
    },
    {
      "epoch": 0.1153125,
      "grad_norm": 0.8040732741355896,
      "learning_rate": 0.00029087317028475925,
      "loss": 3.9796,
      "step": 55350
    },
    {
      "epoch": 0.11533333333333333,
      "grad_norm": 0.8098499774932861,
      "learning_rate": 0.0002908697836153839,
      "loss": 4.0783,
      "step": 55360
    },
    {
      "epoch": 0.11535416666666666,
      "grad_norm": 0.7171045541763306,
      "learning_rate": 0.00029086639633750695,
      "loss": 4.1597,
      "step": 55370
    },
    {
      "epoch": 0.115375,
      "grad_norm": 0.7111401557922363,
      "learning_rate": 0.00029086300845114287,
      "loss": 4.1104,
      "step": 55380
    },
    {
      "epoch": 0.11539583333333334,
      "grad_norm": 0.7866699695587158,
      "learning_rate": 0.0002908596199563064,
      "loss": 4.2086,
      "step": 55390
    },
    {
      "epoch": 0.11541666666666667,
      "grad_norm": 0.9305040240287781,
      "learning_rate": 0.0002908562308530121,
      "loss": 4.0552,
      "step": 55400
    },
    {
      "epoch": 0.1154375,
      "grad_norm": 0.9883685111999512,
      "learning_rate": 0.0002908528411412746,
      "loss": 4.0012,
      "step": 55410
    },
    {
      "epoch": 0.11545833333333333,
      "grad_norm": 0.740370512008667,
      "learning_rate": 0.00029084945082110867,
      "loss": 3.8837,
      "step": 55420
    },
    {
      "epoch": 0.11547916666666666,
      "grad_norm": 0.8016185760498047,
      "learning_rate": 0.0002908460598925288,
      "loss": 4.0965,
      "step": 55430
    },
    {
      "epoch": 0.1155,
      "grad_norm": 1.0470367670059204,
      "learning_rate": 0.0002908426683555497,
      "loss": 4.0223,
      "step": 55440
    },
    {
      "epoch": 0.11552083333333334,
      "grad_norm": 0.7940205335617065,
      "learning_rate": 0.00029083927621018606,
      "loss": 4.0373,
      "step": 55450
    },
    {
      "epoch": 0.11554166666666667,
      "grad_norm": 0.8199257850646973,
      "learning_rate": 0.0002908358834564525,
      "loss": 4.0781,
      "step": 55460
    },
    {
      "epoch": 0.1155625,
      "grad_norm": 0.8272666335105896,
      "learning_rate": 0.0002908324900943636,
      "loss": 4.0151,
      "step": 55470
    },
    {
      "epoch": 0.11558333333333333,
      "grad_norm": 0.8007349967956543,
      "learning_rate": 0.0002908290961239341,
      "loss": 4.1157,
      "step": 55480
    },
    {
      "epoch": 0.11560416666666666,
      "grad_norm": 0.7423064112663269,
      "learning_rate": 0.0002908257015451787,
      "loss": 3.9899,
      "step": 55490
    },
    {
      "epoch": 0.115625,
      "grad_norm": 0.807608425617218,
      "learning_rate": 0.000290822306358112,
      "loss": 4.0666,
      "step": 55500
    },
    {
      "epoch": 0.11564583333333334,
      "grad_norm": 0.7157126069068909,
      "learning_rate": 0.00029081891056274866,
      "loss": 4.1128,
      "step": 55510
    },
    {
      "epoch": 0.11566666666666667,
      "grad_norm": 0.6915614008903503,
      "learning_rate": 0.00029081551415910335,
      "loss": 4.0052,
      "step": 55520
    },
    {
      "epoch": 0.1156875,
      "grad_norm": 0.8019481897354126,
      "learning_rate": 0.0002908121171471908,
      "loss": 3.9401,
      "step": 55530
    },
    {
      "epoch": 0.11570833333333333,
      "grad_norm": 0.7448357343673706,
      "learning_rate": 0.0002908087195270257,
      "loss": 3.8767,
      "step": 55540
    },
    {
      "epoch": 0.11572916666666666,
      "grad_norm": 0.8862829804420471,
      "learning_rate": 0.0002908053212986225,
      "loss": 4.1034,
      "step": 55550
    },
    {
      "epoch": 0.11575,
      "grad_norm": 0.8475197553634644,
      "learning_rate": 0.0002908019224619962,
      "loss": 3.927,
      "step": 55560
    },
    {
      "epoch": 0.11577083333333334,
      "grad_norm": 0.7861827611923218,
      "learning_rate": 0.0002907985230171612,
      "loss": 3.9181,
      "step": 55570
    },
    {
      "epoch": 0.11579166666666667,
      "grad_norm": 0.8424199223518372,
      "learning_rate": 0.0002907951229641324,
      "loss": 4.0166,
      "step": 55580
    },
    {
      "epoch": 0.1158125,
      "grad_norm": 0.9093542098999023,
      "learning_rate": 0.0002907917223029244,
      "loss": 4.0245,
      "step": 55590
    },
    {
      "epoch": 0.11583333333333333,
      "grad_norm": 0.8418501019477844,
      "learning_rate": 0.00029078832103355184,
      "loss": 3.9185,
      "step": 55600
    },
    {
      "epoch": 0.11585416666666666,
      "grad_norm": 0.8773674368858337,
      "learning_rate": 0.0002907849191560295,
      "loss": 3.928,
      "step": 55610
    },
    {
      "epoch": 0.115875,
      "grad_norm": 0.7624064683914185,
      "learning_rate": 0.000290781516670372,
      "loss": 3.8843,
      "step": 55620
    },
    {
      "epoch": 0.11589583333333334,
      "grad_norm": 0.8128445744514465,
      "learning_rate": 0.00029077811357659415,
      "loss": 3.8105,
      "step": 55630
    },
    {
      "epoch": 0.11591666666666667,
      "grad_norm": 0.8106861114501953,
      "learning_rate": 0.0002907747098747105,
      "loss": 4.1633,
      "step": 55640
    },
    {
      "epoch": 0.1159375,
      "grad_norm": 0.9018149971961975,
      "learning_rate": 0.00029077130556473584,
      "loss": 3.9364,
      "step": 55650
    },
    {
      "epoch": 0.11595833333333333,
      "grad_norm": 0.8528909087181091,
      "learning_rate": 0.0002907679006466849,
      "loss": 3.9462,
      "step": 55660
    },
    {
      "epoch": 0.11597916666666666,
      "grad_norm": 0.8209452033042908,
      "learning_rate": 0.0002907644951205723,
      "loss": 3.7773,
      "step": 55670
    },
    {
      "epoch": 0.116,
      "grad_norm": 0.8198520541191101,
      "learning_rate": 0.00029076108898641286,
      "loss": 4.0698,
      "step": 55680
    },
    {
      "epoch": 0.11602083333333334,
      "grad_norm": 0.8322768807411194,
      "learning_rate": 0.0002907576822442212,
      "loss": 3.8771,
      "step": 55690
    },
    {
      "epoch": 0.11604166666666667,
      "grad_norm": 0.7193964123725891,
      "learning_rate": 0.000290754274894012,
      "loss": 3.9011,
      "step": 55700
    },
    {
      "epoch": 0.1160625,
      "grad_norm": 0.8725239038467407,
      "learning_rate": 0.0002907508669358001,
      "loss": 4.0831,
      "step": 55710
    },
    {
      "epoch": 0.11608333333333333,
      "grad_norm": 0.8503686189651489,
      "learning_rate": 0.0002907474583696002,
      "loss": 3.9901,
      "step": 55720
    },
    {
      "epoch": 0.11610416666666666,
      "grad_norm": 0.9531903266906738,
      "learning_rate": 0.00029074404919542693,
      "loss": 3.9642,
      "step": 55730
    },
    {
      "epoch": 0.116125,
      "grad_norm": 0.6778217554092407,
      "learning_rate": 0.0002907406394132951,
      "loss": 4.0851,
      "step": 55740
    },
    {
      "epoch": 0.11614583333333334,
      "grad_norm": 0.7760130167007446,
      "learning_rate": 0.00029073722902321945,
      "loss": 3.9641,
      "step": 55750
    },
    {
      "epoch": 0.11616666666666667,
      "grad_norm": 0.7739828824996948,
      "learning_rate": 0.0002907338180252147,
      "loss": 4.0814,
      "step": 55760
    },
    {
      "epoch": 0.1161875,
      "grad_norm": 0.7053191065788269,
      "learning_rate": 0.00029073040641929546,
      "loss": 3.9444,
      "step": 55770
    },
    {
      "epoch": 0.11620833333333333,
      "grad_norm": 0.852531909942627,
      "learning_rate": 0.0002907269942054767,
      "loss": 3.9877,
      "step": 55780
    },
    {
      "epoch": 0.11622916666666666,
      "grad_norm": 1.0267517566680908,
      "learning_rate": 0.0002907235813837729,
      "loss": 3.8451,
      "step": 55790
    },
    {
      "epoch": 0.11625,
      "grad_norm": 0.684150755405426,
      "learning_rate": 0.000290720167954199,
      "loss": 3.9238,
      "step": 55800
    },
    {
      "epoch": 0.11627083333333334,
      "grad_norm": 0.79072505235672,
      "learning_rate": 0.00029071675391676967,
      "loss": 3.9906,
      "step": 55810
    },
    {
      "epoch": 0.11629166666666667,
      "grad_norm": 0.771257758140564,
      "learning_rate": 0.0002907133392714996,
      "loss": 3.8404,
      "step": 55820
    },
    {
      "epoch": 0.1163125,
      "grad_norm": 0.7140412330627441,
      "learning_rate": 0.00029070992401840373,
      "loss": 4.1559,
      "step": 55830
    },
    {
      "epoch": 0.11633333333333333,
      "grad_norm": 0.7020445466041565,
      "learning_rate": 0.0002907065081574966,
      "loss": 3.9605,
      "step": 55840
    },
    {
      "epoch": 0.11635416666666666,
      "grad_norm": 0.830005407333374,
      "learning_rate": 0.000290703091688793,
      "loss": 4.1671,
      "step": 55850
    },
    {
      "epoch": 0.116375,
      "grad_norm": 0.7565948963165283,
      "learning_rate": 0.00029069967461230786,
      "loss": 4.1292,
      "step": 55860
    },
    {
      "epoch": 0.11639583333333334,
      "grad_norm": 0.7385079860687256,
      "learning_rate": 0.0002906962569280557,
      "loss": 4.0766,
      "step": 55870
    },
    {
      "epoch": 0.11641666666666667,
      "grad_norm": 0.9085128307342529,
      "learning_rate": 0.0002906928386360515,
      "loss": 3.9143,
      "step": 55880
    },
    {
      "epoch": 0.1164375,
      "grad_norm": 0.7843457460403442,
      "learning_rate": 0.0002906894197363099,
      "loss": 4.0831,
      "step": 55890
    },
    {
      "epoch": 0.11645833333333333,
      "grad_norm": 0.87433922290802,
      "learning_rate": 0.00029068600022884566,
      "loss": 3.9345,
      "step": 55900
    },
    {
      "epoch": 0.11647916666666666,
      "grad_norm": 0.7391664385795593,
      "learning_rate": 0.00029068258011367363,
      "loss": 3.8752,
      "step": 55910
    },
    {
      "epoch": 0.1165,
      "grad_norm": 0.7576178312301636,
      "learning_rate": 0.0002906791593908085,
      "loss": 4.0088,
      "step": 55920
    },
    {
      "epoch": 0.11652083333333334,
      "grad_norm": 1.2139042615890503,
      "learning_rate": 0.00029067573806026514,
      "loss": 3.9768,
      "step": 55930
    },
    {
      "epoch": 0.11654166666666667,
      "grad_norm": 0.7836435437202454,
      "learning_rate": 0.00029067231612205823,
      "loss": 3.7968,
      "step": 55940
    },
    {
      "epoch": 0.1165625,
      "grad_norm": 0.9953556656837463,
      "learning_rate": 0.0002906688935762026,
      "loss": 4.075,
      "step": 55950
    },
    {
      "epoch": 0.11658333333333333,
      "grad_norm": 0.854648768901825,
      "learning_rate": 0.000290665470422713,
      "loss": 4.0641,
      "step": 55960
    },
    {
      "epoch": 0.11660416666666666,
      "grad_norm": 0.7571261525154114,
      "learning_rate": 0.00029066204666160434,
      "loss": 4.1727,
      "step": 55970
    },
    {
      "epoch": 0.116625,
      "grad_norm": 0.704644501209259,
      "learning_rate": 0.0002906586222928912,
      "loss": 3.8823,
      "step": 55980
    },
    {
      "epoch": 0.11664583333333334,
      "grad_norm": 0.7479310035705566,
      "learning_rate": 0.0002906551973165886,
      "loss": 3.8376,
      "step": 55990
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 0.720906138420105,
      "learning_rate": 0.00029065177173271116,
      "loss": 4.1812,
      "step": 56000
    },
    {
      "epoch": 0.11666666666666667,
      "eval_loss": 4.294170379638672,
      "eval_runtime": 10.1648,
      "eval_samples_per_second": 0.984,
      "eval_steps_per_second": 0.295,
      "step": 56000
    },
    {
      "epoch": 0.1166875,
      "grad_norm": 1.0072021484375,
      "learning_rate": 0.0002906483455412738,
      "loss": 3.9644,
      "step": 56010
    },
    {
      "epoch": 0.11670833333333333,
      "grad_norm": 0.7951868176460266,
      "learning_rate": 0.0002906449187422912,
      "loss": 3.9939,
      "step": 56020
    },
    {
      "epoch": 0.11672916666666666,
      "grad_norm": 0.7805221080780029,
      "learning_rate": 0.0002906414913357782,
      "loss": 3.9488,
      "step": 56030
    },
    {
      "epoch": 0.11675,
      "grad_norm": 0.8421866297721863,
      "learning_rate": 0.00029063806332174966,
      "loss": 3.9849,
      "step": 56040
    },
    {
      "epoch": 0.11677083333333334,
      "grad_norm": 0.9242716431617737,
      "learning_rate": 0.00029063463470022034,
      "loss": 3.9781,
      "step": 56050
    },
    {
      "epoch": 0.11679166666666667,
      "grad_norm": 1.015456199645996,
      "learning_rate": 0.0002906312054712051,
      "loss": 3.934,
      "step": 56060
    },
    {
      "epoch": 0.1168125,
      "grad_norm": 0.7998828887939453,
      "learning_rate": 0.00029062777563471873,
      "loss": 4.0238,
      "step": 56070
    },
    {
      "epoch": 0.11683333333333333,
      "grad_norm": 0.8360891342163086,
      "learning_rate": 0.000290624345190776,
      "loss": 3.8716,
      "step": 56080
    },
    {
      "epoch": 0.11685416666666666,
      "grad_norm": 0.8539111614227295,
      "learning_rate": 0.00029062091413939174,
      "loss": 4.0141,
      "step": 56090
    },
    {
      "epoch": 0.116875,
      "grad_norm": 0.8749781847000122,
      "learning_rate": 0.0002906174824805808,
      "loss": 4.035,
      "step": 56100
    },
    {
      "epoch": 0.11689583333333334,
      "grad_norm": 0.7206591963768005,
      "learning_rate": 0.00029061405021435803,
      "loss": 3.7986,
      "step": 56110
    },
    {
      "epoch": 0.11691666666666667,
      "grad_norm": 0.8539507389068604,
      "learning_rate": 0.0002906106173407382,
      "loss": 3.9991,
      "step": 56120
    },
    {
      "epoch": 0.1169375,
      "grad_norm": 0.7731249928474426,
      "learning_rate": 0.00029060718385973616,
      "loss": 3.8658,
      "step": 56130
    },
    {
      "epoch": 0.11695833333333333,
      "grad_norm": 0.9616889357566833,
      "learning_rate": 0.00029060374977136675,
      "loss": 4.076,
      "step": 56140
    },
    {
      "epoch": 0.11697916666666666,
      "grad_norm": 0.7676915526390076,
      "learning_rate": 0.00029060031507564484,
      "loss": 4.0837,
      "step": 56150
    },
    {
      "epoch": 0.117,
      "grad_norm": 0.730372428894043,
      "learning_rate": 0.0002905968797725852,
      "loss": 4.0699,
      "step": 56160
    },
    {
      "epoch": 0.11702083333333334,
      "grad_norm": 0.8027395606040955,
      "learning_rate": 0.00029059344386220265,
      "loss": 3.9859,
      "step": 56170
    },
    {
      "epoch": 0.11704166666666667,
      "grad_norm": 0.9086437821388245,
      "learning_rate": 0.00029059000734451206,
      "loss": 3.9054,
      "step": 56180
    },
    {
      "epoch": 0.1170625,
      "grad_norm": 0.7670403718948364,
      "learning_rate": 0.0002905865702195283,
      "loss": 3.8128,
      "step": 56190
    },
    {
      "epoch": 0.11708333333333333,
      "grad_norm": 0.7371429204940796,
      "learning_rate": 0.00029058313248726624,
      "loss": 4.0054,
      "step": 56200
    },
    {
      "epoch": 0.11710416666666666,
      "grad_norm": 0.7469834089279175,
      "learning_rate": 0.0002905796941477407,
      "loss": 3.9199,
      "step": 56210
    },
    {
      "epoch": 0.117125,
      "grad_norm": 0.8273292779922485,
      "learning_rate": 0.0002905762552009665,
      "loss": 4.0637,
      "step": 56220
    },
    {
      "epoch": 0.11714583333333334,
      "grad_norm": 0.8124821186065674,
      "learning_rate": 0.0002905728156469585,
      "loss": 4.0431,
      "step": 56230
    },
    {
      "epoch": 0.11716666666666667,
      "grad_norm": 0.7644612789154053,
      "learning_rate": 0.0002905693754857316,
      "loss": 3.9763,
      "step": 56240
    },
    {
      "epoch": 0.1171875,
      "grad_norm": 0.8196542263031006,
      "learning_rate": 0.0002905659347173007,
      "loss": 4.0209,
      "step": 56250
    },
    {
      "epoch": 0.11720833333333333,
      "grad_norm": 0.8038253784179688,
      "learning_rate": 0.0002905624933416805,
      "loss": 3.8601,
      "step": 56260
    },
    {
      "epoch": 0.11722916666666666,
      "grad_norm": 0.839231550693512,
      "learning_rate": 0.000290559051358886,
      "loss": 3.9017,
      "step": 56270
    },
    {
      "epoch": 0.11725,
      "grad_norm": 0.8437241911888123,
      "learning_rate": 0.00029055560876893203,
      "loss": 4.0724,
      "step": 56280
    },
    {
      "epoch": 0.11727083333333334,
      "grad_norm": 1.0062679052352905,
      "learning_rate": 0.00029055216557183355,
      "loss": 4.0604,
      "step": 56290
    },
    {
      "epoch": 0.11729166666666667,
      "grad_norm": 0.7756459712982178,
      "learning_rate": 0.0002905487217676053,
      "loss": 3.9563,
      "step": 56300
    },
    {
      "epoch": 0.1173125,
      "grad_norm": 0.7308062314987183,
      "learning_rate": 0.00029054527735626216,
      "loss": 4.0162,
      "step": 56310
    },
    {
      "epoch": 0.11733333333333333,
      "grad_norm": 0.7299001216888428,
      "learning_rate": 0.00029054183233781907,
      "loss": 3.8949,
      "step": 56320
    },
    {
      "epoch": 0.11735416666666666,
      "grad_norm": 0.6862199902534485,
      "learning_rate": 0.0002905383867122909,
      "loss": 4.1031,
      "step": 56330
    },
    {
      "epoch": 0.117375,
      "grad_norm": 0.7913153171539307,
      "learning_rate": 0.00029053494047969256,
      "loss": 4.1406,
      "step": 56340
    },
    {
      "epoch": 0.11739583333333334,
      "grad_norm": 0.7869061231613159,
      "learning_rate": 0.00029053149364003885,
      "loss": 3.9387,
      "step": 56350
    },
    {
      "epoch": 0.11741666666666667,
      "grad_norm": 0.8463881015777588,
      "learning_rate": 0.00029052804619334474,
      "loss": 3.8417,
      "step": 56360
    },
    {
      "epoch": 0.1174375,
      "grad_norm": 0.7460780739784241,
      "learning_rate": 0.00029052459813962514,
      "loss": 3.9589,
      "step": 56370
    },
    {
      "epoch": 0.11745833333333333,
      "grad_norm": 0.7711591720581055,
      "learning_rate": 0.00029052114947889483,
      "loss": 3.9987,
      "step": 56380
    },
    {
      "epoch": 0.11747916666666666,
      "grad_norm": 0.7521874308586121,
      "learning_rate": 0.0002905177002111688,
      "loss": 4.1527,
      "step": 56390
    },
    {
      "epoch": 0.1175,
      "grad_norm": 0.8013840317726135,
      "learning_rate": 0.0002905142503364619,
      "loss": 3.9288,
      "step": 56400
    },
    {
      "epoch": 0.11752083333333334,
      "grad_norm": 0.6988744735717773,
      "learning_rate": 0.00029051079985478913,
      "loss": 3.9492,
      "step": 56410
    },
    {
      "epoch": 0.11754166666666667,
      "grad_norm": 0.8298169374465942,
      "learning_rate": 0.00029050734876616527,
      "loss": 4.1224,
      "step": 56420
    },
    {
      "epoch": 0.1175625,
      "grad_norm": 0.8137542009353638,
      "learning_rate": 0.0002905038970706053,
      "loss": 3.9214,
      "step": 56430
    },
    {
      "epoch": 0.11758333333333333,
      "grad_norm": 0.8325487971305847,
      "learning_rate": 0.0002905004447681241,
      "loss": 3.9606,
      "step": 56440
    },
    {
      "epoch": 0.11760416666666666,
      "grad_norm": 0.7756044268608093,
      "learning_rate": 0.0002904969918587366,
      "loss": 3.9073,
      "step": 56450
    },
    {
      "epoch": 0.117625,
      "grad_norm": 0.7984540462493896,
      "learning_rate": 0.0002904935383424577,
      "loss": 4.0296,
      "step": 56460
    },
    {
      "epoch": 0.11764583333333334,
      "grad_norm": 0.901445209980011,
      "learning_rate": 0.0002904900842193023,
      "loss": 3.9374,
      "step": 56470
    },
    {
      "epoch": 0.11766666666666667,
      "grad_norm": 0.7483997941017151,
      "learning_rate": 0.00029048662948928536,
      "loss": 3.8815,
      "step": 56480
    },
    {
      "epoch": 0.1176875,
      "grad_norm": 0.7050619721412659,
      "learning_rate": 0.00029048317415242183,
      "loss": 3.8802,
      "step": 56490
    },
    {
      "epoch": 0.11770833333333333,
      "grad_norm": 0.7509648203849792,
      "learning_rate": 0.00029047971820872655,
      "loss": 4.0597,
      "step": 56500
    },
    {
      "epoch": 0.11772916666666666,
      "grad_norm": 0.7635084986686707,
      "learning_rate": 0.0002904762616582145,
      "loss": 4.0067,
      "step": 56510
    },
    {
      "epoch": 0.11775,
      "grad_norm": 0.768172562122345,
      "learning_rate": 0.00029047280450090064,
      "loss": 3.9561,
      "step": 56520
    },
    {
      "epoch": 0.11777083333333334,
      "grad_norm": 0.7837399244308472,
      "learning_rate": 0.0002904693467367998,
      "loss": 4.1027,
      "step": 56530
    },
    {
      "epoch": 0.11779166666666667,
      "grad_norm": 0.649170994758606,
      "learning_rate": 0.0002904658883659271,
      "loss": 3.8101,
      "step": 56540
    },
    {
      "epoch": 0.1178125,
      "grad_norm": 0.8390010595321655,
      "learning_rate": 0.00029046242938829723,
      "loss": 3.9339,
      "step": 56550
    },
    {
      "epoch": 0.11783333333333333,
      "grad_norm": 0.6965425610542297,
      "learning_rate": 0.0002904589698039253,
      "loss": 4.1883,
      "step": 56560
    },
    {
      "epoch": 0.11785416666666666,
      "grad_norm": 0.7161833047866821,
      "learning_rate": 0.0002904555096128263,
      "loss": 4.0557,
      "step": 56570
    },
    {
      "epoch": 0.117875,
      "grad_norm": 0.7771207094192505,
      "learning_rate": 0.000290452048815015,
      "loss": 3.8829,
      "step": 56580
    },
    {
      "epoch": 0.11789583333333334,
      "grad_norm": 0.8379648327827454,
      "learning_rate": 0.0002904485874105065,
      "loss": 3.794,
      "step": 56590
    },
    {
      "epoch": 0.11791666666666667,
      "grad_norm": 0.7967620491981506,
      "learning_rate": 0.0002904451253993157,
      "loss": 4.0677,
      "step": 56600
    },
    {
      "epoch": 0.1179375,
      "grad_norm": 0.708134651184082,
      "learning_rate": 0.0002904416627814575,
      "loss": 4.0732,
      "step": 56610
    },
    {
      "epoch": 0.11795833333333333,
      "grad_norm": 0.856321394443512,
      "learning_rate": 0.00029043819955694694,
      "loss": 3.9836,
      "step": 56620
    },
    {
      "epoch": 0.11797916666666666,
      "grad_norm": 0.7909742593765259,
      "learning_rate": 0.0002904347357257989,
      "loss": 4.1978,
      "step": 56630
    },
    {
      "epoch": 0.118,
      "grad_norm": 0.8919417858123779,
      "learning_rate": 0.00029043127128802846,
      "loss": 3.9525,
      "step": 56640
    },
    {
      "epoch": 0.11802083333333334,
      "grad_norm": 0.7588236331939697,
      "learning_rate": 0.00029042780624365046,
      "loss": 4.0576,
      "step": 56650
    },
    {
      "epoch": 0.11804166666666667,
      "grad_norm": 0.7503779530525208,
      "learning_rate": 0.00029042434059267994,
      "loss": 3.9877,
      "step": 56660
    },
    {
      "epoch": 0.1180625,
      "grad_norm": 0.8487511873245239,
      "learning_rate": 0.00029042087433513186,
      "loss": 4.0367,
      "step": 56670
    },
    {
      "epoch": 0.11808333333333333,
      "grad_norm": 0.8020816445350647,
      "learning_rate": 0.0002904174074710212,
      "loss": 3.9608,
      "step": 56680
    },
    {
      "epoch": 0.11810416666666666,
      "grad_norm": 0.7633774876594543,
      "learning_rate": 0.00029041394000036287,
      "loss": 3.8165,
      "step": 56690
    },
    {
      "epoch": 0.118125,
      "grad_norm": 0.7290301322937012,
      "learning_rate": 0.000290410471923172,
      "loss": 3.9237,
      "step": 56700
    },
    {
      "epoch": 0.11814583333333334,
      "grad_norm": 0.8135277628898621,
      "learning_rate": 0.0002904070032394634,
      "loss": 3.9668,
      "step": 56710
    },
    {
      "epoch": 0.11816666666666667,
      "grad_norm": 0.7767912745475769,
      "learning_rate": 0.00029040353394925206,
      "loss": 4.0933,
      "step": 56720
    },
    {
      "epoch": 0.1181875,
      "grad_norm": 0.7100511789321899,
      "learning_rate": 0.0002904000640525531,
      "loss": 3.8821,
      "step": 56730
    },
    {
      "epoch": 0.11820833333333333,
      "grad_norm": 0.7678107619285583,
      "learning_rate": 0.00029039659354938147,
      "loss": 3.9072,
      "step": 56740
    },
    {
      "epoch": 0.11822916666666666,
      "grad_norm": 0.8466576337814331,
      "learning_rate": 0.00029039312243975203,
      "loss": 3.9756,
      "step": 56750
    },
    {
      "epoch": 0.11825,
      "grad_norm": 0.849553644657135,
      "learning_rate": 0.00029038965072367996,
      "loss": 4.0272,
      "step": 56760
    },
    {
      "epoch": 0.11827083333333334,
      "grad_norm": 0.744983434677124,
      "learning_rate": 0.0002903861784011802,
      "loss": 4.0276,
      "step": 56770
    },
    {
      "epoch": 0.11829166666666667,
      "grad_norm": 0.8594872355461121,
      "learning_rate": 0.0002903827054722676,
      "loss": 4.1268,
      "step": 56780
    },
    {
      "epoch": 0.1183125,
      "grad_norm": 0.7540897727012634,
      "learning_rate": 0.00029037923193695733,
      "loss": 4.0293,
      "step": 56790
    },
    {
      "epoch": 0.11833333333333333,
      "grad_norm": 0.7658302783966064,
      "learning_rate": 0.00029037575779526436,
      "loss": 4.0225,
      "step": 56800
    },
    {
      "epoch": 0.11835416666666666,
      "grad_norm": 0.785839855670929,
      "learning_rate": 0.0002903722830472037,
      "loss": 3.9472,
      "step": 56810
    },
    {
      "epoch": 0.118375,
      "grad_norm": 0.8608853220939636,
      "learning_rate": 0.0002903688076927903,
      "loss": 3.9085,
      "step": 56820
    },
    {
      "epoch": 0.11839583333333334,
      "grad_norm": 0.7932624220848083,
      "learning_rate": 0.00029036533173203925,
      "loss": 3.8826,
      "step": 56830
    },
    {
      "epoch": 0.11841666666666667,
      "grad_norm": 0.7774642705917358,
      "learning_rate": 0.0002903618551649655,
      "loss": 3.8825,
      "step": 56840
    },
    {
      "epoch": 0.1184375,
      "grad_norm": 0.9357864260673523,
      "learning_rate": 0.0002903583779915841,
      "loss": 3.8193,
      "step": 56850
    },
    {
      "epoch": 0.11845833333333333,
      "grad_norm": 1.0105286836624146,
      "learning_rate": 0.00029035490021191005,
      "loss": 3.8532,
      "step": 56860
    },
    {
      "epoch": 0.11847916666666666,
      "grad_norm": 0.9198535084724426,
      "learning_rate": 0.0002903514218259584,
      "loss": 4.1509,
      "step": 56870
    },
    {
      "epoch": 0.1185,
      "grad_norm": 0.8107229471206665,
      "learning_rate": 0.0002903479428337442,
      "loss": 4.1258,
      "step": 56880
    },
    {
      "epoch": 0.11852083333333334,
      "grad_norm": 0.9385462999343872,
      "learning_rate": 0.0002903444632352824,
      "loss": 4.0722,
      "step": 56890
    },
    {
      "epoch": 0.11854166666666667,
      "grad_norm": 0.925900936126709,
      "learning_rate": 0.000290340983030588,
      "loss": 4.0399,
      "step": 56900
    },
    {
      "epoch": 0.1185625,
      "grad_norm": 0.7664802074432373,
      "learning_rate": 0.0002903375022196762,
      "loss": 3.9003,
      "step": 56910
    },
    {
      "epoch": 0.11858333333333333,
      "grad_norm": 0.7193266749382019,
      "learning_rate": 0.00029033402080256193,
      "loss": 4.0161,
      "step": 56920
    },
    {
      "epoch": 0.11860416666666666,
      "grad_norm": 0.9086200594902039,
      "learning_rate": 0.00029033053877926024,
      "loss": 3.9741,
      "step": 56930
    },
    {
      "epoch": 0.118625,
      "grad_norm": 0.7149487733840942,
      "learning_rate": 0.00029032705614978616,
      "loss": 3.9968,
      "step": 56940
    },
    {
      "epoch": 0.11864583333333334,
      "grad_norm": 0.8417680263519287,
      "learning_rate": 0.00029032357291415475,
      "loss": 3.9027,
      "step": 56950
    },
    {
      "epoch": 0.11866666666666667,
      "grad_norm": 0.8171008825302124,
      "learning_rate": 0.00029032008907238103,
      "loss": 3.8495,
      "step": 56960
    },
    {
      "epoch": 0.1186875,
      "grad_norm": 0.8483561873435974,
      "learning_rate": 0.0002903166046244801,
      "loss": 4.1358,
      "step": 56970
    },
    {
      "epoch": 0.11870833333333333,
      "grad_norm": 0.7300367951393127,
      "learning_rate": 0.0002903131195704669,
      "loss": 4.0694,
      "step": 56980
    },
    {
      "epoch": 0.11872916666666666,
      "grad_norm": 0.977458655834198,
      "learning_rate": 0.00029030963391035665,
      "loss": 3.9041,
      "step": 56990
    },
    {
      "epoch": 0.11875,
      "grad_norm": 0.8423096537590027,
      "learning_rate": 0.0002903061476441643,
      "loss": 4.156,
      "step": 57000
    },
    {
      "epoch": 0.11875,
      "eval_loss": 4.289418697357178,
      "eval_runtime": 9.2602,
      "eval_samples_per_second": 1.08,
      "eval_steps_per_second": 0.324,
      "step": 57000
    },
    {
      "epoch": 0.11877083333333334,
      "grad_norm": 0.8032045960426331,
      "learning_rate": 0.0002903026607719049,
      "loss": 3.8963,
      "step": 57010
    },
    {
      "epoch": 0.11879166666666667,
      "grad_norm": 0.7853243947029114,
      "learning_rate": 0.00029029917329359355,
      "loss": 3.817,
      "step": 57020
    },
    {
      "epoch": 0.1188125,
      "grad_norm": 0.8463734984397888,
      "learning_rate": 0.00029029568520924534,
      "loss": 4.1906,
      "step": 57030
    },
    {
      "epoch": 0.11883333333333333,
      "grad_norm": 0.8580271601676941,
      "learning_rate": 0.0002902921965188753,
      "loss": 3.9037,
      "step": 57040
    },
    {
      "epoch": 0.11885416666666666,
      "grad_norm": 0.8052808046340942,
      "learning_rate": 0.0002902887072224985,
      "loss": 3.9228,
      "step": 57050
    },
    {
      "epoch": 0.118875,
      "grad_norm": 0.8296950459480286,
      "learning_rate": 0.0002902852173201299,
      "loss": 3.9937,
      "step": 57060
    },
    {
      "epoch": 0.11889583333333334,
      "grad_norm": 0.8219202756881714,
      "learning_rate": 0.0002902817268117848,
      "loss": 4.0672,
      "step": 57070
    },
    {
      "epoch": 0.11891666666666667,
      "grad_norm": 0.9269209504127502,
      "learning_rate": 0.0002902782356974782,
      "loss": 3.9802,
      "step": 57080
    },
    {
      "epoch": 0.1189375,
      "grad_norm": 0.7016863822937012,
      "learning_rate": 0.0002902747439772251,
      "loss": 4.199,
      "step": 57090
    },
    {
      "epoch": 0.11895833333333333,
      "grad_norm": 0.7440541386604309,
      "learning_rate": 0.0002902712516510406,
      "loss": 3.8747,
      "step": 57100
    },
    {
      "epoch": 0.11897916666666666,
      "grad_norm": 1.014182209968567,
      "learning_rate": 0.0002902677587189398,
      "loss": 4.0557,
      "step": 57110
    },
    {
      "epoch": 0.119,
      "grad_norm": 0.7321959137916565,
      "learning_rate": 0.0002902642651809379,
      "loss": 3.9967,
      "step": 57120
    },
    {
      "epoch": 0.11902083333333334,
      "grad_norm": 0.875402569770813,
      "learning_rate": 0.00029026077103704983,
      "loss": 3.8565,
      "step": 57130
    },
    {
      "epoch": 0.11904166666666667,
      "grad_norm": 0.7200777530670166,
      "learning_rate": 0.0002902572762872908,
      "loss": 4.0269,
      "step": 57140
    },
    {
      "epoch": 0.1190625,
      "grad_norm": 0.8281102180480957,
      "learning_rate": 0.0002902537809316758,
      "loss": 3.9391,
      "step": 57150
    },
    {
      "epoch": 0.11908333333333333,
      "grad_norm": 0.9346588850021362,
      "learning_rate": 0.00029025028497022,
      "loss": 4.0313,
      "step": 57160
    },
    {
      "epoch": 0.11910416666666666,
      "grad_norm": 0.6934463381767273,
      "learning_rate": 0.0002902467884029385,
      "loss": 3.901,
      "step": 57170
    },
    {
      "epoch": 0.119125,
      "grad_norm": 0.7528210878372192,
      "learning_rate": 0.00029024329122984637,
      "loss": 3.9843,
      "step": 57180
    },
    {
      "epoch": 0.11914583333333334,
      "grad_norm": 0.7208352088928223,
      "learning_rate": 0.0002902397934509587,
      "loss": 3.9529,
      "step": 57190
    },
    {
      "epoch": 0.11916666666666667,
      "grad_norm": 0.744338870048523,
      "learning_rate": 0.0002902362950662907,
      "loss": 4.007,
      "step": 57200
    },
    {
      "epoch": 0.1191875,
      "grad_norm": 1.014168381690979,
      "learning_rate": 0.0002902327960758574,
      "loss": 3.9558,
      "step": 57210
    },
    {
      "epoch": 0.11920833333333333,
      "grad_norm": 0.7708386182785034,
      "learning_rate": 0.0002902292964796739,
      "loss": 4.001,
      "step": 57220
    },
    {
      "epoch": 0.11922916666666666,
      "grad_norm": 0.7542549967765808,
      "learning_rate": 0.00029022579627775534,
      "loss": 3.9229,
      "step": 57230
    },
    {
      "epoch": 0.11925,
      "grad_norm": 0.811883270740509,
      "learning_rate": 0.0002902222954701169,
      "loss": 3.9492,
      "step": 57240
    },
    {
      "epoch": 0.11927083333333334,
      "grad_norm": 0.8610782623291016,
      "learning_rate": 0.0002902187940567736,
      "loss": 4.0416,
      "step": 57250
    },
    {
      "epoch": 0.11929166666666667,
      "grad_norm": 0.8780964612960815,
      "learning_rate": 0.0002902152920377406,
      "loss": 3.817,
      "step": 57260
    },
    {
      "epoch": 0.1193125,
      "grad_norm": 0.7831577658653259,
      "learning_rate": 0.00029021178941303306,
      "loss": 3.9436,
      "step": 57270
    },
    {
      "epoch": 0.11933333333333333,
      "grad_norm": 0.9449195265769958,
      "learning_rate": 0.00029020828618266613,
      "loss": 3.9894,
      "step": 57280
    },
    {
      "epoch": 0.11935416666666666,
      "grad_norm": 0.7411288619041443,
      "learning_rate": 0.00029020478234665487,
      "loss": 4.1149,
      "step": 57290
    },
    {
      "epoch": 0.119375,
      "grad_norm": 1.0932413339614868,
      "learning_rate": 0.0002902012779050144,
      "loss": 3.9984,
      "step": 57300
    },
    {
      "epoch": 0.11939583333333334,
      "grad_norm": 0.7175021767616272,
      "learning_rate": 0.00029019777285775995,
      "loss": 3.9164,
      "step": 57310
    },
    {
      "epoch": 0.11941666666666667,
      "grad_norm": 0.7619694471359253,
      "learning_rate": 0.0002901942672049066,
      "loss": 3.8396,
      "step": 57320
    },
    {
      "epoch": 0.1194375,
      "grad_norm": 0.7155442833900452,
      "learning_rate": 0.0002901907609464696,
      "loss": 4.0507,
      "step": 57330
    },
    {
      "epoch": 0.11945833333333333,
      "grad_norm": 0.810901403427124,
      "learning_rate": 0.00029018725408246385,
      "loss": 4.075,
      "step": 57340
    },
    {
      "epoch": 0.11947916666666666,
      "grad_norm": 0.7877583503723145,
      "learning_rate": 0.00029018374661290476,
      "loss": 3.9334,
      "step": 57350
    },
    {
      "epoch": 0.1195,
      "grad_norm": 0.6841281652450562,
      "learning_rate": 0.0002901802385378073,
      "loss": 3.9745,
      "step": 57360
    },
    {
      "epoch": 0.11952083333333334,
      "grad_norm": 0.7194421291351318,
      "learning_rate": 0.0002901767298571868,
      "loss": 3.7963,
      "step": 57370
    },
    {
      "epoch": 0.11954166666666667,
      "grad_norm": 0.8044936656951904,
      "learning_rate": 0.00029017322057105823,
      "loss": 4.1072,
      "step": 57380
    },
    {
      "epoch": 0.1195625,
      "grad_norm": 0.6797013282775879,
      "learning_rate": 0.00029016971067943686,
      "loss": 3.8046,
      "step": 57390
    },
    {
      "epoch": 0.11958333333333333,
      "grad_norm": 0.7058988213539124,
      "learning_rate": 0.0002901662001823378,
      "loss": 3.9943,
      "step": 57400
    },
    {
      "epoch": 0.11960416666666666,
      "grad_norm": 0.7453915476799011,
      "learning_rate": 0.00029016268907977626,
      "loss": 3.8174,
      "step": 57410
    },
    {
      "epoch": 0.119625,
      "grad_norm": 0.7413231134414673,
      "learning_rate": 0.00029015917737176735,
      "loss": 3.8285,
      "step": 57420
    },
    {
      "epoch": 0.11964583333333334,
      "grad_norm": 0.963411808013916,
      "learning_rate": 0.0002901556650583263,
      "loss": 3.9649,
      "step": 57430
    },
    {
      "epoch": 0.11966666666666667,
      "grad_norm": 0.8033027052879333,
      "learning_rate": 0.00029015215213946824,
      "loss": 4.0453,
      "step": 57440
    },
    {
      "epoch": 0.1196875,
      "grad_norm": 0.7275689840316772,
      "learning_rate": 0.0002901486386152084,
      "loss": 3.9449,
      "step": 57450
    },
    {
      "epoch": 0.11970833333333333,
      "grad_norm": 0.8039407134056091,
      "learning_rate": 0.0002901451244855619,
      "loss": 4.0274,
      "step": 57460
    },
    {
      "epoch": 0.11972916666666666,
      "grad_norm": 0.7624537348747253,
      "learning_rate": 0.00029014160975054395,
      "loss": 4.0496,
      "step": 57470
    },
    {
      "epoch": 0.11975,
      "grad_norm": 0.7164099812507629,
      "learning_rate": 0.0002901380944101697,
      "loss": 4.0209,
      "step": 57480
    },
    {
      "epoch": 0.11977083333333334,
      "grad_norm": 0.8961880207061768,
      "learning_rate": 0.0002901345784644543,
      "loss": 3.8216,
      "step": 57490
    },
    {
      "epoch": 0.11979166666666667,
      "grad_norm": 0.778465211391449,
      "learning_rate": 0.000290131061913413,
      "loss": 3.9904,
      "step": 57500
    },
    {
      "epoch": 0.1198125,
      "grad_norm": 0.903177797794342,
      "learning_rate": 0.000290127544757061,
      "loss": 4.2,
      "step": 57510
    },
    {
      "epoch": 0.11983333333333333,
      "grad_norm": 0.9846578240394592,
      "learning_rate": 0.0002901240269954135,
      "loss": 3.9004,
      "step": 57520
    },
    {
      "epoch": 0.11985416666666666,
      "grad_norm": 0.7411828637123108,
      "learning_rate": 0.0002901205086284857,
      "loss": 4.029,
      "step": 57530
    },
    {
      "epoch": 0.119875,
      "grad_norm": 0.7959527373313904,
      "learning_rate": 0.00029011698965629266,
      "loss": 3.7633,
      "step": 57540
    },
    {
      "epoch": 0.11989583333333333,
      "grad_norm": 0.6706412434577942,
      "learning_rate": 0.00029011347007884975,
      "loss": 3.8831,
      "step": 57550
    },
    {
      "epoch": 0.11991666666666667,
      "grad_norm": 0.7397333383560181,
      "learning_rate": 0.0002901099498961721,
      "loss": 3.9014,
      "step": 57560
    },
    {
      "epoch": 0.1199375,
      "grad_norm": 1.347090721130371,
      "learning_rate": 0.00029010642910827494,
      "loss": 4.0941,
      "step": 57570
    },
    {
      "epoch": 0.11995833333333333,
      "grad_norm": 0.7213568687438965,
      "learning_rate": 0.00029010290771517346,
      "loss": 3.9272,
      "step": 57580
    },
    {
      "epoch": 0.11997916666666666,
      "grad_norm": 0.8501083254814148,
      "learning_rate": 0.0002900993857168829,
      "loss": 4.1726,
      "step": 57590
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7984176278114319,
      "learning_rate": 0.00029009586311341844,
      "loss": 3.9941,
      "step": 57600
    },
    {
      "epoch": 0.12002083333333333,
      "grad_norm": 0.7243282198905945,
      "learning_rate": 0.00029009233990479527,
      "loss": 3.9488,
      "step": 57610
    },
    {
      "epoch": 0.12004166666666667,
      "grad_norm": 0.7926515340805054,
      "learning_rate": 0.00029008881609102866,
      "loss": 4.0909,
      "step": 57620
    },
    {
      "epoch": 0.1200625,
      "grad_norm": 0.9915323853492737,
      "learning_rate": 0.0002900852916721338,
      "loss": 3.8911,
      "step": 57630
    },
    {
      "epoch": 0.12008333333333333,
      "grad_norm": 0.9317020773887634,
      "learning_rate": 0.000290081766648126,
      "loss": 4.1227,
      "step": 57640
    },
    {
      "epoch": 0.12010416666666666,
      "grad_norm": 0.7712224125862122,
      "learning_rate": 0.0002900782410190203,
      "loss": 4.1738,
      "step": 57650
    },
    {
      "epoch": 0.120125,
      "grad_norm": 0.78835129737854,
      "learning_rate": 0.0002900747147848321,
      "loss": 3.9921,
      "step": 57660
    },
    {
      "epoch": 0.12014583333333333,
      "grad_norm": 0.8754571080207825,
      "learning_rate": 0.0002900711879455766,
      "loss": 3.892,
      "step": 57670
    },
    {
      "epoch": 0.12016666666666667,
      "grad_norm": 0.9156897068023682,
      "learning_rate": 0.000290067660501269,
      "loss": 4.0093,
      "step": 57680
    },
    {
      "epoch": 0.1201875,
      "grad_norm": 0.7990496158599854,
      "learning_rate": 0.00029006413245192457,
      "loss": 4.1164,
      "step": 57690
    },
    {
      "epoch": 0.12020833333333333,
      "grad_norm": 0.8468999862670898,
      "learning_rate": 0.00029006060379755847,
      "loss": 4.0301,
      "step": 57700
    },
    {
      "epoch": 0.12022916666666666,
      "grad_norm": 0.8539043068885803,
      "learning_rate": 0.0002900570745381861,
      "loss": 3.8929,
      "step": 57710
    },
    {
      "epoch": 0.12025,
      "grad_norm": 0.787469744682312,
      "learning_rate": 0.00029005354467382245,
      "loss": 4.0662,
      "step": 57720
    },
    {
      "epoch": 0.12027083333333333,
      "grad_norm": 0.7025769352912903,
      "learning_rate": 0.00029005001420448305,
      "loss": 4.0443,
      "step": 57730
    },
    {
      "epoch": 0.12029166666666667,
      "grad_norm": 0.753982424736023,
      "learning_rate": 0.000290046483130183,
      "loss": 4.0932,
      "step": 57740
    },
    {
      "epoch": 0.1203125,
      "grad_norm": 0.8874134421348572,
      "learning_rate": 0.0002900429514509376,
      "loss": 3.8157,
      "step": 57750
    },
    {
      "epoch": 0.12033333333333333,
      "grad_norm": 0.6708769798278809,
      "learning_rate": 0.00029003941916676203,
      "loss": 4.0703,
      "step": 57760
    },
    {
      "epoch": 0.12035416666666666,
      "grad_norm": 0.7258111834526062,
      "learning_rate": 0.00029003588627767165,
      "loss": 4.2082,
      "step": 57770
    },
    {
      "epoch": 0.120375,
      "grad_norm": 0.8831981420516968,
      "learning_rate": 0.0002900323527836816,
      "loss": 3.9951,
      "step": 57780
    },
    {
      "epoch": 0.12039583333333333,
      "grad_norm": 0.7312948107719421,
      "learning_rate": 0.0002900288186848073,
      "loss": 3.9863,
      "step": 57790
    },
    {
      "epoch": 0.12041666666666667,
      "grad_norm": 0.8232468366622925,
      "learning_rate": 0.00029002528398106383,
      "loss": 4.0648,
      "step": 57800
    },
    {
      "epoch": 0.1204375,
      "grad_norm": 0.7484953999519348,
      "learning_rate": 0.00029002174867246664,
      "loss": 4.0159,
      "step": 57810
    },
    {
      "epoch": 0.12045833333333333,
      "grad_norm": 0.7534875869750977,
      "learning_rate": 0.00029001821275903095,
      "loss": 3.9252,
      "step": 57820
    },
    {
      "epoch": 0.12047916666666666,
      "grad_norm": 0.9110977649688721,
      "learning_rate": 0.0002900146762407719,
      "loss": 4.0248,
      "step": 57830
    },
    {
      "epoch": 0.1205,
      "grad_norm": 0.8413671255111694,
      "learning_rate": 0.0002900111391177049,
      "loss": 4.0157,
      "step": 57840
    },
    {
      "epoch": 0.12052083333333333,
      "grad_norm": 0.7987561821937561,
      "learning_rate": 0.00029000760138984526,
      "loss": 4.0693,
      "step": 57850
    },
    {
      "epoch": 0.12054166666666667,
      "grad_norm": 0.7569634318351746,
      "learning_rate": 0.0002900040630572082,
      "loss": 4.0348,
      "step": 57860
    },
    {
      "epoch": 0.1205625,
      "grad_norm": 0.8597027659416199,
      "learning_rate": 0.0002900005241198089,
      "loss": 4.0034,
      "step": 57870
    },
    {
      "epoch": 0.12058333333333333,
      "grad_norm": 0.7449933290481567,
      "learning_rate": 0.00028999698457766283,
      "loss": 4.0663,
      "step": 57880
    },
    {
      "epoch": 0.12060416666666667,
      "grad_norm": 0.7558733224868774,
      "learning_rate": 0.0002899934444307852,
      "loss": 4.0632,
      "step": 57890
    },
    {
      "epoch": 0.120625,
      "grad_norm": 0.7764396667480469,
      "learning_rate": 0.00028998990367919126,
      "loss": 3.8655,
      "step": 57900
    },
    {
      "epoch": 0.12064583333333333,
      "grad_norm": 0.7693336606025696,
      "learning_rate": 0.0002899863623228964,
      "loss": 4.0785,
      "step": 57910
    },
    {
      "epoch": 0.12066666666666667,
      "grad_norm": 0.8143793940544128,
      "learning_rate": 0.00028998282036191587,
      "loss": 3.8789,
      "step": 57920
    },
    {
      "epoch": 0.1206875,
      "grad_norm": 0.8654981255531311,
      "learning_rate": 0.00028997927779626494,
      "loss": 4.1164,
      "step": 57930
    },
    {
      "epoch": 0.12070833333333333,
      "grad_norm": 0.8259248733520508,
      "learning_rate": 0.0002899757346259589,
      "loss": 3.9703,
      "step": 57940
    },
    {
      "epoch": 0.12072916666666667,
      "grad_norm": 0.7371456027030945,
      "learning_rate": 0.00028997219085101316,
      "loss": 3.871,
      "step": 57950
    },
    {
      "epoch": 0.12075,
      "grad_norm": 0.7790418863296509,
      "learning_rate": 0.00028996864647144293,
      "loss": 3.8365,
      "step": 57960
    },
    {
      "epoch": 0.12077083333333333,
      "grad_norm": 0.7072028517723083,
      "learning_rate": 0.00028996510148726357,
      "loss": 3.9837,
      "step": 57970
    },
    {
      "epoch": 0.12079166666666667,
      "grad_norm": 0.8110467791557312,
      "learning_rate": 0.0002899615558984903,
      "loss": 4.023,
      "step": 57980
    },
    {
      "epoch": 0.1208125,
      "grad_norm": 0.9403396844863892,
      "learning_rate": 0.00028995800970513865,
      "loss": 4.0089,
      "step": 57990
    },
    {
      "epoch": 0.12083333333333333,
      "grad_norm": 0.8653222322463989,
      "learning_rate": 0.00028995446290722366,
      "loss": 3.9697,
      "step": 58000
    },
    {
      "epoch": 0.12083333333333333,
      "eval_loss": 4.308765411376953,
      "eval_runtime": 10.2855,
      "eval_samples_per_second": 0.972,
      "eval_steps_per_second": 0.292,
      "step": 58000
    },
    {
      "epoch": 0.12085416666666667,
      "grad_norm": 0.7267494797706604,
      "learning_rate": 0.00028995091550476084,
      "loss": 4.0684,
      "step": 58010
    },
    {
      "epoch": 0.120875,
      "grad_norm": 0.7623651623725891,
      "learning_rate": 0.0002899473674977655,
      "loss": 4.0218,
      "step": 58020
    },
    {
      "epoch": 0.12089583333333333,
      "grad_norm": 0.8465607166290283,
      "learning_rate": 0.00028994381888625283,
      "loss": 4.067,
      "step": 58030
    },
    {
      "epoch": 0.12091666666666667,
      "grad_norm": 0.7188336253166199,
      "learning_rate": 0.0002899402696702384,
      "loss": 3.9057,
      "step": 58040
    },
    {
      "epoch": 0.1209375,
      "grad_norm": 0.7072934508323669,
      "learning_rate": 0.0002899367198497373,
      "loss": 4.0846,
      "step": 58050
    },
    {
      "epoch": 0.12095833333333333,
      "grad_norm": 0.9341549277305603,
      "learning_rate": 0.00028993316942476494,
      "loss": 3.9086,
      "step": 58060
    },
    {
      "epoch": 0.12097916666666667,
      "grad_norm": 0.7532907724380493,
      "learning_rate": 0.0002899296183953367,
      "loss": 4.0498,
      "step": 58070
    },
    {
      "epoch": 0.121,
      "grad_norm": 0.8483770489692688,
      "learning_rate": 0.0002899260667614679,
      "loss": 3.9934,
      "step": 58080
    },
    {
      "epoch": 0.12102083333333333,
      "grad_norm": 0.8378314971923828,
      "learning_rate": 0.0002899225145231739,
      "loss": 4.025,
      "step": 58090
    },
    {
      "epoch": 0.12104166666666667,
      "grad_norm": 0.7262919545173645,
      "learning_rate": 0.00028991896168046997,
      "loss": 4.048,
      "step": 58100
    },
    {
      "epoch": 0.1210625,
      "grad_norm": 0.771669864654541,
      "learning_rate": 0.0002899154082333716,
      "loss": 4.0293,
      "step": 58110
    },
    {
      "epoch": 0.12108333333333333,
      "grad_norm": 0.7893829941749573,
      "learning_rate": 0.00028991185418189395,
      "loss": 4.0725,
      "step": 58120
    },
    {
      "epoch": 0.12110416666666667,
      "grad_norm": 0.785739004611969,
      "learning_rate": 0.0002899082995260526,
      "loss": 3.8748,
      "step": 58130
    },
    {
      "epoch": 0.121125,
      "grad_norm": 0.8535524010658264,
      "learning_rate": 0.00028990474426586265,
      "loss": 4.0582,
      "step": 58140
    },
    {
      "epoch": 0.12114583333333333,
      "grad_norm": 0.788882851600647,
      "learning_rate": 0.00028990118840133963,
      "loss": 4.1026,
      "step": 58150
    },
    {
      "epoch": 0.12116666666666667,
      "grad_norm": 0.7159596681594849,
      "learning_rate": 0.00028989763193249885,
      "loss": 4.0062,
      "step": 58160
    },
    {
      "epoch": 0.1211875,
      "grad_norm": 0.9488353729248047,
      "learning_rate": 0.00028989407485935565,
      "loss": 3.968,
      "step": 58170
    },
    {
      "epoch": 0.12120833333333333,
      "grad_norm": 0.675815224647522,
      "learning_rate": 0.00028989051718192544,
      "loss": 3.9806,
      "step": 58180
    },
    {
      "epoch": 0.12122916666666667,
      "grad_norm": 0.8615719676017761,
      "learning_rate": 0.0002898869589002236,
      "loss": 4.1105,
      "step": 58190
    },
    {
      "epoch": 0.12125,
      "grad_norm": 0.8493232131004333,
      "learning_rate": 0.0002898834000142654,
      "loss": 4.09,
      "step": 58200
    },
    {
      "epoch": 0.12127083333333333,
      "grad_norm": 0.8472740054130554,
      "learning_rate": 0.00028987984052406636,
      "loss": 4.0064,
      "step": 58210
    },
    {
      "epoch": 0.12129166666666667,
      "grad_norm": 0.7328134179115295,
      "learning_rate": 0.00028987628042964175,
      "loss": 4.1638,
      "step": 58220
    },
    {
      "epoch": 0.1213125,
      "grad_norm": 0.77391117811203,
      "learning_rate": 0.000289872719731007,
      "loss": 4.0005,
      "step": 58230
    },
    {
      "epoch": 0.12133333333333333,
      "grad_norm": 0.7503344416618347,
      "learning_rate": 0.00028986915842817737,
      "loss": 4.0578,
      "step": 58240
    },
    {
      "epoch": 0.12135416666666667,
      "grad_norm": 0.9317613840103149,
      "learning_rate": 0.00028986559652116844,
      "loss": 3.9599,
      "step": 58250
    },
    {
      "epoch": 0.121375,
      "grad_norm": 0.7134481072425842,
      "learning_rate": 0.00028986203400999545,
      "loss": 3.8976,
      "step": 58260
    },
    {
      "epoch": 0.12139583333333333,
      "grad_norm": 0.7878715991973877,
      "learning_rate": 0.00028985847089467383,
      "loss": 3.8378,
      "step": 58270
    },
    {
      "epoch": 0.12141666666666667,
      "grad_norm": 0.8619019389152527,
      "learning_rate": 0.000289854907175219,
      "loss": 3.9669,
      "step": 58280
    },
    {
      "epoch": 0.1214375,
      "grad_norm": 0.7316370010375977,
      "learning_rate": 0.0002898513428516463,
      "loss": 4.0534,
      "step": 58290
    },
    {
      "epoch": 0.12145833333333333,
      "grad_norm": 0.7693053483963013,
      "learning_rate": 0.0002898477779239712,
      "loss": 4.0788,
      "step": 58300
    },
    {
      "epoch": 0.12147916666666667,
      "grad_norm": 0.8299522995948792,
      "learning_rate": 0.000289844212392209,
      "loss": 4.0754,
      "step": 58310
    },
    {
      "epoch": 0.1215,
      "grad_norm": 0.787835419178009,
      "learning_rate": 0.00028984064625637516,
      "loss": 4.0827,
      "step": 58320
    },
    {
      "epoch": 0.12152083333333333,
      "grad_norm": 0.8573585152626038,
      "learning_rate": 0.0002898370795164851,
      "loss": 3.9649,
      "step": 58330
    },
    {
      "epoch": 0.12154166666666667,
      "grad_norm": 0.7393434643745422,
      "learning_rate": 0.00028983351217255423,
      "loss": 3.9406,
      "step": 58340
    },
    {
      "epoch": 0.1215625,
      "grad_norm": 0.9212964773178101,
      "learning_rate": 0.00028982994422459794,
      "loss": 3.9532,
      "step": 58350
    },
    {
      "epoch": 0.12158333333333333,
      "grad_norm": 0.814564049243927,
      "learning_rate": 0.0002898263756726316,
      "loss": 4.0677,
      "step": 58360
    },
    {
      "epoch": 0.12160416666666667,
      "grad_norm": 0.7601221799850464,
      "learning_rate": 0.0002898228065166707,
      "loss": 4.0358,
      "step": 58370
    },
    {
      "epoch": 0.121625,
      "grad_norm": 0.8271921277046204,
      "learning_rate": 0.0002898192367567306,
      "loss": 3.9652,
      "step": 58380
    },
    {
      "epoch": 0.12164583333333333,
      "grad_norm": 0.7480213046073914,
      "learning_rate": 0.0002898156663928268,
      "loss": 3.883,
      "step": 58390
    },
    {
      "epoch": 0.12166666666666667,
      "grad_norm": 0.7796541452407837,
      "learning_rate": 0.0002898120954249746,
      "loss": 4.002,
      "step": 58400
    },
    {
      "epoch": 0.1216875,
      "grad_norm": 0.7476634383201599,
      "learning_rate": 0.00028980852385318947,
      "loss": 4.0163,
      "step": 58410
    },
    {
      "epoch": 0.12170833333333334,
      "grad_norm": 0.967644453048706,
      "learning_rate": 0.0002898049516774869,
      "loss": 4.1618,
      "step": 58420
    },
    {
      "epoch": 0.12172916666666667,
      "grad_norm": 0.715627908706665,
      "learning_rate": 0.00028980137889788227,
      "loss": 4.0225,
      "step": 58430
    },
    {
      "epoch": 0.12175,
      "grad_norm": 0.8285053372383118,
      "learning_rate": 0.000289797805514391,
      "loss": 3.9408,
      "step": 58440
    },
    {
      "epoch": 0.12177083333333333,
      "grad_norm": 0.7864731550216675,
      "learning_rate": 0.0002897942315270285,
      "loss": 4.0156,
      "step": 58450
    },
    {
      "epoch": 0.12179166666666667,
      "grad_norm": 0.8041199445724487,
      "learning_rate": 0.0002897906569358104,
      "loss": 3.8992,
      "step": 58460
    },
    {
      "epoch": 0.1218125,
      "grad_norm": 0.7365431189537048,
      "learning_rate": 0.0002897870817407519,
      "loss": 3.8858,
      "step": 58470
    },
    {
      "epoch": 0.12183333333333334,
      "grad_norm": 0.7595269680023193,
      "learning_rate": 0.00028978350594186853,
      "loss": 3.9186,
      "step": 58480
    },
    {
      "epoch": 0.12185416666666667,
      "grad_norm": 0.7525302767753601,
      "learning_rate": 0.00028977992953917577,
      "loss": 4.0632,
      "step": 58490
    },
    {
      "epoch": 0.121875,
      "grad_norm": 0.7376665472984314,
      "learning_rate": 0.0002897763525326891,
      "loss": 4.0523,
      "step": 58500
    },
    {
      "epoch": 0.12189583333333333,
      "grad_norm": 0.7225883603096008,
      "learning_rate": 0.0002897727749224238,
      "loss": 4.0649,
      "step": 58510
    },
    {
      "epoch": 0.12191666666666667,
      "grad_norm": 0.8715702295303345,
      "learning_rate": 0.00028976919670839545,
      "loss": 4.1218,
      "step": 58520
    },
    {
      "epoch": 0.1219375,
      "grad_norm": 0.7517149448394775,
      "learning_rate": 0.00028976561789061957,
      "loss": 4.0398,
      "step": 58530
    },
    {
      "epoch": 0.12195833333333334,
      "grad_norm": 1.0276015996932983,
      "learning_rate": 0.0002897620384691115,
      "loss": 4.1966,
      "step": 58540
    },
    {
      "epoch": 0.12197916666666667,
      "grad_norm": 0.7432104349136353,
      "learning_rate": 0.00028975845844388673,
      "loss": 4.0694,
      "step": 58550
    },
    {
      "epoch": 0.122,
      "grad_norm": 0.7094054222106934,
      "learning_rate": 0.0002897548778149608,
      "loss": 4.0015,
      "step": 58560
    },
    {
      "epoch": 0.12202083333333333,
      "grad_norm": 0.7534720301628113,
      "learning_rate": 0.00028975129658234905,
      "loss": 4.0202,
      "step": 58570
    },
    {
      "epoch": 0.12204166666666667,
      "grad_norm": 0.7120024561882019,
      "learning_rate": 0.0002897477147460671,
      "loss": 3.826,
      "step": 58580
    },
    {
      "epoch": 0.1220625,
      "grad_norm": 0.765831708908081,
      "learning_rate": 0.0002897441323061302,
      "loss": 3.8102,
      "step": 58590
    },
    {
      "epoch": 0.12208333333333334,
      "grad_norm": 0.7979291081428528,
      "learning_rate": 0.0002897405492625541,
      "loss": 3.9647,
      "step": 58600
    },
    {
      "epoch": 0.12210416666666667,
      "grad_norm": 0.7936801910400391,
      "learning_rate": 0.0002897369656153541,
      "loss": 3.984,
      "step": 58610
    },
    {
      "epoch": 0.122125,
      "grad_norm": 0.7641825675964355,
      "learning_rate": 0.0002897333813645457,
      "loss": 3.9075,
      "step": 58620
    },
    {
      "epoch": 0.12214583333333333,
      "grad_norm": 0.8533358573913574,
      "learning_rate": 0.0002897297965101444,
      "loss": 3.9244,
      "step": 58630
    },
    {
      "epoch": 0.12216666666666667,
      "grad_norm": 0.9544987678527832,
      "learning_rate": 0.0002897262110521657,
      "loss": 3.9276,
      "step": 58640
    },
    {
      "epoch": 0.1221875,
      "grad_norm": 0.7423672676086426,
      "learning_rate": 0.00028972262499062513,
      "loss": 3.8874,
      "step": 58650
    },
    {
      "epoch": 0.12220833333333334,
      "grad_norm": 0.9484134316444397,
      "learning_rate": 0.000289719038325538,
      "loss": 4.0596,
      "step": 58660
    },
    {
      "epoch": 0.12222916666666667,
      "grad_norm": 0.8454275727272034,
      "learning_rate": 0.00028971545105692,
      "loss": 4.0167,
      "step": 58670
    },
    {
      "epoch": 0.12225,
      "grad_norm": 0.8040051460266113,
      "learning_rate": 0.00028971186318478657,
      "loss": 4.0405,
      "step": 58680
    },
    {
      "epoch": 0.12227083333333333,
      "grad_norm": 0.7652581334114075,
      "learning_rate": 0.00028970827470915317,
      "loss": 3.9015,
      "step": 58690
    },
    {
      "epoch": 0.12229166666666667,
      "grad_norm": 0.7617089152336121,
      "learning_rate": 0.00028970468563003533,
      "loss": 3.8535,
      "step": 58700
    },
    {
      "epoch": 0.1223125,
      "grad_norm": 0.7855530977249146,
      "learning_rate": 0.00028970109594744856,
      "loss": 3.9233,
      "step": 58710
    },
    {
      "epoch": 0.12233333333333334,
      "grad_norm": 0.7007876634597778,
      "learning_rate": 0.0002896975056614083,
      "loss": 3.974,
      "step": 58720
    },
    {
      "epoch": 0.12235416666666667,
      "grad_norm": 0.8092440366744995,
      "learning_rate": 0.0002896939147719302,
      "loss": 3.779,
      "step": 58730
    },
    {
      "epoch": 0.122375,
      "grad_norm": 0.876945436000824,
      "learning_rate": 0.00028969032327902963,
      "loss": 3.8744,
      "step": 58740
    },
    {
      "epoch": 0.12239583333333333,
      "grad_norm": 0.8161500096321106,
      "learning_rate": 0.00028968673118272216,
      "loss": 3.9168,
      "step": 58750
    },
    {
      "epoch": 0.12241666666666666,
      "grad_norm": 0.8570572137832642,
      "learning_rate": 0.00028968313848302333,
      "loss": 3.9246,
      "step": 58760
    },
    {
      "epoch": 0.1224375,
      "grad_norm": 0.7108163833618164,
      "learning_rate": 0.0002896795451799486,
      "loss": 4.0327,
      "step": 58770
    },
    {
      "epoch": 0.12245833333333334,
      "grad_norm": 0.7592309713363647,
      "learning_rate": 0.0002896759512735135,
      "loss": 4.0872,
      "step": 58780
    },
    {
      "epoch": 0.12247916666666667,
      "grad_norm": 0.8583866357803345,
      "learning_rate": 0.0002896723567637336,
      "loss": 3.8558,
      "step": 58790
    },
    {
      "epoch": 0.1225,
      "grad_norm": 0.8032364845275879,
      "learning_rate": 0.00028966876165062444,
      "loss": 3.9725,
      "step": 58800
    },
    {
      "epoch": 0.12252083333333333,
      "grad_norm": 0.759597659111023,
      "learning_rate": 0.0002896651659342015,
      "loss": 4.157,
      "step": 58810
    },
    {
      "epoch": 0.12254166666666666,
      "grad_norm": 0.9443415403366089,
      "learning_rate": 0.0002896615696144803,
      "loss": 4.0202,
      "step": 58820
    },
    {
      "epoch": 0.1225625,
      "grad_norm": 0.6591619253158569,
      "learning_rate": 0.00028965797269147643,
      "loss": 3.9996,
      "step": 58830
    },
    {
      "epoch": 0.12258333333333334,
      "grad_norm": 0.7279909253120422,
      "learning_rate": 0.00028965437516520535,
      "loss": 3.985,
      "step": 58840
    },
    {
      "epoch": 0.12260416666666667,
      "grad_norm": 0.783434271812439,
      "learning_rate": 0.0002896507770356827,
      "loss": 3.9551,
      "step": 58850
    },
    {
      "epoch": 0.122625,
      "grad_norm": 1.1516387462615967,
      "learning_rate": 0.00028964717830292394,
      "loss": 4.1768,
      "step": 58860
    },
    {
      "epoch": 0.12264583333333333,
      "grad_norm": 0.8258283734321594,
      "learning_rate": 0.00028964357896694466,
      "loss": 3.9036,
      "step": 58870
    },
    {
      "epoch": 0.12266666666666666,
      "grad_norm": 0.7921056151390076,
      "learning_rate": 0.00028963997902776046,
      "loss": 4.0215,
      "step": 58880
    },
    {
      "epoch": 0.1226875,
      "grad_norm": 0.7622324228286743,
      "learning_rate": 0.0002896363784853867,
      "loss": 3.9226,
      "step": 58890
    },
    {
      "epoch": 0.12270833333333334,
      "grad_norm": 0.980218231678009,
      "learning_rate": 0.00028963277733983915,
      "loss": 3.7993,
      "step": 58900
    },
    {
      "epoch": 0.12272916666666667,
      "grad_norm": 0.7496768832206726,
      "learning_rate": 0.00028962917559113323,
      "loss": 4.0895,
      "step": 58910
    },
    {
      "epoch": 0.12275,
      "grad_norm": 0.7021639347076416,
      "learning_rate": 0.00028962557323928455,
      "loss": 3.9113,
      "step": 58920
    },
    {
      "epoch": 0.12277083333333333,
      "grad_norm": 0.7668494582176208,
      "learning_rate": 0.0002896219702843086,
      "loss": 3.979,
      "step": 58930
    },
    {
      "epoch": 0.12279166666666666,
      "grad_norm": 0.7994961142539978,
      "learning_rate": 0.0002896183667262211,
      "loss": 3.9905,
      "step": 58940
    },
    {
      "epoch": 0.1228125,
      "grad_norm": 0.8457812666893005,
      "learning_rate": 0.0002896147625650375,
      "loss": 3.9484,
      "step": 58950
    },
    {
      "epoch": 0.12283333333333334,
      "grad_norm": 0.8466345071792603,
      "learning_rate": 0.0002896111578007734,
      "loss": 4.0251,
      "step": 58960
    },
    {
      "epoch": 0.12285416666666667,
      "grad_norm": 0.6990904211997986,
      "learning_rate": 0.0002896075524334443,
      "loss": 3.8724,
      "step": 58970
    },
    {
      "epoch": 0.122875,
      "grad_norm": 0.6941803693771362,
      "learning_rate": 0.00028960394646306584,
      "loss": 4.1091,
      "step": 58980
    },
    {
      "epoch": 0.12289583333333333,
      "grad_norm": 0.7710018754005432,
      "learning_rate": 0.00028960033988965363,
      "loss": 4.0476,
      "step": 58990
    },
    {
      "epoch": 0.12291666666666666,
      "grad_norm": 0.7830733060836792,
      "learning_rate": 0.0002895967327132232,
      "loss": 3.8969,
      "step": 59000
    },
    {
      "epoch": 0.12291666666666666,
      "eval_loss": 4.304332733154297,
      "eval_runtime": 10.2297,
      "eval_samples_per_second": 0.978,
      "eval_steps_per_second": 0.293,
      "step": 59000
    },
    {
      "epoch": 0.1229375,
      "grad_norm": 0.7076270580291748,
      "learning_rate": 0.00028959312493379014,
      "loss": 4.0692,
      "step": 59010
    },
    {
      "epoch": 0.12295833333333334,
      "grad_norm": 0.8446481227874756,
      "learning_rate": 0.00028958951655137,
      "loss": 4.0925,
      "step": 59020
    },
    {
      "epoch": 0.12297916666666667,
      "grad_norm": 0.7308094501495361,
      "learning_rate": 0.00028958590756597845,
      "loss": 4.0036,
      "step": 59030
    },
    {
      "epoch": 0.123,
      "grad_norm": 0.8042703866958618,
      "learning_rate": 0.00028958229797763105,
      "loss": 3.6909,
      "step": 59040
    },
    {
      "epoch": 0.12302083333333333,
      "grad_norm": 0.8013021945953369,
      "learning_rate": 0.0002895786877863433,
      "loss": 4.0733,
      "step": 59050
    },
    {
      "epoch": 0.12304166666666666,
      "grad_norm": 0.882853090763092,
      "learning_rate": 0.0002895750769921309,
      "loss": 3.9522,
      "step": 59060
    },
    {
      "epoch": 0.1230625,
      "grad_norm": 0.7177476286888123,
      "learning_rate": 0.00028957146559500946,
      "loss": 3.9204,
      "step": 59070
    },
    {
      "epoch": 0.12308333333333334,
      "grad_norm": 0.8178974986076355,
      "learning_rate": 0.0002895678535949945,
      "loss": 3.9289,
      "step": 59080
    },
    {
      "epoch": 0.12310416666666667,
      "grad_norm": 0.7250188589096069,
      "learning_rate": 0.0002895642409921016,
      "loss": 3.9496,
      "step": 59090
    },
    {
      "epoch": 0.123125,
      "grad_norm": 0.8501078486442566,
      "learning_rate": 0.0002895606277863465,
      "loss": 3.8838,
      "step": 59100
    },
    {
      "epoch": 0.12314583333333333,
      "grad_norm": 0.7384798526763916,
      "learning_rate": 0.0002895570139777447,
      "loss": 3.9022,
      "step": 59110
    },
    {
      "epoch": 0.12316666666666666,
      "grad_norm": 0.88756263256073,
      "learning_rate": 0.00028955339956631185,
      "loss": 3.8496,
      "step": 59120
    },
    {
      "epoch": 0.1231875,
      "grad_norm": 1.0091770887374878,
      "learning_rate": 0.00028954978455206356,
      "loss": 4.1302,
      "step": 59130
    },
    {
      "epoch": 0.12320833333333334,
      "grad_norm": 0.8608778715133667,
      "learning_rate": 0.0002895461689350154,
      "loss": 3.743,
      "step": 59140
    },
    {
      "epoch": 0.12322916666666667,
      "grad_norm": 0.8289542198181152,
      "learning_rate": 0.0002895425527151831,
      "loss": 4.0942,
      "step": 59150
    },
    {
      "epoch": 0.12325,
      "grad_norm": 0.7657513618469238,
      "learning_rate": 0.0002895389358925822,
      "loss": 4.0394,
      "step": 59160
    },
    {
      "epoch": 0.12327083333333333,
      "grad_norm": 0.7718591094017029,
      "learning_rate": 0.00028953531846722823,
      "loss": 3.9805,
      "step": 59170
    },
    {
      "epoch": 0.12329166666666666,
      "grad_norm": 0.7843058705329895,
      "learning_rate": 0.000289531700439137,
      "loss": 4.0017,
      "step": 59180
    },
    {
      "epoch": 0.1233125,
      "grad_norm": 0.722235381603241,
      "learning_rate": 0.00028952808180832405,
      "loss": 4.0231,
      "step": 59190
    },
    {
      "epoch": 0.12333333333333334,
      "grad_norm": 0.7318554520606995,
      "learning_rate": 0.00028952446257480495,
      "loss": 3.8719,
      "step": 59200
    },
    {
      "epoch": 0.12335416666666667,
      "grad_norm": 0.8016271591186523,
      "learning_rate": 0.00028952084273859547,
      "loss": 3.9178,
      "step": 59210
    },
    {
      "epoch": 0.123375,
      "grad_norm": 0.6923083662986755,
      "learning_rate": 0.0002895172222997111,
      "loss": 4.0387,
      "step": 59220
    },
    {
      "epoch": 0.12339583333333333,
      "grad_norm": 0.8460187911987305,
      "learning_rate": 0.0002895136012581677,
      "loss": 3.8641,
      "step": 59230
    },
    {
      "epoch": 0.12341666666666666,
      "grad_norm": 0.827653706073761,
      "learning_rate": 0.0002895099796139806,
      "loss": 3.9304,
      "step": 59240
    },
    {
      "epoch": 0.1234375,
      "grad_norm": 0.7599294185638428,
      "learning_rate": 0.0002895063573671657,
      "loss": 3.9112,
      "step": 59250
    },
    {
      "epoch": 0.12345833333333334,
      "grad_norm": 0.8326315879821777,
      "learning_rate": 0.00028950273451773854,
      "loss": 3.9248,
      "step": 59260
    },
    {
      "epoch": 0.12347916666666667,
      "grad_norm": 0.7965421080589294,
      "learning_rate": 0.0002894991110657148,
      "loss": 4.043,
      "step": 59270
    },
    {
      "epoch": 0.1235,
      "grad_norm": 0.7838216423988342,
      "learning_rate": 0.0002894954870111101,
      "loss": 3.9917,
      "step": 59280
    },
    {
      "epoch": 0.12352083333333333,
      "grad_norm": 0.8560947179794312,
      "learning_rate": 0.0002894918623539401,
      "loss": 3.9958,
      "step": 59290
    },
    {
      "epoch": 0.12354166666666666,
      "grad_norm": 0.752515435218811,
      "learning_rate": 0.0002894882370942205,
      "loss": 3.9621,
      "step": 59300
    },
    {
      "epoch": 0.1235625,
      "grad_norm": 0.7699630856513977,
      "learning_rate": 0.00028948461123196696,
      "loss": 3.9706,
      "step": 59310
    },
    {
      "epoch": 0.12358333333333334,
      "grad_norm": 0.8114316463470459,
      "learning_rate": 0.00028948098476719504,
      "loss": 3.7403,
      "step": 59320
    },
    {
      "epoch": 0.12360416666666667,
      "grad_norm": 0.8304722309112549,
      "learning_rate": 0.00028947735769992047,
      "loss": 3.8562,
      "step": 59330
    },
    {
      "epoch": 0.123625,
      "grad_norm": 0.9070820212364197,
      "learning_rate": 0.00028947373003015894,
      "loss": 4.0504,
      "step": 59340
    },
    {
      "epoch": 0.12364583333333333,
      "grad_norm": 0.8178778290748596,
      "learning_rate": 0.00028947010175792615,
      "loss": 3.8595,
      "step": 59350
    },
    {
      "epoch": 0.12366666666666666,
      "grad_norm": 0.8801862597465515,
      "learning_rate": 0.00028946647288323766,
      "loss": 4.0523,
      "step": 59360
    },
    {
      "epoch": 0.1236875,
      "grad_norm": 0.7515727281570435,
      "learning_rate": 0.00028946284340610926,
      "loss": 3.9741,
      "step": 59370
    },
    {
      "epoch": 0.12370833333333334,
      "grad_norm": 0.8889833092689514,
      "learning_rate": 0.0002894592133265566,
      "loss": 4.0485,
      "step": 59380
    },
    {
      "epoch": 0.12372916666666667,
      "grad_norm": 0.7986170649528503,
      "learning_rate": 0.00028945558264459526,
      "loss": 4.0041,
      "step": 59390
    },
    {
      "epoch": 0.12375,
      "grad_norm": 0.6885119080543518,
      "learning_rate": 0.00028945195136024105,
      "loss": 4.1543,
      "step": 59400
    },
    {
      "epoch": 0.12377083333333333,
      "grad_norm": 0.7544699311256409,
      "learning_rate": 0.00028944831947350964,
      "loss": 3.8942,
      "step": 59410
    },
    {
      "epoch": 0.12379166666666666,
      "grad_norm": 0.68788081407547,
      "learning_rate": 0.00028944468698441665,
      "loss": 3.9739,
      "step": 59420
    },
    {
      "epoch": 0.1238125,
      "grad_norm": 0.793062150478363,
      "learning_rate": 0.00028944105389297784,
      "loss": 4.0173,
      "step": 59430
    },
    {
      "epoch": 0.12383333333333334,
      "grad_norm": 0.8922891616821289,
      "learning_rate": 0.0002894374201992088,
      "loss": 4.0076,
      "step": 59440
    },
    {
      "epoch": 0.12385416666666667,
      "grad_norm": 0.7462336421012878,
      "learning_rate": 0.00028943378590312537,
      "loss": 3.9521,
      "step": 59450
    },
    {
      "epoch": 0.123875,
      "grad_norm": 0.7774155139923096,
      "learning_rate": 0.00028943015100474313,
      "loss": 3.9795,
      "step": 59460
    },
    {
      "epoch": 0.12389583333333333,
      "grad_norm": 0.7516297101974487,
      "learning_rate": 0.00028942651550407786,
      "loss": 3.8604,
      "step": 59470
    },
    {
      "epoch": 0.12391666666666666,
      "grad_norm": 0.8640037178993225,
      "learning_rate": 0.00028942287940114523,
      "loss": 3.9169,
      "step": 59480
    },
    {
      "epoch": 0.1239375,
      "grad_norm": 0.7642115950584412,
      "learning_rate": 0.00028941924269596095,
      "loss": 3.9779,
      "step": 59490
    },
    {
      "epoch": 0.12395833333333334,
      "grad_norm": 0.7764779925346375,
      "learning_rate": 0.0002894156053885407,
      "loss": 4.0872,
      "step": 59500
    },
    {
      "epoch": 0.12397916666666667,
      "grad_norm": 0.7637394070625305,
      "learning_rate": 0.00028941196747890027,
      "loss": 4.0266,
      "step": 59510
    },
    {
      "epoch": 0.124,
      "grad_norm": 0.7165989279747009,
      "learning_rate": 0.00028940832896705526,
      "loss": 3.781,
      "step": 59520
    },
    {
      "epoch": 0.12402083333333333,
      "grad_norm": 0.7679190039634705,
      "learning_rate": 0.0002894046898530215,
      "loss": 3.9127,
      "step": 59530
    },
    {
      "epoch": 0.12404166666666666,
      "grad_norm": 0.721459150314331,
      "learning_rate": 0.0002894010501368146,
      "loss": 4.1222,
      "step": 59540
    },
    {
      "epoch": 0.1240625,
      "grad_norm": 0.6908599734306335,
      "learning_rate": 0.0002893974098184504,
      "loss": 4.0136,
      "step": 59550
    },
    {
      "epoch": 0.12408333333333334,
      "grad_norm": 0.9111027121543884,
      "learning_rate": 0.00028939376889794454,
      "loss": 3.9047,
      "step": 59560
    },
    {
      "epoch": 0.12410416666666667,
      "grad_norm": 0.9988145232200623,
      "learning_rate": 0.0002893901273753128,
      "loss": 3.8511,
      "step": 59570
    },
    {
      "epoch": 0.124125,
      "grad_norm": 0.786493182182312,
      "learning_rate": 0.00028938648525057083,
      "loss": 4.0198,
      "step": 59580
    },
    {
      "epoch": 0.12414583333333333,
      "grad_norm": 0.7718296647071838,
      "learning_rate": 0.00028938284252373446,
      "loss": 3.9319,
      "step": 59590
    },
    {
      "epoch": 0.12416666666666666,
      "grad_norm": 0.9785196185112,
      "learning_rate": 0.0002893791991948194,
      "loss": 3.912,
      "step": 59600
    },
    {
      "epoch": 0.1241875,
      "grad_norm": 0.7442240715026855,
      "learning_rate": 0.00028937555526384134,
      "loss": 3.9557,
      "step": 59610
    },
    {
      "epoch": 0.12420833333333334,
      "grad_norm": 1.0854867696762085,
      "learning_rate": 0.00028937191073081603,
      "loss": 3.9608,
      "step": 59620
    },
    {
      "epoch": 0.12422916666666667,
      "grad_norm": 0.8008106350898743,
      "learning_rate": 0.00028936826559575933,
      "loss": 4.0406,
      "step": 59630
    },
    {
      "epoch": 0.12425,
      "grad_norm": 0.9046019911766052,
      "learning_rate": 0.0002893646198586868,
      "loss": 4.0392,
      "step": 59640
    },
    {
      "epoch": 0.12427083333333333,
      "grad_norm": 0.7624402046203613,
      "learning_rate": 0.00028936097351961427,
      "loss": 3.9331,
      "step": 59650
    },
    {
      "epoch": 0.12429166666666666,
      "grad_norm": 0.8597812056541443,
      "learning_rate": 0.0002893573265785575,
      "loss": 3.9659,
      "step": 59660
    },
    {
      "epoch": 0.1243125,
      "grad_norm": 0.79534512758255,
      "learning_rate": 0.0002893536790355323,
      "loss": 3.7714,
      "step": 59670
    },
    {
      "epoch": 0.12433333333333334,
      "grad_norm": 0.7513994574546814,
      "learning_rate": 0.00028935003089055434,
      "loss": 3.9124,
      "step": 59680
    },
    {
      "epoch": 0.12435416666666667,
      "grad_norm": 0.7537775635719299,
      "learning_rate": 0.0002893463821436394,
      "loss": 4.1181,
      "step": 59690
    },
    {
      "epoch": 0.124375,
      "grad_norm": 0.7551184296607971,
      "learning_rate": 0.0002893427327948032,
      "loss": 4.1258,
      "step": 59700
    },
    {
      "epoch": 0.12439583333333333,
      "grad_norm": 0.8327275514602661,
      "learning_rate": 0.00028933908284406164,
      "loss": 3.8397,
      "step": 59710
    },
    {
      "epoch": 0.12441666666666666,
      "grad_norm": 0.7604628205299377,
      "learning_rate": 0.0002893354322914303,
      "loss": 4.1624,
      "step": 59720
    },
    {
      "epoch": 0.1244375,
      "grad_norm": 0.7264744639396667,
      "learning_rate": 0.0002893317811369251,
      "loss": 4.0278,
      "step": 59730
    },
    {
      "epoch": 0.12445833333333334,
      "grad_norm": 0.7267156839370728,
      "learning_rate": 0.00028932812938056176,
      "loss": 4.0574,
      "step": 59740
    },
    {
      "epoch": 0.12447916666666667,
      "grad_norm": 0.8236510753631592,
      "learning_rate": 0.000289324477022356,
      "loss": 4.1556,
      "step": 59750
    },
    {
      "epoch": 0.1245,
      "grad_norm": 0.7506306171417236,
      "learning_rate": 0.0002893208240623237,
      "loss": 4.0089,
      "step": 59760
    },
    {
      "epoch": 0.12452083333333333,
      "grad_norm": 0.7727932929992676,
      "learning_rate": 0.0002893171705004806,
      "loss": 3.8381,
      "step": 59770
    },
    {
      "epoch": 0.12454166666666666,
      "grad_norm": 0.7874816656112671,
      "learning_rate": 0.00028931351633684245,
      "loss": 3.915,
      "step": 59780
    },
    {
      "epoch": 0.1245625,
      "grad_norm": 0.8008192181587219,
      "learning_rate": 0.000289309861571425,
      "loss": 3.9919,
      "step": 59790
    },
    {
      "epoch": 0.12458333333333334,
      "grad_norm": 0.7953455448150635,
      "learning_rate": 0.00028930620620424413,
      "loss": 3.9738,
      "step": 59800
    },
    {
      "epoch": 0.12460416666666667,
      "grad_norm": 0.8026627898216248,
      "learning_rate": 0.0002893025502353156,
      "loss": 3.9472,
      "step": 59810
    },
    {
      "epoch": 0.124625,
      "grad_norm": 0.8483697175979614,
      "learning_rate": 0.0002892988936646552,
      "loss": 4.0382,
      "step": 59820
    },
    {
      "epoch": 0.12464583333333333,
      "grad_norm": 0.9190303683280945,
      "learning_rate": 0.00028929523649227874,
      "loss": 4.0747,
      "step": 59830
    },
    {
      "epoch": 0.12466666666666666,
      "grad_norm": 0.7481479644775391,
      "learning_rate": 0.00028929157871820195,
      "loss": 4.0001,
      "step": 59840
    },
    {
      "epoch": 0.1246875,
      "grad_norm": 0.8457802534103394,
      "learning_rate": 0.0002892879203424407,
      "loss": 3.9026,
      "step": 59850
    },
    {
      "epoch": 0.12470833333333334,
      "grad_norm": 0.8258662819862366,
      "learning_rate": 0.00028928426136501075,
      "loss": 3.9642,
      "step": 59860
    },
    {
      "epoch": 0.12472916666666667,
      "grad_norm": 0.8082558512687683,
      "learning_rate": 0.0002892806017859279,
      "loss": 3.9333,
      "step": 59870
    },
    {
      "epoch": 0.12475,
      "grad_norm": 0.738173246383667,
      "learning_rate": 0.00028927694160520807,
      "loss": 3.9039,
      "step": 59880
    },
    {
      "epoch": 0.12477083333333333,
      "grad_norm": 0.708177387714386,
      "learning_rate": 0.0002892732808228669,
      "loss": 4.0146,
      "step": 59890
    },
    {
      "epoch": 0.12479166666666666,
      "grad_norm": 0.8138661980628967,
      "learning_rate": 0.00028926961943892033,
      "loss": 4.0054,
      "step": 59900
    },
    {
      "epoch": 0.1248125,
      "grad_norm": 0.756485104560852,
      "learning_rate": 0.0002892659574533841,
      "loss": 4.0088,
      "step": 59910
    },
    {
      "epoch": 0.12483333333333334,
      "grad_norm": 0.8877274394035339,
      "learning_rate": 0.000289262294866274,
      "loss": 3.9209,
      "step": 59920
    },
    {
      "epoch": 0.12485416666666667,
      "grad_norm": 0.8121849894523621,
      "learning_rate": 0.00028925863167760603,
      "loss": 3.9011,
      "step": 59930
    },
    {
      "epoch": 0.124875,
      "grad_norm": 0.7649674415588379,
      "learning_rate": 0.00028925496788739585,
      "loss": 3.943,
      "step": 59940
    },
    {
      "epoch": 0.12489583333333333,
      "grad_norm": 0.7809200882911682,
      "learning_rate": 0.0002892513034956593,
      "loss": 3.8926,
      "step": 59950
    },
    {
      "epoch": 0.12491666666666666,
      "grad_norm": 0.7339300513267517,
      "learning_rate": 0.00028924763850241226,
      "loss": 3.9329,
      "step": 59960
    },
    {
      "epoch": 0.1249375,
      "grad_norm": 0.7218712568283081,
      "learning_rate": 0.00028924397290767056,
      "loss": 3.9588,
      "step": 59970
    },
    {
      "epoch": 0.12495833333333334,
      "grad_norm": 0.7451568841934204,
      "learning_rate": 0.00028924030671145,
      "loss": 4.0311,
      "step": 59980
    },
    {
      "epoch": 0.12497916666666667,
      "grad_norm": 0.686890184879303,
      "learning_rate": 0.0002892366399137664,
      "loss": 4.1959,
      "step": 59990
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.7072442770004272,
      "learning_rate": 0.00028923297251463566,
      "loss": 3.9393,
      "step": 60000
    },
    {
      "epoch": 0.125,
      "eval_loss": 4.28720760345459,
      "eval_runtime": 9.0117,
      "eval_samples_per_second": 1.11,
      "eval_steps_per_second": 0.333,
      "step": 60000
    },
    {
      "epoch": 0.12502083333333333,
      "grad_norm": 0.7938657999038696,
      "learning_rate": 0.0002892293045140736,
      "loss": 4.0312,
      "step": 60010
    },
    {
      "epoch": 0.12504166666666666,
      "grad_norm": 0.8946004509925842,
      "learning_rate": 0.00028922563591209604,
      "loss": 3.8607,
      "step": 60020
    },
    {
      "epoch": 0.1250625,
      "grad_norm": 0.7370315790176392,
      "learning_rate": 0.00028922196670871887,
      "loss": 3.902,
      "step": 60030
    },
    {
      "epoch": 0.12508333333333332,
      "grad_norm": 0.8435665369033813,
      "learning_rate": 0.00028921829690395785,
      "loss": 3.9777,
      "step": 60040
    },
    {
      "epoch": 0.12510416666666666,
      "grad_norm": 0.6935549378395081,
      "learning_rate": 0.0002892146264978289,
      "loss": 4.0133,
      "step": 60050
    },
    {
      "epoch": 0.125125,
      "grad_norm": 0.8371921181678772,
      "learning_rate": 0.0002892109554903479,
      "loss": 3.9291,
      "step": 60060
    },
    {
      "epoch": 0.12514583333333335,
      "grad_norm": 0.7603539228439331,
      "learning_rate": 0.0002892072838815307,
      "loss": 3.8231,
      "step": 60070
    },
    {
      "epoch": 0.12516666666666668,
      "grad_norm": 0.8785008788108826,
      "learning_rate": 0.0002892036116713931,
      "loss": 3.9849,
      "step": 60080
    },
    {
      "epoch": 0.1251875,
      "grad_norm": 0.8890485167503357,
      "learning_rate": 0.000289199938859951,
      "loss": 3.8977,
      "step": 60090
    },
    {
      "epoch": 0.12520833333333334,
      "grad_norm": 0.8059565424919128,
      "learning_rate": 0.0002891962654472203,
      "loss": 4.0073,
      "step": 60100
    },
    {
      "epoch": 0.12522916666666667,
      "grad_norm": 1.1788880825042725,
      "learning_rate": 0.00028919259143321676,
      "loss": 4.0699,
      "step": 60110
    },
    {
      "epoch": 0.12525,
      "grad_norm": 0.674269437789917,
      "learning_rate": 0.00028918891681795636,
      "loss": 3.936,
      "step": 60120
    },
    {
      "epoch": 0.12527083333333333,
      "grad_norm": 0.7835066914558411,
      "learning_rate": 0.00028918524160145495,
      "loss": 4.1285,
      "step": 60130
    },
    {
      "epoch": 0.12529166666666666,
      "grad_norm": 0.8505450487136841,
      "learning_rate": 0.00028918156578372836,
      "loss": 3.9707,
      "step": 60140
    },
    {
      "epoch": 0.1253125,
      "grad_norm": 0.7157944440841675,
      "learning_rate": 0.0002891778893647925,
      "loss": 4.0334,
      "step": 60150
    },
    {
      "epoch": 0.12533333333333332,
      "grad_norm": 0.9668766856193542,
      "learning_rate": 0.0002891742123446633,
      "loss": 3.9565,
      "step": 60160
    },
    {
      "epoch": 0.12535416666666666,
      "grad_norm": 0.8028192520141602,
      "learning_rate": 0.0002891705347233565,
      "loss": 4.0438,
      "step": 60170
    },
    {
      "epoch": 0.125375,
      "grad_norm": 0.6840729117393494,
      "learning_rate": 0.00028916685650088816,
      "loss": 3.8411,
      "step": 60180
    },
    {
      "epoch": 0.12539583333333335,
      "grad_norm": 0.791264533996582,
      "learning_rate": 0.00028916317767727404,
      "loss": 4.0413,
      "step": 60190
    },
    {
      "epoch": 0.12541666666666668,
      "grad_norm": 0.7025873064994812,
      "learning_rate": 0.0002891594982525301,
      "loss": 4.0147,
      "step": 60200
    },
    {
      "epoch": 0.1254375,
      "grad_norm": 0.886669397354126,
      "learning_rate": 0.0002891558182266722,
      "loss": 4.0577,
      "step": 60210
    },
    {
      "epoch": 0.12545833333333334,
      "grad_norm": 0.8872464299201965,
      "learning_rate": 0.0002891521375997163,
      "loss": 3.9073,
      "step": 60220
    },
    {
      "epoch": 0.12547916666666667,
      "grad_norm": 0.8161237835884094,
      "learning_rate": 0.00028914845637167816,
      "loss": 4.1724,
      "step": 60230
    },
    {
      "epoch": 0.1255,
      "grad_norm": 0.7949292659759521,
      "learning_rate": 0.0002891447745425738,
      "loss": 3.8022,
      "step": 60240
    },
    {
      "epoch": 0.12552083333333333,
      "grad_norm": 0.8857943415641785,
      "learning_rate": 0.00028914109211241907,
      "loss": 3.9048,
      "step": 60250
    },
    {
      "epoch": 0.12554166666666666,
      "grad_norm": 0.7364353537559509,
      "learning_rate": 0.00028913740908122996,
      "loss": 3.9839,
      "step": 60260
    },
    {
      "epoch": 0.1255625,
      "grad_norm": 0.933562695980072,
      "learning_rate": 0.00028913372544902226,
      "loss": 3.8054,
      "step": 60270
    },
    {
      "epoch": 0.12558333333333332,
      "grad_norm": 0.8075403571128845,
      "learning_rate": 0.000289130041215812,
      "loss": 4.0915,
      "step": 60280
    },
    {
      "epoch": 0.12560416666666666,
      "grad_norm": 0.7791281938552856,
      "learning_rate": 0.000289126356381615,
      "loss": 4.1305,
      "step": 60290
    },
    {
      "epoch": 0.125625,
      "grad_norm": 0.9419851899147034,
      "learning_rate": 0.00028912267094644717,
      "loss": 3.8728,
      "step": 60300
    },
    {
      "epoch": 0.12564583333333335,
      "grad_norm": 0.8592372536659241,
      "learning_rate": 0.0002891189849103245,
      "loss": 4.0526,
      "step": 60310
    },
    {
      "epoch": 0.12566666666666668,
      "grad_norm": 0.7462857961654663,
      "learning_rate": 0.00028911529827326286,
      "loss": 4.0598,
      "step": 60320
    },
    {
      "epoch": 0.1256875,
      "grad_norm": 0.8161598443984985,
      "learning_rate": 0.00028911161103527825,
      "loss": 4.0764,
      "step": 60330
    },
    {
      "epoch": 0.12570833333333334,
      "grad_norm": 0.7606133222579956,
      "learning_rate": 0.0002891079231963865,
      "loss": 3.9356,
      "step": 60340
    },
    {
      "epoch": 0.12572916666666667,
      "grad_norm": 0.8097771406173706,
      "learning_rate": 0.00028910423475660363,
      "loss": 3.9205,
      "step": 60350
    },
    {
      "epoch": 0.12575,
      "grad_norm": 0.8620128035545349,
      "learning_rate": 0.00028910054571594545,
      "loss": 4.1485,
      "step": 60360
    },
    {
      "epoch": 0.12577083333333333,
      "grad_norm": 0.6869148015975952,
      "learning_rate": 0.000289096856074428,
      "loss": 4.0486,
      "step": 60370
    },
    {
      "epoch": 0.12579166666666666,
      "grad_norm": 0.8374132513999939,
      "learning_rate": 0.0002890931658320673,
      "loss": 4.206,
      "step": 60380
    },
    {
      "epoch": 0.1258125,
      "grad_norm": 0.8259112238883972,
      "learning_rate": 0.0002890894749888791,
      "loss": 3.9356,
      "step": 60390
    },
    {
      "epoch": 0.12583333333333332,
      "grad_norm": 0.7517826557159424,
      "learning_rate": 0.00028908578354487933,
      "loss": 3.9405,
      "step": 60400
    },
    {
      "epoch": 0.12585416666666666,
      "grad_norm": 0.7363294363021851,
      "learning_rate": 0.0002890820915000841,
      "loss": 4.0188,
      "step": 60410
    },
    {
      "epoch": 0.125875,
      "grad_norm": 0.807552695274353,
      "learning_rate": 0.00028907839885450933,
      "loss": 3.8898,
      "step": 60420
    },
    {
      "epoch": 0.12589583333333335,
      "grad_norm": 0.7601284384727478,
      "learning_rate": 0.0002890747056081709,
      "loss": 4.1817,
      "step": 60430
    },
    {
      "epoch": 0.12591666666666668,
      "grad_norm": 0.704624354839325,
      "learning_rate": 0.00028907101176108485,
      "loss": 3.7147,
      "step": 60440
    },
    {
      "epoch": 0.1259375,
      "grad_norm": 0.802403450012207,
      "learning_rate": 0.000289067317313267,
      "loss": 4.0138,
      "step": 60450
    },
    {
      "epoch": 0.12595833333333334,
      "grad_norm": 0.8417935967445374,
      "learning_rate": 0.0002890636222647334,
      "loss": 3.9062,
      "step": 60460
    },
    {
      "epoch": 0.12597916666666667,
      "grad_norm": 0.8078790903091431,
      "learning_rate": 0.00028905992661549997,
      "loss": 4.2054,
      "step": 60470
    },
    {
      "epoch": 0.126,
      "grad_norm": 0.7516436576843262,
      "learning_rate": 0.0002890562303655827,
      "loss": 4.0041,
      "step": 60480
    },
    {
      "epoch": 0.12602083333333333,
      "grad_norm": 0.7557108998298645,
      "learning_rate": 0.0002890525335149976,
      "loss": 4.1824,
      "step": 60490
    },
    {
      "epoch": 0.12604166666666666,
      "grad_norm": 0.7858701348304749,
      "learning_rate": 0.00028904883606376057,
      "loss": 4.1519,
      "step": 60500
    },
    {
      "epoch": 0.1260625,
      "grad_norm": 1.0312234163284302,
      "learning_rate": 0.00028904513801188765,
      "loss": 3.9145,
      "step": 60510
    },
    {
      "epoch": 0.12608333333333333,
      "grad_norm": 0.7540333867073059,
      "learning_rate": 0.00028904143935939476,
      "loss": 3.9719,
      "step": 60520
    },
    {
      "epoch": 0.12610416666666666,
      "grad_norm": 0.7975886464118958,
      "learning_rate": 0.0002890377401062979,
      "loss": 3.9563,
      "step": 60530
    },
    {
      "epoch": 0.126125,
      "grad_norm": 0.9473792314529419,
      "learning_rate": 0.000289034040252613,
      "loss": 3.938,
      "step": 60540
    },
    {
      "epoch": 0.12614583333333335,
      "grad_norm": 0.860109269618988,
      "learning_rate": 0.0002890303397983561,
      "loss": 4.1183,
      "step": 60550
    },
    {
      "epoch": 0.12616666666666668,
      "grad_norm": 0.7677061557769775,
      "learning_rate": 0.0002890266387435431,
      "loss": 3.9338,
      "step": 60560
    },
    {
      "epoch": 0.1261875,
      "grad_norm": 0.7373406887054443,
      "learning_rate": 0.0002890229370881901,
      "loss": 4.0212,
      "step": 60570
    },
    {
      "epoch": 0.12620833333333334,
      "grad_norm": 0.8216800093650818,
      "learning_rate": 0.00028901923483231305,
      "loss": 3.8123,
      "step": 60580
    },
    {
      "epoch": 0.12622916666666667,
      "grad_norm": 1.002684473991394,
      "learning_rate": 0.00028901553197592793,
      "loss": 3.9867,
      "step": 60590
    },
    {
      "epoch": 0.12625,
      "grad_norm": 0.9084351658821106,
      "learning_rate": 0.00028901182851905077,
      "loss": 3.977,
      "step": 60600
    },
    {
      "epoch": 0.12627083333333333,
      "grad_norm": 0.8241257667541504,
      "learning_rate": 0.0002890081244616975,
      "loss": 3.8968,
      "step": 60610
    },
    {
      "epoch": 0.12629166666666666,
      "grad_norm": 0.874335527420044,
      "learning_rate": 0.00028900441980388413,
      "loss": 3.7263,
      "step": 60620
    },
    {
      "epoch": 0.1263125,
      "grad_norm": 0.826405942440033,
      "learning_rate": 0.00028900071454562675,
      "loss": 4.0882,
      "step": 60630
    },
    {
      "epoch": 0.12633333333333333,
      "grad_norm": 0.7330197095870972,
      "learning_rate": 0.0002889970086869413,
      "loss": 4.0003,
      "step": 60640
    },
    {
      "epoch": 0.12635416666666666,
      "grad_norm": 0.7969862222671509,
      "learning_rate": 0.0002889933022278437,
      "loss": 4.0476,
      "step": 60650
    },
    {
      "epoch": 0.126375,
      "grad_norm": 0.8110573291778564,
      "learning_rate": 0.0002889895951683501,
      "loss": 3.9893,
      "step": 60660
    },
    {
      "epoch": 0.12639583333333335,
      "grad_norm": 0.8254937529563904,
      "learning_rate": 0.0002889858875084765,
      "loss": 3.8509,
      "step": 60670
    },
    {
      "epoch": 0.12641666666666668,
      "grad_norm": 0.6985463500022888,
      "learning_rate": 0.00028898217924823883,
      "loss": 3.8031,
      "step": 60680
    },
    {
      "epoch": 0.1264375,
      "grad_norm": 0.7574479579925537,
      "learning_rate": 0.0002889784703876532,
      "loss": 4.0823,
      "step": 60690
    },
    {
      "epoch": 0.12645833333333334,
      "grad_norm": 0.7724580764770508,
      "learning_rate": 0.0002889747609267356,
      "loss": 4.0063,
      "step": 60700
    },
    {
      "epoch": 0.12647916666666667,
      "grad_norm": 0.7890344262123108,
      "learning_rate": 0.00028897105086550203,
      "loss": 3.9134,
      "step": 60710
    },
    {
      "epoch": 0.1265,
      "grad_norm": 0.7539457678794861,
      "learning_rate": 0.0002889673402039685,
      "loss": 3.9517,
      "step": 60720
    },
    {
      "epoch": 0.12652083333333333,
      "grad_norm": 0.8730541467666626,
      "learning_rate": 0.0002889636289421511,
      "loss": 3.7703,
      "step": 60730
    },
    {
      "epoch": 0.12654166666666666,
      "grad_norm": 0.7584896683692932,
      "learning_rate": 0.0002889599170800658,
      "loss": 3.9123,
      "step": 60740
    },
    {
      "epoch": 0.1265625,
      "grad_norm": 0.8171037435531616,
      "learning_rate": 0.0002889562046177287,
      "loss": 4.0883,
      "step": 60750
    },
    {
      "epoch": 0.12658333333333333,
      "grad_norm": 0.7055708169937134,
      "learning_rate": 0.0002889524915551557,
      "loss": 4.1388,
      "step": 60760
    },
    {
      "epoch": 0.12660416666666666,
      "grad_norm": 0.7542836666107178,
      "learning_rate": 0.000288948777892363,
      "loss": 4.1123,
      "step": 60770
    },
    {
      "epoch": 0.126625,
      "grad_norm": 0.9140307903289795,
      "learning_rate": 0.0002889450636293667,
      "loss": 4.0347,
      "step": 60780
    },
    {
      "epoch": 0.12664583333333335,
      "grad_norm": 0.6957630515098572,
      "learning_rate": 0.00028894134876618257,
      "loss": 3.7942,
      "step": 60790
    },
    {
      "epoch": 0.12666666666666668,
      "grad_norm": 0.8609126210212708,
      "learning_rate": 0.00028893763330282686,
      "loss": 3.9557,
      "step": 60800
    },
    {
      "epoch": 0.1266875,
      "grad_norm": 0.8003653883934021,
      "learning_rate": 0.00028893391723931554,
      "loss": 3.9745,
      "step": 60810
    },
    {
      "epoch": 0.12670833333333334,
      "grad_norm": 0.8086019158363342,
      "learning_rate": 0.00028893020057566476,
      "loss": 3.9764,
      "step": 60820
    },
    {
      "epoch": 0.12672916666666667,
      "grad_norm": 1.2051727771759033,
      "learning_rate": 0.0002889264833118904,
      "loss": 3.9296,
      "step": 60830
    },
    {
      "epoch": 0.12675,
      "grad_norm": 0.8857113718986511,
      "learning_rate": 0.00028892276544800874,
      "loss": 4.0676,
      "step": 60840
    },
    {
      "epoch": 0.12677083333333333,
      "grad_norm": 0.9673714637756348,
      "learning_rate": 0.00028891904698403564,
      "loss": 3.8101,
      "step": 60850
    },
    {
      "epoch": 0.12679166666666666,
      "grad_norm": 0.6959283351898193,
      "learning_rate": 0.0002889153279199873,
      "loss": 3.919,
      "step": 60860
    },
    {
      "epoch": 0.1268125,
      "grad_norm": 0.8324857354164124,
      "learning_rate": 0.0002889116082558797,
      "loss": 3.9988,
      "step": 60870
    },
    {
      "epoch": 0.12683333333333333,
      "grad_norm": 0.7852594256401062,
      "learning_rate": 0.0002889078879917289,
      "loss": 3.9497,
      "step": 60880
    },
    {
      "epoch": 0.12685416666666666,
      "grad_norm": 0.7781233787536621,
      "learning_rate": 0.0002889041671275511,
      "loss": 4.0122,
      "step": 60890
    },
    {
      "epoch": 0.126875,
      "grad_norm": 0.8362337946891785,
      "learning_rate": 0.0002889004456633622,
      "loss": 3.9008,
      "step": 60900
    },
    {
      "epoch": 0.12689583333333335,
      "grad_norm": 0.8719832897186279,
      "learning_rate": 0.00028889672359917837,
      "loss": 4.002,
      "step": 60910
    },
    {
      "epoch": 0.12691666666666668,
      "grad_norm": 0.9351271390914917,
      "learning_rate": 0.0002888930009350157,
      "loss": 4.0169,
      "step": 60920
    },
    {
      "epoch": 0.1269375,
      "grad_norm": 0.903186559677124,
      "learning_rate": 0.0002888892776708902,
      "loss": 3.9846,
      "step": 60930
    },
    {
      "epoch": 0.12695833333333334,
      "grad_norm": 0.7567930817604065,
      "learning_rate": 0.000288885553806818,
      "loss": 4.1078,
      "step": 60940
    },
    {
      "epoch": 0.12697916666666667,
      "grad_norm": 0.8457116484642029,
      "learning_rate": 0.00028888182934281524,
      "loss": 3.9232,
      "step": 60950
    },
    {
      "epoch": 0.127,
      "grad_norm": 0.7832955718040466,
      "learning_rate": 0.0002888781042788979,
      "loss": 3.9155,
      "step": 60960
    },
    {
      "epoch": 0.12702083333333333,
      "grad_norm": 0.8154991269111633,
      "learning_rate": 0.00028887437861508216,
      "loss": 3.952,
      "step": 60970
    },
    {
      "epoch": 0.12704166666666666,
      "grad_norm": 0.6976743340492249,
      "learning_rate": 0.00028887065235138406,
      "loss": 3.7856,
      "step": 60980
    },
    {
      "epoch": 0.1270625,
      "grad_norm": 0.9455711245536804,
      "learning_rate": 0.00028886692548781966,
      "loss": 3.8777,
      "step": 60990
    },
    {
      "epoch": 0.12708333333333333,
      "grad_norm": 0.763398289680481,
      "learning_rate": 0.00028886319802440524,
      "loss": 3.7209,
      "step": 61000
    },
    {
      "epoch": 0.12708333333333333,
      "eval_loss": 4.287923812866211,
      "eval_runtime": 9.1484,
      "eval_samples_per_second": 1.093,
      "eval_steps_per_second": 0.328,
      "step": 61000
    },
    {
      "epoch": 0.12710416666666666,
      "grad_norm": 1.1051127910614014,
      "learning_rate": 0.00028885946996115667,
      "loss": 4.0904,
      "step": 61010
    },
    {
      "epoch": 0.127125,
      "grad_norm": 0.9172490239143372,
      "learning_rate": 0.00028885574129809016,
      "loss": 3.8315,
      "step": 61020
    },
    {
      "epoch": 0.12714583333333335,
      "grad_norm": 0.7655858993530273,
      "learning_rate": 0.0002888520120352218,
      "loss": 3.9134,
      "step": 61030
    },
    {
      "epoch": 0.12716666666666668,
      "grad_norm": 0.8090442419052124,
      "learning_rate": 0.0002888482821725677,
      "loss": 3.8689,
      "step": 61040
    },
    {
      "epoch": 0.1271875,
      "grad_norm": 0.9529104828834534,
      "learning_rate": 0.00028884455171014406,
      "loss": 3.8465,
      "step": 61050
    },
    {
      "epoch": 0.12720833333333334,
      "grad_norm": 0.8737719058990479,
      "learning_rate": 0.00028884082064796685,
      "loss": 4.0562,
      "step": 61060
    },
    {
      "epoch": 0.12722916666666667,
      "grad_norm": 0.7594736218452454,
      "learning_rate": 0.00028883708898605226,
      "loss": 3.9399,
      "step": 61070
    },
    {
      "epoch": 0.12725,
      "grad_norm": 0.8324337005615234,
      "learning_rate": 0.00028883335672441645,
      "loss": 3.7896,
      "step": 61080
    },
    {
      "epoch": 0.12727083333333333,
      "grad_norm": 0.8630604147911072,
      "learning_rate": 0.0002888296238630754,
      "loss": 3.7303,
      "step": 61090
    },
    {
      "epoch": 0.12729166666666666,
      "grad_norm": 0.8114852905273438,
      "learning_rate": 0.0002888258904020454,
      "loss": 3.7024,
      "step": 61100
    },
    {
      "epoch": 0.1273125,
      "grad_norm": 0.8312705755233765,
      "learning_rate": 0.0002888221563413425,
      "loss": 4.0739,
      "step": 61110
    },
    {
      "epoch": 0.12733333333333333,
      "grad_norm": 0.7749174237251282,
      "learning_rate": 0.0002888184216809828,
      "loss": 3.8756,
      "step": 61120
    },
    {
      "epoch": 0.12735416666666666,
      "grad_norm": 0.7750731706619263,
      "learning_rate": 0.0002888146864209825,
      "loss": 3.8073,
      "step": 61130
    },
    {
      "epoch": 0.127375,
      "grad_norm": 0.7352844476699829,
      "learning_rate": 0.0002888109505613577,
      "loss": 3.8894,
      "step": 61140
    },
    {
      "epoch": 0.12739583333333335,
      "grad_norm": 0.7904594540596008,
      "learning_rate": 0.00028880721410212446,
      "loss": 3.9235,
      "step": 61150
    },
    {
      "epoch": 0.12741666666666668,
      "grad_norm": 0.7542045712471008,
      "learning_rate": 0.0002888034770432991,
      "loss": 3.741,
      "step": 61160
    },
    {
      "epoch": 0.1274375,
      "grad_norm": 1.505204200744629,
      "learning_rate": 0.00028879973938489767,
      "loss": 3.9496,
      "step": 61170
    },
    {
      "epoch": 0.12745833333333334,
      "grad_norm": 0.8246521949768066,
      "learning_rate": 0.0002887960011269362,
      "loss": 3.9049,
      "step": 61180
    },
    {
      "epoch": 0.12747916666666667,
      "grad_norm": 0.7489678859710693,
      "learning_rate": 0.000288792262269431,
      "loss": 3.8862,
      "step": 61190
    },
    {
      "epoch": 0.1275,
      "grad_norm": 0.9692955613136292,
      "learning_rate": 0.0002887885228123982,
      "loss": 4.2078,
      "step": 61200
    },
    {
      "epoch": 0.12752083333333333,
      "grad_norm": 0.7524981498718262,
      "learning_rate": 0.0002887847827558539,
      "loss": 3.9221,
      "step": 61210
    },
    {
      "epoch": 0.12754166666666666,
      "grad_norm": 0.7256855964660645,
      "learning_rate": 0.00028878104209981425,
      "loss": 3.9371,
      "step": 61220
    },
    {
      "epoch": 0.1275625,
      "grad_norm": 0.7405052781105042,
      "learning_rate": 0.00028877730084429543,
      "loss": 3.7976,
      "step": 61230
    },
    {
      "epoch": 0.12758333333333333,
      "grad_norm": 0.686054527759552,
      "learning_rate": 0.0002887735589893136,
      "loss": 3.9823,
      "step": 61240
    },
    {
      "epoch": 0.12760416666666666,
      "grad_norm": 0.8101739883422852,
      "learning_rate": 0.000288769816534885,
      "loss": 3.8436,
      "step": 61250
    },
    {
      "epoch": 0.127625,
      "grad_norm": 0.8506412506103516,
      "learning_rate": 0.0002887660734810256,
      "loss": 3.6383,
      "step": 61260
    },
    {
      "epoch": 0.12764583333333332,
      "grad_norm": 0.759671151638031,
      "learning_rate": 0.0002887623298277518,
      "loss": 4.1777,
      "step": 61270
    },
    {
      "epoch": 0.12766666666666668,
      "grad_norm": 0.7864165902137756,
      "learning_rate": 0.00028875858557507954,
      "loss": 3.9138,
      "step": 61280
    },
    {
      "epoch": 0.1276875,
      "grad_norm": 0.8545771241188049,
      "learning_rate": 0.0002887548407230252,
      "loss": 3.9701,
      "step": 61290
    },
    {
      "epoch": 0.12770833333333334,
      "grad_norm": 0.8817317485809326,
      "learning_rate": 0.0002887510952716049,
      "loss": 4.1159,
      "step": 61300
    },
    {
      "epoch": 0.12772916666666667,
      "grad_norm": 0.8003915548324585,
      "learning_rate": 0.00028874734922083476,
      "loss": 3.9552,
      "step": 61310
    },
    {
      "epoch": 0.12775,
      "grad_norm": 0.8924831748008728,
      "learning_rate": 0.00028874360257073094,
      "loss": 3.8781,
      "step": 61320
    },
    {
      "epoch": 0.12777083333333333,
      "grad_norm": 0.7434861063957214,
      "learning_rate": 0.0002887398553213097,
      "loss": 3.9836,
      "step": 61330
    },
    {
      "epoch": 0.12779166666666666,
      "grad_norm": 0.9810456037521362,
      "learning_rate": 0.00028873610747258725,
      "loss": 3.9439,
      "step": 61340
    },
    {
      "epoch": 0.1278125,
      "grad_norm": 0.891255795955658,
      "learning_rate": 0.0002887323590245797,
      "loss": 4.0191,
      "step": 61350
    },
    {
      "epoch": 0.12783333333333333,
      "grad_norm": 0.8339742422103882,
      "learning_rate": 0.0002887286099773033,
      "loss": 4.0626,
      "step": 61360
    },
    {
      "epoch": 0.12785416666666666,
      "grad_norm": 0.7439171075820923,
      "learning_rate": 0.00028872486033077415,
      "loss": 3.8287,
      "step": 61370
    },
    {
      "epoch": 0.127875,
      "grad_norm": 0.7904273867607117,
      "learning_rate": 0.0002887211100850086,
      "loss": 4.0135,
      "step": 61380
    },
    {
      "epoch": 0.12789583333333332,
      "grad_norm": 0.7425794005393982,
      "learning_rate": 0.0002887173592400227,
      "loss": 3.9209,
      "step": 61390
    },
    {
      "epoch": 0.12791666666666668,
      "grad_norm": 0.7106251120567322,
      "learning_rate": 0.0002887136077958327,
      "loss": 4.1245,
      "step": 61400
    },
    {
      "epoch": 0.1279375,
      "grad_norm": 0.9474292397499084,
      "learning_rate": 0.0002887098557524549,
      "loss": 4.0796,
      "step": 61410
    },
    {
      "epoch": 0.12795833333333334,
      "grad_norm": 0.7221065759658813,
      "learning_rate": 0.00028870610310990534,
      "loss": 3.9997,
      "step": 61420
    },
    {
      "epoch": 0.12797916666666667,
      "grad_norm": 0.9385656118392944,
      "learning_rate": 0.0002887023498682004,
      "loss": 3.9463,
      "step": 61430
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.7779279947280884,
      "learning_rate": 0.00028869859602735615,
      "loss": 3.8312,
      "step": 61440
    },
    {
      "epoch": 0.12802083333333333,
      "grad_norm": 0.7909709215164185,
      "learning_rate": 0.0002886948415873889,
      "loss": 3.9831,
      "step": 61450
    },
    {
      "epoch": 0.12804166666666666,
      "grad_norm": 0.9989987015724182,
      "learning_rate": 0.0002886910865483148,
      "loss": 3.9094,
      "step": 61460
    },
    {
      "epoch": 0.1280625,
      "grad_norm": 0.7156909704208374,
      "learning_rate": 0.0002886873309101502,
      "loss": 3.9008,
      "step": 61470
    },
    {
      "epoch": 0.12808333333333333,
      "grad_norm": 0.8344561457633972,
      "learning_rate": 0.0002886835746729111,
      "loss": 3.868,
      "step": 61480
    },
    {
      "epoch": 0.12810416666666666,
      "grad_norm": 1.0914440155029297,
      "learning_rate": 0.00028867981783661393,
      "loss": 3.7861,
      "step": 61490
    },
    {
      "epoch": 0.128125,
      "grad_norm": 0.8887757658958435,
      "learning_rate": 0.0002886760604012748,
      "loss": 3.9473,
      "step": 61500
    },
    {
      "epoch": 0.12814583333333332,
      "grad_norm": 0.7789912819862366,
      "learning_rate": 0.00028867230236690996,
      "loss": 3.9543,
      "step": 61510
    },
    {
      "epoch": 0.12816666666666668,
      "grad_norm": 0.7727817296981812,
      "learning_rate": 0.00028866854373353574,
      "loss": 3.8115,
      "step": 61520
    },
    {
      "epoch": 0.1281875,
      "grad_norm": 0.8751269578933716,
      "learning_rate": 0.00028866478450116824,
      "loss": 3.9353,
      "step": 61530
    },
    {
      "epoch": 0.12820833333333334,
      "grad_norm": 0.7210761904716492,
      "learning_rate": 0.0002886610246698238,
      "loss": 3.9399,
      "step": 61540
    },
    {
      "epoch": 0.12822916666666667,
      "grad_norm": 0.8175551891326904,
      "learning_rate": 0.00028865726423951856,
      "loss": 4.0759,
      "step": 61550
    },
    {
      "epoch": 0.12825,
      "grad_norm": 0.8469225764274597,
      "learning_rate": 0.00028865350321026885,
      "loss": 4.0774,
      "step": 61560
    },
    {
      "epoch": 0.12827083333333333,
      "grad_norm": 0.7504050135612488,
      "learning_rate": 0.0002886497415820909,
      "loss": 3.866,
      "step": 61570
    },
    {
      "epoch": 0.12829166666666666,
      "grad_norm": 0.8660836815834045,
      "learning_rate": 0.00028864597935500093,
      "loss": 3.9971,
      "step": 61580
    },
    {
      "epoch": 0.1283125,
      "grad_norm": 0.856931209564209,
      "learning_rate": 0.00028864221652901524,
      "loss": 4.0553,
      "step": 61590
    },
    {
      "epoch": 0.12833333333333333,
      "grad_norm": 0.8365288376808167,
      "learning_rate": 0.0002886384531041501,
      "loss": 3.9554,
      "step": 61600
    },
    {
      "epoch": 0.12835416666666666,
      "grad_norm": 1.439513087272644,
      "learning_rate": 0.00028863468908042164,
      "loss": 3.916,
      "step": 61610
    },
    {
      "epoch": 0.128375,
      "grad_norm": 0.6183876395225525,
      "learning_rate": 0.0002886309244578462,
      "loss": 3.8461,
      "step": 61620
    },
    {
      "epoch": 0.12839583333333332,
      "grad_norm": 0.8674808740615845,
      "learning_rate": 0.00028862715923644,
      "loss": 4.0145,
      "step": 61630
    },
    {
      "epoch": 0.12841666666666668,
      "grad_norm": 0.8447003364562988,
      "learning_rate": 0.0002886233934162195,
      "loss": 3.9562,
      "step": 61640
    },
    {
      "epoch": 0.1284375,
      "grad_norm": 0.7390338182449341,
      "learning_rate": 0.00028861962699720063,
      "loss": 3.9345,
      "step": 61650
    },
    {
      "epoch": 0.12845833333333334,
      "grad_norm": 0.720236599445343,
      "learning_rate": 0.00028861585997939996,
      "loss": 3.9654,
      "step": 61660
    },
    {
      "epoch": 0.12847916666666667,
      "grad_norm": 0.8288233280181885,
      "learning_rate": 0.00028861209236283363,
      "loss": 3.9892,
      "step": 61670
    },
    {
      "epoch": 0.1285,
      "grad_norm": 0.8046872615814209,
      "learning_rate": 0.0002886083241475179,
      "loss": 3.9683,
      "step": 61680
    },
    {
      "epoch": 0.12852083333333333,
      "grad_norm": 0.7820006608963013,
      "learning_rate": 0.0002886045553334691,
      "loss": 4.0049,
      "step": 61690
    },
    {
      "epoch": 0.12854166666666667,
      "grad_norm": 0.8209354281425476,
      "learning_rate": 0.00028860078592070343,
      "loss": 3.8926,
      "step": 61700
    },
    {
      "epoch": 0.1285625,
      "grad_norm": 0.7795466780662537,
      "learning_rate": 0.0002885970159092373,
      "loss": 4.0254,
      "step": 61710
    },
    {
      "epoch": 0.12858333333333333,
      "grad_norm": 0.7272736430168152,
      "learning_rate": 0.00028859324529908684,
      "loss": 3.8052,
      "step": 61720
    },
    {
      "epoch": 0.12860416666666666,
      "grad_norm": 0.7354869842529297,
      "learning_rate": 0.00028858947409026846,
      "loss": 4.0771,
      "step": 61730
    },
    {
      "epoch": 0.128625,
      "grad_norm": 0.8998373746871948,
      "learning_rate": 0.00028858570228279843,
      "loss": 4.0844,
      "step": 61740
    },
    {
      "epoch": 0.12864583333333332,
      "grad_norm": 0.8348240852355957,
      "learning_rate": 0.000288581929876693,
      "loss": 3.915,
      "step": 61750
    },
    {
      "epoch": 0.12866666666666668,
      "grad_norm": 0.8414510488510132,
      "learning_rate": 0.0002885781568719685,
      "loss": 3.8531,
      "step": 61760
    },
    {
      "epoch": 0.1286875,
      "grad_norm": 0.9240438342094421,
      "learning_rate": 0.0002885743832686412,
      "loss": 4.0675,
      "step": 61770
    },
    {
      "epoch": 0.12870833333333334,
      "grad_norm": 0.8169786334037781,
      "learning_rate": 0.00028857060906672743,
      "loss": 3.9115,
      "step": 61780
    },
    {
      "epoch": 0.12872916666666667,
      "grad_norm": 0.7972378730773926,
      "learning_rate": 0.0002885668342662434,
      "loss": 3.9547,
      "step": 61790
    },
    {
      "epoch": 0.12875,
      "grad_norm": 0.8230486512184143,
      "learning_rate": 0.00028856305886720563,
      "loss": 3.7731,
      "step": 61800
    },
    {
      "epoch": 0.12877083333333333,
      "grad_norm": 0.7521092891693115,
      "learning_rate": 0.0002885592828696302,
      "loss": 3.975,
      "step": 61810
    },
    {
      "epoch": 0.12879166666666667,
      "grad_norm": 0.7670422792434692,
      "learning_rate": 0.0002885555062735336,
      "loss": 3.9101,
      "step": 61820
    },
    {
      "epoch": 0.1288125,
      "grad_norm": 0.755452036857605,
      "learning_rate": 0.00028855172907893195,
      "loss": 3.8589,
      "step": 61830
    },
    {
      "epoch": 0.12883333333333333,
      "grad_norm": 0.7307620644569397,
      "learning_rate": 0.0002885479512858417,
      "loss": 3.9326,
      "step": 61840
    },
    {
      "epoch": 0.12885416666666666,
      "grad_norm": 0.8128100037574768,
      "learning_rate": 0.0002885441728942792,
      "loss": 3.9678,
      "step": 61850
    },
    {
      "epoch": 0.128875,
      "grad_norm": 0.8031503558158875,
      "learning_rate": 0.00028854039390426066,
      "loss": 4.2222,
      "step": 61860
    },
    {
      "epoch": 0.12889583333333332,
      "grad_norm": 0.8833644986152649,
      "learning_rate": 0.0002885366143158025,
      "loss": 3.7372,
      "step": 61870
    },
    {
      "epoch": 0.12891666666666668,
      "grad_norm": 0.7371838688850403,
      "learning_rate": 0.00028853283412892097,
      "loss": 3.8859,
      "step": 61880
    },
    {
      "epoch": 0.1289375,
      "grad_norm": 0.7790558934211731,
      "learning_rate": 0.0002885290533436324,
      "loss": 3.8017,
      "step": 61890
    },
    {
      "epoch": 0.12895833333333334,
      "grad_norm": 0.7189053297042847,
      "learning_rate": 0.00028852527195995323,
      "loss": 3.7933,
      "step": 61900
    },
    {
      "epoch": 0.12897916666666667,
      "grad_norm": 0.7481531500816345,
      "learning_rate": 0.00028852148997789964,
      "loss": 4.0027,
      "step": 61910
    },
    {
      "epoch": 0.129,
      "grad_norm": 1.0475349426269531,
      "learning_rate": 0.0002885177073974881,
      "loss": 3.812,
      "step": 61920
    },
    {
      "epoch": 0.12902083333333333,
      "grad_norm": 0.7519072890281677,
      "learning_rate": 0.00028851392421873486,
      "loss": 3.7879,
      "step": 61930
    },
    {
      "epoch": 0.12904166666666667,
      "grad_norm": 0.7583466172218323,
      "learning_rate": 0.0002885101404416563,
      "loss": 3.9607,
      "step": 61940
    },
    {
      "epoch": 0.1290625,
      "grad_norm": 0.8214551210403442,
      "learning_rate": 0.00028850635606626876,
      "loss": 3.8604,
      "step": 61950
    },
    {
      "epoch": 0.12908333333333333,
      "grad_norm": 0.8293380737304688,
      "learning_rate": 0.00028850257109258863,
      "loss": 3.7936,
      "step": 61960
    },
    {
      "epoch": 0.12910416666666666,
      "grad_norm": 0.747519314289093,
      "learning_rate": 0.00028849878552063214,
      "loss": 4.0327,
      "step": 61970
    },
    {
      "epoch": 0.129125,
      "grad_norm": 0.6921125054359436,
      "learning_rate": 0.00028849499935041577,
      "loss": 4.0007,
      "step": 61980
    },
    {
      "epoch": 0.12914583333333332,
      "grad_norm": 0.7067583203315735,
      "learning_rate": 0.0002884912125819558,
      "loss": 3.7857,
      "step": 61990
    },
    {
      "epoch": 0.12916666666666668,
      "grad_norm": 0.8964739441871643,
      "learning_rate": 0.0002884874252152686,
      "loss": 4.0016,
      "step": 62000
    },
    {
      "epoch": 0.12916666666666668,
      "eval_loss": 4.282916069030762,
      "eval_runtime": 9.4751,
      "eval_samples_per_second": 1.055,
      "eval_steps_per_second": 0.317,
      "step": 62000
    },
    {
      "epoch": 0.1291875,
      "grad_norm": 0.8778706789016724,
      "learning_rate": 0.0002884836372503706,
      "loss": 3.8133,
      "step": 62010
    },
    {
      "epoch": 0.12920833333333334,
      "grad_norm": 0.8790547251701355,
      "learning_rate": 0.0002884798486872781,
      "loss": 3.9288,
      "step": 62020
    },
    {
      "epoch": 0.12922916666666667,
      "grad_norm": 0.81348717212677,
      "learning_rate": 0.0002884760595260074,
      "loss": 3.9689,
      "step": 62030
    },
    {
      "epoch": 0.12925,
      "grad_norm": 0.8112940192222595,
      "learning_rate": 0.00028847226976657503,
      "loss": 4.0328,
      "step": 62040
    },
    {
      "epoch": 0.12927083333333333,
      "grad_norm": 0.7730276584625244,
      "learning_rate": 0.00028846847940899715,
      "loss": 3.9279,
      "step": 62050
    },
    {
      "epoch": 0.12929166666666667,
      "grad_norm": 0.8250357508659363,
      "learning_rate": 0.0002884646884532903,
      "loss": 4.0867,
      "step": 62060
    },
    {
      "epoch": 0.1293125,
      "grad_norm": 0.7722291946411133,
      "learning_rate": 0.0002884608968994708,
      "loss": 4.0469,
      "step": 62070
    },
    {
      "epoch": 0.12933333333333333,
      "grad_norm": 0.8789347410202026,
      "learning_rate": 0.0002884571047475551,
      "loss": 3.7915,
      "step": 62080
    },
    {
      "epoch": 0.12935416666666666,
      "grad_norm": 0.762897253036499,
      "learning_rate": 0.0002884533119975594,
      "loss": 3.9942,
      "step": 62090
    },
    {
      "epoch": 0.129375,
      "grad_norm": 0.6990190744400024,
      "learning_rate": 0.0002884495186495003,
      "loss": 4.072,
      "step": 62100
    },
    {
      "epoch": 0.12939583333333332,
      "grad_norm": 0.8516274094581604,
      "learning_rate": 0.000288445724703394,
      "loss": 3.9351,
      "step": 62110
    },
    {
      "epoch": 0.12941666666666668,
      "grad_norm": 0.7349749803543091,
      "learning_rate": 0.000288441930159257,
      "loss": 3.9751,
      "step": 62120
    },
    {
      "epoch": 0.1294375,
      "grad_norm": 0.9388835430145264,
      "learning_rate": 0.00028843813501710564,
      "loss": 3.913,
      "step": 62130
    },
    {
      "epoch": 0.12945833333333334,
      "grad_norm": 1.1529096364974976,
      "learning_rate": 0.00028843433927695637,
      "loss": 4.0162,
      "step": 62140
    },
    {
      "epoch": 0.12947916666666667,
      "grad_norm": 0.766724169254303,
      "learning_rate": 0.0002884305429388255,
      "loss": 4.043,
      "step": 62150
    },
    {
      "epoch": 0.1295,
      "grad_norm": 0.7542417049407959,
      "learning_rate": 0.0002884267460027295,
      "loss": 3.9485,
      "step": 62160
    },
    {
      "epoch": 0.12952083333333334,
      "grad_norm": 0.7561097145080566,
      "learning_rate": 0.0002884229484686848,
      "loss": 4.0722,
      "step": 62170
    },
    {
      "epoch": 0.12954166666666667,
      "grad_norm": 0.7412230968475342,
      "learning_rate": 0.0002884191503367077,
      "loss": 3.8825,
      "step": 62180
    },
    {
      "epoch": 0.1295625,
      "grad_norm": 0.8826307654380798,
      "learning_rate": 0.00028841535160681466,
      "loss": 3.7563,
      "step": 62190
    },
    {
      "epoch": 0.12958333333333333,
      "grad_norm": 0.7745897173881531,
      "learning_rate": 0.00028841155227902213,
      "loss": 3.9435,
      "step": 62200
    },
    {
      "epoch": 0.12960416666666666,
      "grad_norm": 0.8530787825584412,
      "learning_rate": 0.00028840775235334647,
      "loss": 3.9197,
      "step": 62210
    },
    {
      "epoch": 0.129625,
      "grad_norm": 0.8751004934310913,
      "learning_rate": 0.0002884039518298041,
      "loss": 3.9708,
      "step": 62220
    },
    {
      "epoch": 0.12964583333333332,
      "grad_norm": 0.7532909512519836,
      "learning_rate": 0.0002884001507084114,
      "loss": 3.9259,
      "step": 62230
    },
    {
      "epoch": 0.12966666666666668,
      "grad_norm": 0.777474582195282,
      "learning_rate": 0.0002883963489891849,
      "loss": 4.0629,
      "step": 62240
    },
    {
      "epoch": 0.1296875,
      "grad_norm": 0.7681462168693542,
      "learning_rate": 0.00028839254667214093,
      "loss": 3.9594,
      "step": 62250
    },
    {
      "epoch": 0.12970833333333334,
      "grad_norm": 0.8607701659202576,
      "learning_rate": 0.0002883887437572959,
      "loss": 3.87,
      "step": 62260
    },
    {
      "epoch": 0.12972916666666667,
      "grad_norm": 0.7959384322166443,
      "learning_rate": 0.00028838494024466634,
      "loss": 3.8236,
      "step": 62270
    },
    {
      "epoch": 0.12975,
      "grad_norm": 0.7842118740081787,
      "learning_rate": 0.00028838113613426856,
      "loss": 3.8721,
      "step": 62280
    },
    {
      "epoch": 0.12977083333333334,
      "grad_norm": 0.8481996655464172,
      "learning_rate": 0.00028837733142611906,
      "loss": 3.876,
      "step": 62290
    },
    {
      "epoch": 0.12979166666666667,
      "grad_norm": 0.644661009311676,
      "learning_rate": 0.00028837352612023426,
      "loss": 4.1,
      "step": 62300
    },
    {
      "epoch": 0.1298125,
      "grad_norm": 0.6943362355232239,
      "learning_rate": 0.00028836972021663065,
      "loss": 3.8507,
      "step": 62310
    },
    {
      "epoch": 0.12983333333333333,
      "grad_norm": 0.9008045792579651,
      "learning_rate": 0.00028836591371532455,
      "loss": 3.9651,
      "step": 62320
    },
    {
      "epoch": 0.12985416666666666,
      "grad_norm": 0.8662897348403931,
      "learning_rate": 0.0002883621066163325,
      "loss": 3.9578,
      "step": 62330
    },
    {
      "epoch": 0.129875,
      "grad_norm": 0.6796295046806335,
      "learning_rate": 0.0002883582989196709,
      "loss": 3.7961,
      "step": 62340
    },
    {
      "epoch": 0.12989583333333332,
      "grad_norm": 0.8483021259307861,
      "learning_rate": 0.00028835449062535626,
      "loss": 4.0146,
      "step": 62350
    },
    {
      "epoch": 0.12991666666666668,
      "grad_norm": 0.7612788081169128,
      "learning_rate": 0.00028835068173340496,
      "loss": 4.0132,
      "step": 62360
    },
    {
      "epoch": 0.1299375,
      "grad_norm": 0.7979394793510437,
      "learning_rate": 0.00028834687224383346,
      "loss": 4.1323,
      "step": 62370
    },
    {
      "epoch": 0.12995833333333334,
      "grad_norm": 0.747512698173523,
      "learning_rate": 0.0002883430621566582,
      "loss": 3.9521,
      "step": 62380
    },
    {
      "epoch": 0.12997916666666667,
      "grad_norm": 0.745611846446991,
      "learning_rate": 0.00028833925147189575,
      "loss": 4.0121,
      "step": 62390
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8437901735305786,
      "learning_rate": 0.0002883354401895625,
      "loss": 3.8619,
      "step": 62400
    },
    {
      "epoch": 0.13002083333333334,
      "grad_norm": 0.7550732493400574,
      "learning_rate": 0.0002883316283096748,
      "loss": 4.0032,
      "step": 62410
    },
    {
      "epoch": 0.13004166666666667,
      "grad_norm": 0.6952962279319763,
      "learning_rate": 0.0002883278158322493,
      "loss": 4.0829,
      "step": 62420
    },
    {
      "epoch": 0.1300625,
      "grad_norm": 0.9602487683296204,
      "learning_rate": 0.00028832400275730243,
      "loss": 3.7688,
      "step": 62430
    },
    {
      "epoch": 0.13008333333333333,
      "grad_norm": 0.7338064908981323,
      "learning_rate": 0.00028832018908485054,
      "loss": 3.9326,
      "step": 62440
    },
    {
      "epoch": 0.13010416666666666,
      "grad_norm": 0.7466751933097839,
      "learning_rate": 0.0002883163748149102,
      "loss": 3.9024,
      "step": 62450
    },
    {
      "epoch": 0.130125,
      "grad_norm": 0.8457353115081787,
      "learning_rate": 0.0002883125599474979,
      "loss": 3.9558,
      "step": 62460
    },
    {
      "epoch": 0.13014583333333332,
      "grad_norm": 0.7291315197944641,
      "learning_rate": 0.00028830874448263004,
      "loss": 4.1688,
      "step": 62470
    },
    {
      "epoch": 0.13016666666666668,
      "grad_norm": 0.8003969788551331,
      "learning_rate": 0.00028830492842032323,
      "loss": 4.0223,
      "step": 62480
    },
    {
      "epoch": 0.1301875,
      "grad_norm": 0.7150354385375977,
      "learning_rate": 0.00028830111176059376,
      "loss": 4.0752,
      "step": 62490
    },
    {
      "epoch": 0.13020833333333334,
      "grad_norm": 0.8575347065925598,
      "learning_rate": 0.0002882972945034583,
      "loss": 4.0096,
      "step": 62500
    },
    {
      "epoch": 0.13022916666666667,
      "grad_norm": 0.7220453023910522,
      "learning_rate": 0.00028829347664893333,
      "loss": 3.9603,
      "step": 62510
    },
    {
      "epoch": 0.13025,
      "grad_norm": 0.7439674139022827,
      "learning_rate": 0.0002882896581970352,
      "loss": 3.8226,
      "step": 62520
    },
    {
      "epoch": 0.13027083333333334,
      "grad_norm": 0.7427364587783813,
      "learning_rate": 0.0002882858391477805,
      "loss": 3.9544,
      "step": 62530
    },
    {
      "epoch": 0.13029166666666667,
      "grad_norm": 0.7531145811080933,
      "learning_rate": 0.00028828201950118566,
      "loss": 4.0111,
      "step": 62540
    },
    {
      "epoch": 0.1303125,
      "grad_norm": 0.8771909475326538,
      "learning_rate": 0.00028827819925726736,
      "loss": 4.1387,
      "step": 62550
    },
    {
      "epoch": 0.13033333333333333,
      "grad_norm": 0.8386698961257935,
      "learning_rate": 0.00028827437841604187,
      "loss": 3.8572,
      "step": 62560
    },
    {
      "epoch": 0.13035416666666666,
      "grad_norm": 0.7357126474380493,
      "learning_rate": 0.0002882705569775258,
      "loss": 3.9202,
      "step": 62570
    },
    {
      "epoch": 0.130375,
      "grad_norm": 0.7566779255867004,
      "learning_rate": 0.0002882667349417357,
      "loss": 3.9184,
      "step": 62580
    },
    {
      "epoch": 0.13039583333333332,
      "grad_norm": 0.7480756640434265,
      "learning_rate": 0.000288262912308688,
      "loss": 3.9738,
      "step": 62590
    },
    {
      "epoch": 0.13041666666666665,
      "grad_norm": 0.783254086971283,
      "learning_rate": 0.0002882590890783993,
      "loss": 3.9409,
      "step": 62600
    },
    {
      "epoch": 0.1304375,
      "grad_norm": 0.6510620713233948,
      "learning_rate": 0.00028825526525088605,
      "loss": 3.7599,
      "step": 62610
    },
    {
      "epoch": 0.13045833333333334,
      "grad_norm": 0.6974460482597351,
      "learning_rate": 0.0002882514408261647,
      "loss": 3.923,
      "step": 62620
    },
    {
      "epoch": 0.13047916666666667,
      "grad_norm": 0.9266209006309509,
      "learning_rate": 0.00028824761580425193,
      "loss": 4.0832,
      "step": 62630
    },
    {
      "epoch": 0.1305,
      "grad_norm": 1.0732451677322388,
      "learning_rate": 0.00028824379018516414,
      "loss": 4.0513,
      "step": 62640
    },
    {
      "epoch": 0.13052083333333334,
      "grad_norm": 0.7637964487075806,
      "learning_rate": 0.0002882399639689179,
      "loss": 3.8234,
      "step": 62650
    },
    {
      "epoch": 0.13054166666666667,
      "grad_norm": 0.834932804107666,
      "learning_rate": 0.00028823613715552975,
      "loss": 3.9691,
      "step": 62660
    },
    {
      "epoch": 0.1305625,
      "grad_norm": 0.8033998012542725,
      "learning_rate": 0.00028823230974501623,
      "loss": 4.0272,
      "step": 62670
    },
    {
      "epoch": 0.13058333333333333,
      "grad_norm": 0.7463205456733704,
      "learning_rate": 0.0002882284817373938,
      "loss": 4.0271,
      "step": 62680
    },
    {
      "epoch": 0.13060416666666666,
      "grad_norm": 0.740690290927887,
      "learning_rate": 0.0002882246531326791,
      "loss": 3.993,
      "step": 62690
    },
    {
      "epoch": 0.130625,
      "grad_norm": 1.2170240879058838,
      "learning_rate": 0.0002882208239308886,
      "loss": 4.0438,
      "step": 62700
    },
    {
      "epoch": 0.13064583333333332,
      "grad_norm": 0.7671335935592651,
      "learning_rate": 0.0002882169941320388,
      "loss": 3.9059,
      "step": 62710
    },
    {
      "epoch": 0.13066666666666665,
      "grad_norm": 0.8209800720214844,
      "learning_rate": 0.0002882131637361463,
      "loss": 4.0732,
      "step": 62720
    },
    {
      "epoch": 0.1306875,
      "grad_norm": 0.8136182427406311,
      "learning_rate": 0.00028820933274322766,
      "loss": 3.8672,
      "step": 62730
    },
    {
      "epoch": 0.13070833333333334,
      "grad_norm": 0.6845099925994873,
      "learning_rate": 0.00028820550115329945,
      "loss": 4.0427,
      "step": 62740
    },
    {
      "epoch": 0.13072916666666667,
      "grad_norm": 0.9123971462249756,
      "learning_rate": 0.0002882016689663781,
      "loss": 4.0335,
      "step": 62750
    },
    {
      "epoch": 0.13075,
      "grad_norm": 0.7392938137054443,
      "learning_rate": 0.0002881978361824803,
      "loss": 3.7903,
      "step": 62760
    },
    {
      "epoch": 0.13077083333333334,
      "grad_norm": 0.7548374533653259,
      "learning_rate": 0.00028819400280162257,
      "loss": 4.0549,
      "step": 62770
    },
    {
      "epoch": 0.13079166666666667,
      "grad_norm": 0.728378415107727,
      "learning_rate": 0.0002881901688238214,
      "loss": 4.0489,
      "step": 62780
    },
    {
      "epoch": 0.1308125,
      "grad_norm": 0.7955945730209351,
      "learning_rate": 0.0002881863342490934,
      "loss": 3.9147,
      "step": 62790
    },
    {
      "epoch": 0.13083333333333333,
      "grad_norm": 0.8530564904212952,
      "learning_rate": 0.0002881824990774552,
      "loss": 4.134,
      "step": 62800
    },
    {
      "epoch": 0.13085416666666666,
      "grad_norm": 0.7143916487693787,
      "learning_rate": 0.00028817866330892324,
      "loss": 4.0408,
      "step": 62810
    },
    {
      "epoch": 0.130875,
      "grad_norm": 0.7051281332969666,
      "learning_rate": 0.0002881748269435142,
      "loss": 4.13,
      "step": 62820
    },
    {
      "epoch": 0.13089583333333332,
      "grad_norm": 0.7118076682090759,
      "learning_rate": 0.0002881709899812445,
      "loss": 4.0596,
      "step": 62830
    },
    {
      "epoch": 0.13091666666666665,
      "grad_norm": 0.7802773118019104,
      "learning_rate": 0.0002881671524221309,
      "loss": 3.9129,
      "step": 62840
    },
    {
      "epoch": 0.1309375,
      "grad_norm": 1.1310057640075684,
      "learning_rate": 0.00028816331426618987,
      "loss": 3.8743,
      "step": 62850
    },
    {
      "epoch": 0.13095833333333334,
      "grad_norm": 0.8013532161712646,
      "learning_rate": 0.000288159475513438,
      "loss": 3.9545,
      "step": 62860
    },
    {
      "epoch": 0.13097916666666667,
      "grad_norm": 0.7863612771034241,
      "learning_rate": 0.00028815563616389186,
      "loss": 3.9803,
      "step": 62870
    },
    {
      "epoch": 0.131,
      "grad_norm": 0.8206605315208435,
      "learning_rate": 0.0002881517962175681,
      "loss": 3.843,
      "step": 62880
    },
    {
      "epoch": 0.13102083333333334,
      "grad_norm": 0.9248420596122742,
      "learning_rate": 0.0002881479556744833,
      "loss": 4.1139,
      "step": 62890
    },
    {
      "epoch": 0.13104166666666667,
      "grad_norm": 0.7481743693351746,
      "learning_rate": 0.00028814411453465395,
      "loss": 3.8994,
      "step": 62900
    },
    {
      "epoch": 0.1310625,
      "grad_norm": 0.7378188967704773,
      "learning_rate": 0.0002881402727980967,
      "loss": 3.9656,
      "step": 62910
    },
    {
      "epoch": 0.13108333333333333,
      "grad_norm": 0.7494726777076721,
      "learning_rate": 0.00028813643046482826,
      "loss": 4.0484,
      "step": 62920
    },
    {
      "epoch": 0.13110416666666666,
      "grad_norm": 0.8632800579071045,
      "learning_rate": 0.00028813258753486497,
      "loss": 3.8325,
      "step": 62930
    },
    {
      "epoch": 0.131125,
      "grad_norm": 0.7811598777770996,
      "learning_rate": 0.0002881287440082237,
      "loss": 3.9632,
      "step": 62940
    },
    {
      "epoch": 0.13114583333333332,
      "grad_norm": 0.7434283494949341,
      "learning_rate": 0.0002881248998849209,
      "loss": 3.871,
      "step": 62950
    },
    {
      "epoch": 0.13116666666666665,
      "grad_norm": 0.9088473320007324,
      "learning_rate": 0.00028812105516497314,
      "loss": 4.0597,
      "step": 62960
    },
    {
      "epoch": 0.1311875,
      "grad_norm": 0.7751245498657227,
      "learning_rate": 0.00028811720984839713,
      "loss": 4.0558,
      "step": 62970
    },
    {
      "epoch": 0.13120833333333334,
      "grad_norm": 0.8244699239730835,
      "learning_rate": 0.0002881133639352095,
      "loss": 3.9305,
      "step": 62980
    },
    {
      "epoch": 0.13122916666666667,
      "grad_norm": 0.8873583674430847,
      "learning_rate": 0.0002881095174254267,
      "loss": 4.0892,
      "step": 62990
    },
    {
      "epoch": 0.13125,
      "grad_norm": 0.7441539764404297,
      "learning_rate": 0.00028810567031906553,
      "loss": 3.9925,
      "step": 63000
    },
    {
      "epoch": 0.13125,
      "eval_loss": 4.299635410308838,
      "eval_runtime": 12.1901,
      "eval_samples_per_second": 0.82,
      "eval_steps_per_second": 0.246,
      "step": 63000
    },
    {
      "epoch": 0.13127083333333334,
      "grad_norm": 0.7507321238517761,
      "learning_rate": 0.0002881018226161425,
      "loss": 3.8987,
      "step": 63010
    },
    {
      "epoch": 0.13129166666666667,
      "grad_norm": 0.8207835555076599,
      "learning_rate": 0.0002880979743166743,
      "loss": 3.8795,
      "step": 63020
    },
    {
      "epoch": 0.1313125,
      "grad_norm": 0.7502248287200928,
      "learning_rate": 0.00028809412542067745,
      "loss": 4.2668,
      "step": 63030
    },
    {
      "epoch": 0.13133333333333333,
      "grad_norm": 0.8643938302993774,
      "learning_rate": 0.0002880902759281687,
      "loss": 3.9422,
      "step": 63040
    },
    {
      "epoch": 0.13135416666666666,
      "grad_norm": 0.8056674599647522,
      "learning_rate": 0.0002880864258391646,
      "loss": 4.0412,
      "step": 63050
    },
    {
      "epoch": 0.131375,
      "grad_norm": 0.6892151236534119,
      "learning_rate": 0.0002880825751536818,
      "loss": 4.0951,
      "step": 63060
    },
    {
      "epoch": 0.13139583333333332,
      "grad_norm": 0.7482025027275085,
      "learning_rate": 0.0002880787238717369,
      "loss": 3.9598,
      "step": 63070
    },
    {
      "epoch": 0.13141666666666665,
      "grad_norm": 0.9250709414482117,
      "learning_rate": 0.0002880748719933466,
      "loss": 4.0086,
      "step": 63080
    },
    {
      "epoch": 0.1314375,
      "grad_norm": 0.7416247129440308,
      "learning_rate": 0.0002880710195185275,
      "loss": 3.9801,
      "step": 63090
    },
    {
      "epoch": 0.13145833333333334,
      "grad_norm": 0.7072294354438782,
      "learning_rate": 0.0002880671664472962,
      "loss": 3.9088,
      "step": 63100
    },
    {
      "epoch": 0.13147916666666667,
      "grad_norm": 0.9196757674217224,
      "learning_rate": 0.0002880633127796695,
      "loss": 3.9873,
      "step": 63110
    },
    {
      "epoch": 0.1315,
      "grad_norm": 0.8081299662590027,
      "learning_rate": 0.0002880594585156639,
      "loss": 3.827,
      "step": 63120
    },
    {
      "epoch": 0.13152083333333334,
      "grad_norm": 0.848120927810669,
      "learning_rate": 0.000288055603655296,
      "loss": 3.9054,
      "step": 63130
    },
    {
      "epoch": 0.13154166666666667,
      "grad_norm": 0.7348611950874329,
      "learning_rate": 0.0002880517481985826,
      "loss": 4.0324,
      "step": 63140
    },
    {
      "epoch": 0.1315625,
      "grad_norm": 0.8911242485046387,
      "learning_rate": 0.0002880478921455403,
      "loss": 4.0886,
      "step": 63150
    },
    {
      "epoch": 0.13158333333333333,
      "grad_norm": 0.6909054517745972,
      "learning_rate": 0.00028804403549618574,
      "loss": 3.9788,
      "step": 63160
    },
    {
      "epoch": 0.13160416666666666,
      "grad_norm": 0.6859028339385986,
      "learning_rate": 0.00028804017825053563,
      "loss": 3.9725,
      "step": 63170
    },
    {
      "epoch": 0.131625,
      "grad_norm": 0.8251357078552246,
      "learning_rate": 0.0002880363204086065,
      "loss": 4.0571,
      "step": 63180
    },
    {
      "epoch": 0.13164583333333332,
      "grad_norm": 0.8115269541740417,
      "learning_rate": 0.0002880324619704152,
      "loss": 3.8919,
      "step": 63190
    },
    {
      "epoch": 0.13166666666666665,
      "grad_norm": 1.0634918212890625,
      "learning_rate": 0.00028802860293597823,
      "loss": 3.9447,
      "step": 63200
    },
    {
      "epoch": 0.1316875,
      "grad_norm": 0.7599939107894897,
      "learning_rate": 0.0002880247433053124,
      "loss": 4.1629,
      "step": 63210
    },
    {
      "epoch": 0.13170833333333334,
      "grad_norm": 0.9843525290489197,
      "learning_rate": 0.0002880208830784342,
      "loss": 4.0152,
      "step": 63220
    },
    {
      "epoch": 0.13172916666666667,
      "grad_norm": 0.7430915832519531,
      "learning_rate": 0.00028801702225536054,
      "loss": 3.8951,
      "step": 63230
    },
    {
      "epoch": 0.13175,
      "grad_norm": 0.7486289739608765,
      "learning_rate": 0.00028801316083610794,
      "loss": 3.9758,
      "step": 63240
    },
    {
      "epoch": 0.13177083333333334,
      "grad_norm": 0.692726731300354,
      "learning_rate": 0.00028800929882069306,
      "loss": 3.9843,
      "step": 63250
    },
    {
      "epoch": 0.13179166666666667,
      "grad_norm": 0.794449508190155,
      "learning_rate": 0.0002880054362091327,
      "loss": 4.0592,
      "step": 63260
    },
    {
      "epoch": 0.1318125,
      "grad_norm": 0.8368471264839172,
      "learning_rate": 0.00028800157300144346,
      "loss": 4.2132,
      "step": 63270
    },
    {
      "epoch": 0.13183333333333333,
      "grad_norm": 0.9229752421379089,
      "learning_rate": 0.00028799770919764203,
      "loss": 4.0264,
      "step": 63280
    },
    {
      "epoch": 0.13185416666666666,
      "grad_norm": 0.754412055015564,
      "learning_rate": 0.00028799384479774516,
      "loss": 3.9276,
      "step": 63290
    },
    {
      "epoch": 0.131875,
      "grad_norm": 0.7216253280639648,
      "learning_rate": 0.0002879899798017695,
      "loss": 3.9071,
      "step": 63300
    },
    {
      "epoch": 0.13189583333333332,
      "grad_norm": 0.7412343621253967,
      "learning_rate": 0.0002879861142097317,
      "loss": 3.9966,
      "step": 63310
    },
    {
      "epoch": 0.13191666666666665,
      "grad_norm": 0.7936533093452454,
      "learning_rate": 0.0002879822480216485,
      "loss": 3.9159,
      "step": 63320
    },
    {
      "epoch": 0.1319375,
      "grad_norm": 0.7791702747344971,
      "learning_rate": 0.00028797838123753664,
      "loss": 4.0723,
      "step": 63330
    },
    {
      "epoch": 0.13195833333333334,
      "grad_norm": 0.832996666431427,
      "learning_rate": 0.0002879745138574128,
      "loss": 4.0689,
      "step": 63340
    },
    {
      "epoch": 0.13197916666666668,
      "grad_norm": 0.7833579182624817,
      "learning_rate": 0.0002879706458812937,
      "loss": 4.0066,
      "step": 63350
    },
    {
      "epoch": 0.132,
      "grad_norm": 0.8657096028327942,
      "learning_rate": 0.000287966777309196,
      "loss": 4.0955,
      "step": 63360
    },
    {
      "epoch": 0.13202083333333334,
      "grad_norm": 0.7680641412734985,
      "learning_rate": 0.00028796290814113635,
      "loss": 3.918,
      "step": 63370
    },
    {
      "epoch": 0.13204166666666667,
      "grad_norm": 0.8366602063179016,
      "learning_rate": 0.0002879590383771316,
      "loss": 4.0532,
      "step": 63380
    },
    {
      "epoch": 0.1320625,
      "grad_norm": 0.8713975548744202,
      "learning_rate": 0.0002879551680171984,
      "loss": 3.9457,
      "step": 63390
    },
    {
      "epoch": 0.13208333333333333,
      "grad_norm": 0.7919896841049194,
      "learning_rate": 0.00028795129706135354,
      "loss": 3.8972,
      "step": 63400
    },
    {
      "epoch": 0.13210416666666666,
      "grad_norm": 0.8356661796569824,
      "learning_rate": 0.00028794742550961364,
      "loss": 3.8886,
      "step": 63410
    },
    {
      "epoch": 0.132125,
      "grad_norm": 0.7996866106987,
      "learning_rate": 0.00028794355336199547,
      "loss": 3.897,
      "step": 63420
    },
    {
      "epoch": 0.13214583333333332,
      "grad_norm": 1.0527307987213135,
      "learning_rate": 0.0002879396806185158,
      "loss": 3.9848,
      "step": 63430
    },
    {
      "epoch": 0.13216666666666665,
      "grad_norm": 0.8036921620368958,
      "learning_rate": 0.0002879358072791912,
      "loss": 3.8884,
      "step": 63440
    },
    {
      "epoch": 0.1321875,
      "grad_norm": 0.974702000617981,
      "learning_rate": 0.0002879319333440386,
      "loss": 4.0009,
      "step": 63450
    },
    {
      "epoch": 0.13220833333333334,
      "grad_norm": 0.7566272020339966,
      "learning_rate": 0.00028792805881307465,
      "loss": 4.051,
      "step": 63460
    },
    {
      "epoch": 0.13222916666666668,
      "grad_norm": 0.7824696898460388,
      "learning_rate": 0.000287924183686316,
      "loss": 3.9255,
      "step": 63470
    },
    {
      "epoch": 0.13225,
      "grad_norm": 0.9124252796173096,
      "learning_rate": 0.0002879203079637795,
      "loss": 4.013,
      "step": 63480
    },
    {
      "epoch": 0.13227083333333334,
      "grad_norm": 0.7775617837905884,
      "learning_rate": 0.00028791643164548193,
      "loss": 3.888,
      "step": 63490
    },
    {
      "epoch": 0.13229166666666667,
      "grad_norm": 0.7518961429595947,
      "learning_rate": 0.0002879125547314399,
      "loss": 3.7827,
      "step": 63500
    },
    {
      "epoch": 0.1323125,
      "grad_norm": 0.9457390904426575,
      "learning_rate": 0.00028790867722167026,
      "loss": 4.0229,
      "step": 63510
    },
    {
      "epoch": 0.13233333333333333,
      "grad_norm": 0.8072744011878967,
      "learning_rate": 0.0002879047991161897,
      "loss": 3.9434,
      "step": 63520
    },
    {
      "epoch": 0.13235416666666666,
      "grad_norm": 0.9495784044265747,
      "learning_rate": 0.000287900920415015,
      "loss": 3.87,
      "step": 63530
    },
    {
      "epoch": 0.132375,
      "grad_norm": 0.7524573802947998,
      "learning_rate": 0.0002878970411181629,
      "loss": 4.0238,
      "step": 63540
    },
    {
      "epoch": 0.13239583333333332,
      "grad_norm": 0.8163084387779236,
      "learning_rate": 0.0002878931612256502,
      "loss": 3.7865,
      "step": 63550
    },
    {
      "epoch": 0.13241666666666665,
      "grad_norm": 0.8464440703392029,
      "learning_rate": 0.0002878892807374936,
      "loss": 3.9083,
      "step": 63560
    },
    {
      "epoch": 0.1324375,
      "grad_norm": 0.8992184400558472,
      "learning_rate": 0.00028788539965370985,
      "loss": 3.9998,
      "step": 63570
    },
    {
      "epoch": 0.13245833333333334,
      "grad_norm": 0.7533801198005676,
      "learning_rate": 0.0002878815179743158,
      "loss": 4.1624,
      "step": 63580
    },
    {
      "epoch": 0.13247916666666668,
      "grad_norm": 0.7173408269882202,
      "learning_rate": 0.00028787763569932816,
      "loss": 3.9357,
      "step": 63590
    },
    {
      "epoch": 0.1325,
      "grad_norm": 1.085715889930725,
      "learning_rate": 0.00028787375282876375,
      "loss": 4.0159,
      "step": 63600
    },
    {
      "epoch": 0.13252083333333334,
      "grad_norm": 0.7759045362472534,
      "learning_rate": 0.00028786986936263923,
      "loss": 3.7582,
      "step": 63610
    },
    {
      "epoch": 0.13254166666666667,
      "grad_norm": 0.7972061634063721,
      "learning_rate": 0.0002878659853009715,
      "loss": 3.7281,
      "step": 63620
    },
    {
      "epoch": 0.1325625,
      "grad_norm": 0.7560607194900513,
      "learning_rate": 0.0002878621006437772,
      "loss": 4.0303,
      "step": 63630
    },
    {
      "epoch": 0.13258333333333333,
      "grad_norm": 0.787109911441803,
      "learning_rate": 0.0002878582153910733,
      "loss": 3.8756,
      "step": 63640
    },
    {
      "epoch": 0.13260416666666666,
      "grad_norm": 0.6959081888198853,
      "learning_rate": 0.0002878543295428765,
      "loss": 4.0483,
      "step": 63650
    },
    {
      "epoch": 0.132625,
      "grad_norm": 0.9095045328140259,
      "learning_rate": 0.00028785044309920346,
      "loss": 4.0645,
      "step": 63660
    },
    {
      "epoch": 0.13264583333333332,
      "grad_norm": 0.746985912322998,
      "learning_rate": 0.00028784655606007106,
      "loss": 3.9311,
      "step": 63670
    },
    {
      "epoch": 0.13266666666666665,
      "grad_norm": 0.7584629058837891,
      "learning_rate": 0.0002878426684254962,
      "loss": 3.9455,
      "step": 63680
    },
    {
      "epoch": 0.1326875,
      "grad_norm": 0.7956358790397644,
      "learning_rate": 0.0002878387801954955,
      "loss": 3.7763,
      "step": 63690
    },
    {
      "epoch": 0.13270833333333334,
      "grad_norm": 0.7757930755615234,
      "learning_rate": 0.00028783489137008587,
      "loss": 4.0849,
      "step": 63700
    },
    {
      "epoch": 0.13272916666666668,
      "grad_norm": 0.7097927331924438,
      "learning_rate": 0.00028783100194928405,
      "loss": 4.011,
      "step": 63710
    },
    {
      "epoch": 0.13275,
      "grad_norm": 0.7733318209648132,
      "learning_rate": 0.0002878271119331068,
      "loss": 3.938,
      "step": 63720
    },
    {
      "epoch": 0.13277083333333334,
      "grad_norm": 0.8528494834899902,
      "learning_rate": 0.0002878232213215711,
      "loss": 3.7822,
      "step": 63730
    },
    {
      "epoch": 0.13279166666666667,
      "grad_norm": 0.8102899789810181,
      "learning_rate": 0.00028781933011469353,
      "loss": 4.2791,
      "step": 63740
    },
    {
      "epoch": 0.1328125,
      "grad_norm": 0.833845317363739,
      "learning_rate": 0.00028781543831249114,
      "loss": 3.9113,
      "step": 63750
    },
    {
      "epoch": 0.13283333333333333,
      "grad_norm": 0.7765309810638428,
      "learning_rate": 0.0002878115459149805,
      "loss": 3.8415,
      "step": 63760
    },
    {
      "epoch": 0.13285416666666666,
      "grad_norm": 0.8012934327125549,
      "learning_rate": 0.00028780765292217857,
      "loss": 4.0308,
      "step": 63770
    },
    {
      "epoch": 0.132875,
      "grad_norm": 0.9136009216308594,
      "learning_rate": 0.0002878037593341021,
      "loss": 4.0315,
      "step": 63780
    },
    {
      "epoch": 0.13289583333333332,
      "grad_norm": 0.7849080562591553,
      "learning_rate": 0.00028779986515076796,
      "loss": 3.9886,
      "step": 63790
    },
    {
      "epoch": 0.13291666666666666,
      "grad_norm": 0.7386612296104431,
      "learning_rate": 0.0002877959703721929,
      "loss": 3.7774,
      "step": 63800
    },
    {
      "epoch": 0.1329375,
      "grad_norm": 0.8106445670127869,
      "learning_rate": 0.0002877920749983938,
      "loss": 4.0935,
      "step": 63810
    },
    {
      "epoch": 0.13295833333333335,
      "grad_norm": 0.9517417550086975,
      "learning_rate": 0.00028778817902938754,
      "loss": 3.8728,
      "step": 63820
    },
    {
      "epoch": 0.13297916666666668,
      "grad_norm": 0.8233712911605835,
      "learning_rate": 0.00028778428246519085,
      "loss": 4.0447,
      "step": 63830
    },
    {
      "epoch": 0.133,
      "grad_norm": 0.8694912195205688,
      "learning_rate": 0.00028778038530582063,
      "loss": 4.1755,
      "step": 63840
    },
    {
      "epoch": 0.13302083333333334,
      "grad_norm": 0.8753427267074585,
      "learning_rate": 0.0002877764875512936,
      "loss": 3.8714,
      "step": 63850
    },
    {
      "epoch": 0.13304166666666667,
      "grad_norm": 0.8436046242713928,
      "learning_rate": 0.0002877725892016268,
      "loss": 3.8371,
      "step": 63860
    },
    {
      "epoch": 0.1330625,
      "grad_norm": 0.8479264378547668,
      "learning_rate": 0.00028776869025683686,
      "loss": 3.9006,
      "step": 63870
    },
    {
      "epoch": 0.13308333333333333,
      "grad_norm": 0.734691321849823,
      "learning_rate": 0.00028776479071694074,
      "loss": 3.8596,
      "step": 63880
    },
    {
      "epoch": 0.13310416666666666,
      "grad_norm": 0.7245784401893616,
      "learning_rate": 0.00028776089058195526,
      "loss": 3.9782,
      "step": 63890
    },
    {
      "epoch": 0.133125,
      "grad_norm": 0.8638946413993835,
      "learning_rate": 0.00028775698985189724,
      "loss": 3.9058,
      "step": 63900
    },
    {
      "epoch": 0.13314583333333332,
      "grad_norm": 1.0023601055145264,
      "learning_rate": 0.0002877530885267836,
      "loss": 3.9295,
      "step": 63910
    },
    {
      "epoch": 0.13316666666666666,
      "grad_norm": 0.8663880825042725,
      "learning_rate": 0.00028774918660663104,
      "loss": 3.7934,
      "step": 63920
    },
    {
      "epoch": 0.1331875,
      "grad_norm": 0.8692013621330261,
      "learning_rate": 0.00028774528409145663,
      "loss": 3.8468,
      "step": 63930
    },
    {
      "epoch": 0.13320833333333335,
      "grad_norm": 0.8036627769470215,
      "learning_rate": 0.00028774138098127707,
      "loss": 4.0856,
      "step": 63940
    },
    {
      "epoch": 0.13322916666666668,
      "grad_norm": 0.8842105865478516,
      "learning_rate": 0.0002877374772761093,
      "loss": 3.9576,
      "step": 63950
    },
    {
      "epoch": 0.13325,
      "grad_norm": 0.7062469124794006,
      "learning_rate": 0.0002877335729759701,
      "loss": 3.9933,
      "step": 63960
    },
    {
      "epoch": 0.13327083333333334,
      "grad_norm": 0.7921723127365112,
      "learning_rate": 0.0002877296680808764,
      "loss": 3.7534,
      "step": 63970
    },
    {
      "epoch": 0.13329166666666667,
      "grad_norm": 0.7186169624328613,
      "learning_rate": 0.00028772576259084503,
      "loss": 3.9798,
      "step": 63980
    },
    {
      "epoch": 0.1333125,
      "grad_norm": 0.8491309881210327,
      "learning_rate": 0.0002877218565058929,
      "loss": 4.0104,
      "step": 63990
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.7929764986038208,
      "learning_rate": 0.0002877179498260369,
      "loss": 3.966,
      "step": 64000
    },
    {
      "epoch": 0.13333333333333333,
      "eval_loss": 4.283611297607422,
      "eval_runtime": 10.4844,
      "eval_samples_per_second": 0.954,
      "eval_steps_per_second": 0.286,
      "step": 64000
    },
    {
      "epoch": 0.13335416666666666,
      "grad_norm": 0.8524074554443359,
      "learning_rate": 0.0002877140425512938,
      "loss": 4.0084,
      "step": 64010
    },
    {
      "epoch": 0.133375,
      "grad_norm": 0.7757831811904907,
      "learning_rate": 0.0002877101346816806,
      "loss": 3.9578,
      "step": 64020
    },
    {
      "epoch": 0.13339583333333332,
      "grad_norm": 0.7558451294898987,
      "learning_rate": 0.0002877062262172141,
      "loss": 3.9074,
      "step": 64030
    },
    {
      "epoch": 0.13341666666666666,
      "grad_norm": 0.7895762920379639,
      "learning_rate": 0.00028770231715791124,
      "loss": 4.1213,
      "step": 64040
    },
    {
      "epoch": 0.1334375,
      "grad_norm": 0.9421509504318237,
      "learning_rate": 0.0002876984075037889,
      "loss": 3.8427,
      "step": 64050
    },
    {
      "epoch": 0.13345833333333335,
      "grad_norm": 0.877099335193634,
      "learning_rate": 0.0002876944972548638,
      "loss": 3.8763,
      "step": 64060
    },
    {
      "epoch": 0.13347916666666668,
      "grad_norm": 0.774849534034729,
      "learning_rate": 0.00028769058641115315,
      "loss": 4.0344,
      "step": 64070
    },
    {
      "epoch": 0.1335,
      "grad_norm": 0.7340850830078125,
      "learning_rate": 0.0002876866749726736,
      "loss": 3.9634,
      "step": 64080
    },
    {
      "epoch": 0.13352083333333334,
      "grad_norm": 0.8784515261650085,
      "learning_rate": 0.0002876827629394421,
      "loss": 4.066,
      "step": 64090
    },
    {
      "epoch": 0.13354166666666667,
      "grad_norm": 0.7806510329246521,
      "learning_rate": 0.00028767885031147556,
      "loss": 4.1499,
      "step": 64100
    },
    {
      "epoch": 0.1335625,
      "grad_norm": 0.8111420273780823,
      "learning_rate": 0.0002876749370887909,
      "loss": 3.9546,
      "step": 64110
    },
    {
      "epoch": 0.13358333333333333,
      "grad_norm": 0.7310206890106201,
      "learning_rate": 0.000287671023271405,
      "loss": 4.044,
      "step": 64120
    },
    {
      "epoch": 0.13360416666666666,
      "grad_norm": 0.7263129353523254,
      "learning_rate": 0.0002876671088593348,
      "loss": 3.9149,
      "step": 64130
    },
    {
      "epoch": 0.133625,
      "grad_norm": 0.7650883793830872,
      "learning_rate": 0.00028766319385259713,
      "loss": 4.0736,
      "step": 64140
    },
    {
      "epoch": 0.13364583333333332,
      "grad_norm": 0.654585599899292,
      "learning_rate": 0.000287659278251209,
      "loss": 3.9479,
      "step": 64150
    },
    {
      "epoch": 0.13366666666666666,
      "grad_norm": 0.7454494833946228,
      "learning_rate": 0.00028765536205518726,
      "loss": 3.9117,
      "step": 64160
    },
    {
      "epoch": 0.1336875,
      "grad_norm": 0.7817630767822266,
      "learning_rate": 0.00028765144526454885,
      "loss": 3.8748,
      "step": 64170
    },
    {
      "epoch": 0.13370833333333335,
      "grad_norm": 0.7823349237442017,
      "learning_rate": 0.00028764752787931066,
      "loss": 3.9524,
      "step": 64180
    },
    {
      "epoch": 0.13372916666666668,
      "grad_norm": 0.7817695736885071,
      "learning_rate": 0.00028764360989948966,
      "loss": 4.0786,
      "step": 64190
    },
    {
      "epoch": 0.13375,
      "grad_norm": 0.8429250717163086,
      "learning_rate": 0.00028763969132510276,
      "loss": 4.0664,
      "step": 64200
    },
    {
      "epoch": 0.13377083333333334,
      "grad_norm": 0.7479737997055054,
      "learning_rate": 0.00028763577215616687,
      "loss": 3.9719,
      "step": 64210
    },
    {
      "epoch": 0.13379166666666667,
      "grad_norm": 0.7489782571792603,
      "learning_rate": 0.00028763185239269885,
      "loss": 3.8603,
      "step": 64220
    },
    {
      "epoch": 0.1338125,
      "grad_norm": 0.7412326335906982,
      "learning_rate": 0.0002876279320347158,
      "loss": 3.881,
      "step": 64230
    },
    {
      "epoch": 0.13383333333333333,
      "grad_norm": 0.7301384210586548,
      "learning_rate": 0.0002876240110822345,
      "loss": 3.9955,
      "step": 64240
    },
    {
      "epoch": 0.13385416666666666,
      "grad_norm": 0.9357399940490723,
      "learning_rate": 0.000287620089535272,
      "loss": 3.606,
      "step": 64250
    },
    {
      "epoch": 0.133875,
      "grad_norm": 0.7204338908195496,
      "learning_rate": 0.0002876161673938452,
      "loss": 3.9144,
      "step": 64260
    },
    {
      "epoch": 0.13389583333333333,
      "grad_norm": 0.7620922327041626,
      "learning_rate": 0.00028761224465797094,
      "loss": 3.9955,
      "step": 64270
    },
    {
      "epoch": 0.13391666666666666,
      "grad_norm": 0.7850940823554993,
      "learning_rate": 0.0002876083213276663,
      "loss": 3.9677,
      "step": 64280
    },
    {
      "epoch": 0.1339375,
      "grad_norm": 0.844295084476471,
      "learning_rate": 0.0002876043974029482,
      "loss": 3.8566,
      "step": 64290
    },
    {
      "epoch": 0.13395833333333335,
      "grad_norm": 0.7199763655662537,
      "learning_rate": 0.00028760047288383354,
      "loss": 3.9979,
      "step": 64300
    },
    {
      "epoch": 0.13397916666666668,
      "grad_norm": 0.7989261150360107,
      "learning_rate": 0.00028759654777033933,
      "loss": 3.9517,
      "step": 64310
    },
    {
      "epoch": 0.134,
      "grad_norm": 0.8251125812530518,
      "learning_rate": 0.0002875926220624825,
      "loss": 4.0783,
      "step": 64320
    },
    {
      "epoch": 0.13402083333333334,
      "grad_norm": 0.7119641900062561,
      "learning_rate": 0.00028758869576028,
      "loss": 4.0871,
      "step": 64330
    },
    {
      "epoch": 0.13404166666666667,
      "grad_norm": 0.8363273739814758,
      "learning_rate": 0.0002875847688637488,
      "loss": 3.8923,
      "step": 64340
    },
    {
      "epoch": 0.1340625,
      "grad_norm": 1.1368399858474731,
      "learning_rate": 0.0002875808413729058,
      "loss": 4.0604,
      "step": 64350
    },
    {
      "epoch": 0.13408333333333333,
      "grad_norm": 0.8615038990974426,
      "learning_rate": 0.00028757691328776806,
      "loss": 3.8282,
      "step": 64360
    },
    {
      "epoch": 0.13410416666666666,
      "grad_norm": 0.7559849619865417,
      "learning_rate": 0.0002875729846083525,
      "loss": 3.858,
      "step": 64370
    },
    {
      "epoch": 0.134125,
      "grad_norm": 0.7788131237030029,
      "learning_rate": 0.00028756905533467613,
      "loss": 3.8132,
      "step": 64380
    },
    {
      "epoch": 0.13414583333333333,
      "grad_norm": 0.9932048916816711,
      "learning_rate": 0.0002875651254667559,
      "loss": 3.9469,
      "step": 64390
    },
    {
      "epoch": 0.13416666666666666,
      "grad_norm": 1.3449825048446655,
      "learning_rate": 0.0002875611950046088,
      "loss": 3.9473,
      "step": 64400
    },
    {
      "epoch": 0.1341875,
      "grad_norm": 0.6532223224639893,
      "learning_rate": 0.00028755726394825174,
      "loss": 3.866,
      "step": 64410
    },
    {
      "epoch": 0.13420833333333335,
      "grad_norm": 0.7533696889877319,
      "learning_rate": 0.00028755333229770174,
      "loss": 3.8402,
      "step": 64420
    },
    {
      "epoch": 0.13422916666666668,
      "grad_norm": 0.8253911137580872,
      "learning_rate": 0.00028754940005297583,
      "loss": 3.8173,
      "step": 64430
    },
    {
      "epoch": 0.13425,
      "grad_norm": 0.8294810652732849,
      "learning_rate": 0.00028754546721409093,
      "loss": 3.9266,
      "step": 64440
    },
    {
      "epoch": 0.13427083333333334,
      "grad_norm": 0.713112473487854,
      "learning_rate": 0.0002875415337810641,
      "loss": 4.0174,
      "step": 64450
    },
    {
      "epoch": 0.13429166666666667,
      "grad_norm": 0.7563521862030029,
      "learning_rate": 0.00028753759975391226,
      "loss": 3.8377,
      "step": 64460
    },
    {
      "epoch": 0.1343125,
      "grad_norm": 0.8616205453872681,
      "learning_rate": 0.0002875336651326524,
      "loss": 3.8602,
      "step": 64470
    },
    {
      "epoch": 0.13433333333333333,
      "grad_norm": 0.7441871166229248,
      "learning_rate": 0.0002875297299173016,
      "loss": 3.8276,
      "step": 64480
    },
    {
      "epoch": 0.13435416666666666,
      "grad_norm": 0.8510188460350037,
      "learning_rate": 0.0002875257941078768,
      "loss": 3.9761,
      "step": 64490
    },
    {
      "epoch": 0.134375,
      "grad_norm": 0.8003024458885193,
      "learning_rate": 0.0002875218577043949,
      "loss": 4.2189,
      "step": 64500
    },
    {
      "epoch": 0.13439583333333333,
      "grad_norm": 0.873536229133606,
      "learning_rate": 0.00028751792070687315,
      "loss": 3.7914,
      "step": 64510
    },
    {
      "epoch": 0.13441666666666666,
      "grad_norm": 0.8054498434066772,
      "learning_rate": 0.00028751398311532833,
      "loss": 3.9121,
      "step": 64520
    },
    {
      "epoch": 0.1344375,
      "grad_norm": 0.7320621013641357,
      "learning_rate": 0.0002875100449297776,
      "loss": 4.0502,
      "step": 64530
    },
    {
      "epoch": 0.13445833333333335,
      "grad_norm": 0.7328641414642334,
      "learning_rate": 0.00028750610615023783,
      "loss": 4.0566,
      "step": 64540
    },
    {
      "epoch": 0.13447916666666668,
      "grad_norm": 0.9228671789169312,
      "learning_rate": 0.00028750216677672614,
      "loss": 4.1551,
      "step": 64550
    },
    {
      "epoch": 0.1345,
      "grad_norm": 1.2704331874847412,
      "learning_rate": 0.00028749822680925954,
      "loss": 4.1689,
      "step": 64560
    },
    {
      "epoch": 0.13452083333333334,
      "grad_norm": 0.9475177526473999,
      "learning_rate": 0.000287494286247855,
      "loss": 3.9883,
      "step": 64570
    },
    {
      "epoch": 0.13454166666666667,
      "grad_norm": 0.7184128761291504,
      "learning_rate": 0.0002874903450925296,
      "loss": 4.0521,
      "step": 64580
    },
    {
      "epoch": 0.1345625,
      "grad_norm": 0.8102483153343201,
      "learning_rate": 0.0002874864033433003,
      "loss": 4.0656,
      "step": 64590
    },
    {
      "epoch": 0.13458333333333333,
      "grad_norm": 0.7767441272735596,
      "learning_rate": 0.0002874824610001842,
      "loss": 4.1491,
      "step": 64600
    },
    {
      "epoch": 0.13460416666666666,
      "grad_norm": 0.7404881119728088,
      "learning_rate": 0.00028747851806319827,
      "loss": 4.0197,
      "step": 64610
    },
    {
      "epoch": 0.134625,
      "grad_norm": 0.9094785451889038,
      "learning_rate": 0.00028747457453235953,
      "loss": 3.8922,
      "step": 64620
    },
    {
      "epoch": 0.13464583333333333,
      "grad_norm": 0.7543533444404602,
      "learning_rate": 0.00028747063040768505,
      "loss": 3.9384,
      "step": 64630
    },
    {
      "epoch": 0.13466666666666666,
      "grad_norm": 0.8408339619636536,
      "learning_rate": 0.0002874666856891919,
      "loss": 4.1373,
      "step": 64640
    },
    {
      "epoch": 0.1346875,
      "grad_norm": 0.7669873237609863,
      "learning_rate": 0.00028746274037689704,
      "loss": 3.8682,
      "step": 64650
    },
    {
      "epoch": 0.13470833333333335,
      "grad_norm": 0.7371418476104736,
      "learning_rate": 0.00028745879447081757,
      "loss": 4.0197,
      "step": 64660
    },
    {
      "epoch": 0.13472916666666668,
      "grad_norm": 0.934221625328064,
      "learning_rate": 0.0002874548479709705,
      "loss": 3.7489,
      "step": 64670
    },
    {
      "epoch": 0.13475,
      "grad_norm": 0.7340819835662842,
      "learning_rate": 0.00028745090087737294,
      "loss": 3.9932,
      "step": 64680
    },
    {
      "epoch": 0.13477083333333334,
      "grad_norm": 0.8123356699943542,
      "learning_rate": 0.00028744695319004183,
      "loss": 3.9741,
      "step": 64690
    },
    {
      "epoch": 0.13479166666666667,
      "grad_norm": 0.8786877393722534,
      "learning_rate": 0.00028744300490899435,
      "loss": 3.8896,
      "step": 64700
    },
    {
      "epoch": 0.1348125,
      "grad_norm": 0.9325731992721558,
      "learning_rate": 0.00028743905603424746,
      "loss": 3.9605,
      "step": 64710
    },
    {
      "epoch": 0.13483333333333333,
      "grad_norm": 0.7665776014328003,
      "learning_rate": 0.00028743510656581824,
      "loss": 3.9601,
      "step": 64720
    },
    {
      "epoch": 0.13485416666666666,
      "grad_norm": 0.7228529453277588,
      "learning_rate": 0.00028743115650372376,
      "loss": 3.9223,
      "step": 64730
    },
    {
      "epoch": 0.134875,
      "grad_norm": 0.7234880924224854,
      "learning_rate": 0.0002874272058479811,
      "loss": 4.1654,
      "step": 64740
    },
    {
      "epoch": 0.13489583333333333,
      "grad_norm": 0.8839651942253113,
      "learning_rate": 0.0002874232545986073,
      "loss": 4.1489,
      "step": 64750
    },
    {
      "epoch": 0.13491666666666666,
      "grad_norm": 0.8160261511802673,
      "learning_rate": 0.0002874193027556195,
      "loss": 4.029,
      "step": 64760
    },
    {
      "epoch": 0.1349375,
      "grad_norm": 0.6733654737472534,
      "learning_rate": 0.0002874153503190346,
      "loss": 3.8903,
      "step": 64770
    },
    {
      "epoch": 0.13495833333333335,
      "grad_norm": 0.7644349932670593,
      "learning_rate": 0.00028741139728886983,
      "loss": 3.9853,
      "step": 64780
    },
    {
      "epoch": 0.13497916666666668,
      "grad_norm": 0.7276139259338379,
      "learning_rate": 0.0002874074436651422,
      "loss": 4.0622,
      "step": 64790
    },
    {
      "epoch": 0.135,
      "grad_norm": 0.7839577198028564,
      "learning_rate": 0.00028740348944786883,
      "loss": 4.0359,
      "step": 64800
    },
    {
      "epoch": 0.13502083333333334,
      "grad_norm": 0.7763628959655762,
      "learning_rate": 0.0002873995346370668,
      "loss": 3.9303,
      "step": 64810
    },
    {
      "epoch": 0.13504166666666667,
      "grad_norm": 0.700670599937439,
      "learning_rate": 0.0002873955792327531,
      "loss": 4.1579,
      "step": 64820
    },
    {
      "epoch": 0.1350625,
      "grad_norm": 0.8376744389533997,
      "learning_rate": 0.0002873916232349449,
      "loss": 3.8593,
      "step": 64830
    },
    {
      "epoch": 0.13508333333333333,
      "grad_norm": 0.7327127456665039,
      "learning_rate": 0.0002873876666436593,
      "loss": 4.0669,
      "step": 64840
    },
    {
      "epoch": 0.13510416666666666,
      "grad_norm": 0.8301616907119751,
      "learning_rate": 0.0002873837094589133,
      "loss": 3.9105,
      "step": 64850
    },
    {
      "epoch": 0.135125,
      "grad_norm": 1.02854585647583,
      "learning_rate": 0.0002873797516807241,
      "loss": 4.0777,
      "step": 64860
    },
    {
      "epoch": 0.13514583333333333,
      "grad_norm": 0.8989710211753845,
      "learning_rate": 0.00028737579330910876,
      "loss": 4.1353,
      "step": 64870
    },
    {
      "epoch": 0.13516666666666666,
      "grad_norm": 0.693149209022522,
      "learning_rate": 0.0002873718343440844,
      "loss": 4.0146,
      "step": 64880
    },
    {
      "epoch": 0.1351875,
      "grad_norm": 0.7931642532348633,
      "learning_rate": 0.000287367874785668,
      "loss": 3.9828,
      "step": 64890
    },
    {
      "epoch": 0.13520833333333335,
      "grad_norm": 0.7196096777915955,
      "learning_rate": 0.00028736391463387683,
      "loss": 3.8226,
      "step": 64900
    },
    {
      "epoch": 0.13522916666666668,
      "grad_norm": 0.9476368427276611,
      "learning_rate": 0.0002873599538887279,
      "loss": 3.7723,
      "step": 64910
    },
    {
      "epoch": 0.13525,
      "grad_norm": 0.7710063457489014,
      "learning_rate": 0.00028735599255023833,
      "loss": 4.0941,
      "step": 64920
    },
    {
      "epoch": 0.13527083333333334,
      "grad_norm": 0.9134628176689148,
      "learning_rate": 0.0002873520306184252,
      "loss": 4.0182,
      "step": 64930
    },
    {
      "epoch": 0.13529166666666667,
      "grad_norm": 0.8409550189971924,
      "learning_rate": 0.0002873480680933058,
      "loss": 3.8634,
      "step": 64940
    },
    {
      "epoch": 0.1353125,
      "grad_norm": 0.8538219332695007,
      "learning_rate": 0.00028734410497489697,
      "loss": 4.0777,
      "step": 64950
    },
    {
      "epoch": 0.13533333333333333,
      "grad_norm": 0.8457117676734924,
      "learning_rate": 0.00028734014126321605,
      "loss": 3.8193,
      "step": 64960
    },
    {
      "epoch": 0.13535416666666666,
      "grad_norm": 0.7340303063392639,
      "learning_rate": 0.00028733617695828,
      "loss": 3.9134,
      "step": 64970
    },
    {
      "epoch": 0.135375,
      "grad_norm": 0.761151134967804,
      "learning_rate": 0.00028733221206010613,
      "loss": 4.0224,
      "step": 64980
    },
    {
      "epoch": 0.13539583333333333,
      "grad_norm": 1.1450016498565674,
      "learning_rate": 0.0002873282465687114,
      "loss": 4.0665,
      "step": 64990
    },
    {
      "epoch": 0.13541666666666666,
      "grad_norm": 0.7096083760261536,
      "learning_rate": 0.0002873242804841131,
      "loss": 4.162,
      "step": 65000
    },
    {
      "epoch": 0.13541666666666666,
      "eval_loss": 4.270015716552734,
      "eval_runtime": 9.216,
      "eval_samples_per_second": 1.085,
      "eval_steps_per_second": 0.326,
      "step": 65000
    },
    {
      "epoch": 0.1354375,
      "grad_norm": 0.7915689945220947,
      "learning_rate": 0.0002873203138063282,
      "loss": 3.8182,
      "step": 65010
    },
    {
      "epoch": 0.13545833333333332,
      "grad_norm": 0.8541768789291382,
      "learning_rate": 0.0002873163465353738,
      "loss": 3.917,
      "step": 65020
    },
    {
      "epoch": 0.13547916666666668,
      "grad_norm": 1.2734990119934082,
      "learning_rate": 0.00028731237867126727,
      "loss": 4.0912,
      "step": 65030
    },
    {
      "epoch": 0.1355,
      "grad_norm": 0.7125342488288879,
      "learning_rate": 0.00028730841021402557,
      "loss": 4.0899,
      "step": 65040
    },
    {
      "epoch": 0.13552083333333334,
      "grad_norm": 0.8634536266326904,
      "learning_rate": 0.0002873044411636659,
      "loss": 4.0344,
      "step": 65050
    },
    {
      "epoch": 0.13554166666666667,
      "grad_norm": 0.8109236359596252,
      "learning_rate": 0.00028730047152020536,
      "loss": 4.0332,
      "step": 65060
    },
    {
      "epoch": 0.1355625,
      "grad_norm": 0.7831248641014099,
      "learning_rate": 0.00028729650128366116,
      "loss": 3.7846,
      "step": 65070
    },
    {
      "epoch": 0.13558333333333333,
      "grad_norm": 0.7490153908729553,
      "learning_rate": 0.0002872925304540504,
      "loss": 4.0979,
      "step": 65080
    },
    {
      "epoch": 0.13560416666666666,
      "grad_norm": 0.7342486381530762,
      "learning_rate": 0.00028728855903139026,
      "loss": 3.9611,
      "step": 65090
    },
    {
      "epoch": 0.135625,
      "grad_norm": 1.0337474346160889,
      "learning_rate": 0.00028728458701569794,
      "loss": 3.7365,
      "step": 65100
    },
    {
      "epoch": 0.13564583333333333,
      "grad_norm": 0.889200747013092,
      "learning_rate": 0.00028728061440699045,
      "loss": 4.0339,
      "step": 65110
    },
    {
      "epoch": 0.13566666666666666,
      "grad_norm": 0.9836903214454651,
      "learning_rate": 0.0002872766412052851,
      "loss": 3.9845,
      "step": 65120
    },
    {
      "epoch": 0.1356875,
      "grad_norm": 0.7733109593391418,
      "learning_rate": 0.000287272667410599,
      "loss": 3.9591,
      "step": 65130
    },
    {
      "epoch": 0.13570833333333332,
      "grad_norm": 0.8711004853248596,
      "learning_rate": 0.0002872686930229493,
      "loss": 4.1617,
      "step": 65140
    },
    {
      "epoch": 0.13572916666666668,
      "grad_norm": 0.7676413655281067,
      "learning_rate": 0.0002872647180423532,
      "loss": 3.9984,
      "step": 65150
    },
    {
      "epoch": 0.13575,
      "grad_norm": 0.7358406782150269,
      "learning_rate": 0.0002872607424688278,
      "loss": 3.8362,
      "step": 65160
    },
    {
      "epoch": 0.13577083333333334,
      "grad_norm": 0.9238478541374207,
      "learning_rate": 0.00028725676630239036,
      "loss": 4.0912,
      "step": 65170
    },
    {
      "epoch": 0.13579166666666667,
      "grad_norm": 0.7800845503807068,
      "learning_rate": 0.00028725278954305804,
      "loss": 3.9674,
      "step": 65180
    },
    {
      "epoch": 0.1358125,
      "grad_norm": 0.7559322714805603,
      "learning_rate": 0.0002872488121908479,
      "loss": 4.006,
      "step": 65190
    },
    {
      "epoch": 0.13583333333333333,
      "grad_norm": 0.8165303468704224,
      "learning_rate": 0.00028724483424577736,
      "loss": 3.9804,
      "step": 65200
    },
    {
      "epoch": 0.13585416666666666,
      "grad_norm": 0.9611272215843201,
      "learning_rate": 0.0002872408557078634,
      "loss": 3.8324,
      "step": 65210
    },
    {
      "epoch": 0.135875,
      "grad_norm": 0.8529415130615234,
      "learning_rate": 0.00028723687657712324,
      "loss": 3.8041,
      "step": 65220
    },
    {
      "epoch": 0.13589583333333333,
      "grad_norm": 1.044836401939392,
      "learning_rate": 0.00028723289685357416,
      "loss": 3.9292,
      "step": 65230
    },
    {
      "epoch": 0.13591666666666666,
      "grad_norm": 0.7357377409934998,
      "learning_rate": 0.0002872289165372332,
      "loss": 3.922,
      "step": 65240
    },
    {
      "epoch": 0.1359375,
      "grad_norm": 0.778701901435852,
      "learning_rate": 0.0002872249356281177,
      "loss": 3.9804,
      "step": 65250
    },
    {
      "epoch": 0.13595833333333332,
      "grad_norm": 0.7653890252113342,
      "learning_rate": 0.0002872209541262448,
      "loss": 3.8818,
      "step": 65260
    },
    {
      "epoch": 0.13597916666666668,
      "grad_norm": 0.8069215416908264,
      "learning_rate": 0.0002872169720316317,
      "loss": 3.994,
      "step": 65270
    },
    {
      "epoch": 0.136,
      "grad_norm": 0.7315927743911743,
      "learning_rate": 0.0002872129893442956,
      "loss": 3.8108,
      "step": 65280
    },
    {
      "epoch": 0.13602083333333334,
      "grad_norm": 0.9079833626747131,
      "learning_rate": 0.0002872090060642536,
      "loss": 4.0035,
      "step": 65290
    },
    {
      "epoch": 0.13604166666666667,
      "grad_norm": 0.8693148493766785,
      "learning_rate": 0.00028720502219152305,
      "loss": 3.8689,
      "step": 65300
    },
    {
      "epoch": 0.1360625,
      "grad_norm": 0.8738946318626404,
      "learning_rate": 0.00028720103772612117,
      "loss": 3.9539,
      "step": 65310
    },
    {
      "epoch": 0.13608333333333333,
      "grad_norm": 0.8064956068992615,
      "learning_rate": 0.00028719705266806505,
      "loss": 4.0215,
      "step": 65320
    },
    {
      "epoch": 0.13610416666666666,
      "grad_norm": 0.7105675339698792,
      "learning_rate": 0.000287193067017372,
      "loss": 4.1154,
      "step": 65330
    },
    {
      "epoch": 0.136125,
      "grad_norm": 0.8013262152671814,
      "learning_rate": 0.00028718908077405924,
      "loss": 3.8123,
      "step": 65340
    },
    {
      "epoch": 0.13614583333333333,
      "grad_norm": 1.2218613624572754,
      "learning_rate": 0.0002871850939381439,
      "loss": 3.9452,
      "step": 65350
    },
    {
      "epoch": 0.13616666666666666,
      "grad_norm": 0.9417993426322937,
      "learning_rate": 0.0002871811065096433,
      "loss": 3.8226,
      "step": 65360
    },
    {
      "epoch": 0.1361875,
      "grad_norm": 1.3034276962280273,
      "learning_rate": 0.0002871771184885746,
      "loss": 3.6707,
      "step": 65370
    },
    {
      "epoch": 0.13620833333333332,
      "grad_norm": 0.8150424957275391,
      "learning_rate": 0.000287173129874955,
      "loss": 3.7573,
      "step": 65380
    },
    {
      "epoch": 0.13622916666666668,
      "grad_norm": 0.7253665328025818,
      "learning_rate": 0.00028716914066880184,
      "loss": 3.8997,
      "step": 65390
    },
    {
      "epoch": 0.13625,
      "grad_norm": 1.119425892829895,
      "learning_rate": 0.0002871651508701323,
      "loss": 4.0051,
      "step": 65400
    },
    {
      "epoch": 0.13627083333333334,
      "grad_norm": 0.7178698182106018,
      "learning_rate": 0.00028716116047896353,
      "loss": 4.184,
      "step": 65410
    },
    {
      "epoch": 0.13629166666666667,
      "grad_norm": 0.7137079238891602,
      "learning_rate": 0.0002871571694953129,
      "loss": 3.8225,
      "step": 65420
    },
    {
      "epoch": 0.1363125,
      "grad_norm": 0.9255494475364685,
      "learning_rate": 0.0002871531779191975,
      "loss": 4.0078,
      "step": 65430
    },
    {
      "epoch": 0.13633333333333333,
      "grad_norm": 0.7485969662666321,
      "learning_rate": 0.00028714918575063476,
      "loss": 3.9384,
      "step": 65440
    },
    {
      "epoch": 0.13635416666666667,
      "grad_norm": 0.9804455041885376,
      "learning_rate": 0.0002871451929896418,
      "loss": 4.055,
      "step": 65450
    },
    {
      "epoch": 0.136375,
      "grad_norm": 0.9150384664535522,
      "learning_rate": 0.00028714119963623585,
      "loss": 3.8845,
      "step": 65460
    },
    {
      "epoch": 0.13639583333333333,
      "grad_norm": 0.8464775681495667,
      "learning_rate": 0.0002871372056904343,
      "loss": 3.9178,
      "step": 65470
    },
    {
      "epoch": 0.13641666666666666,
      "grad_norm": 0.7964507341384888,
      "learning_rate": 0.0002871332111522542,
      "loss": 3.9835,
      "step": 65480
    },
    {
      "epoch": 0.1364375,
      "grad_norm": 0.7888517379760742,
      "learning_rate": 0.00028712921602171295,
      "loss": 3.9112,
      "step": 65490
    },
    {
      "epoch": 0.13645833333333332,
      "grad_norm": 0.7494146823883057,
      "learning_rate": 0.00028712522029882774,
      "loss": 4.015,
      "step": 65500
    },
    {
      "epoch": 0.13647916666666668,
      "grad_norm": 0.8611884117126465,
      "learning_rate": 0.00028712122398361593,
      "loss": 4.0493,
      "step": 65510
    },
    {
      "epoch": 0.1365,
      "grad_norm": 0.8028864860534668,
      "learning_rate": 0.0002871172270760946,
      "loss": 4.0986,
      "step": 65520
    },
    {
      "epoch": 0.13652083333333334,
      "grad_norm": 0.6981949210166931,
      "learning_rate": 0.0002871132295762812,
      "loss": 4.0149,
      "step": 65530
    },
    {
      "epoch": 0.13654166666666667,
      "grad_norm": 0.9052545428276062,
      "learning_rate": 0.00028710923148419294,
      "loss": 4.1545,
      "step": 65540
    },
    {
      "epoch": 0.1365625,
      "grad_norm": 0.8394050598144531,
      "learning_rate": 0.000287105232799847,
      "loss": 3.8832,
      "step": 65550
    },
    {
      "epoch": 0.13658333333333333,
      "grad_norm": 0.7084269523620605,
      "learning_rate": 0.0002871012335232608,
      "loss": 3.9726,
      "step": 65560
    },
    {
      "epoch": 0.13660416666666667,
      "grad_norm": 0.872664749622345,
      "learning_rate": 0.00028709723365445147,
      "loss": 3.9799,
      "step": 65570
    },
    {
      "epoch": 0.136625,
      "grad_norm": 0.7112998962402344,
      "learning_rate": 0.0002870932331934364,
      "loss": 4.0741,
      "step": 65580
    },
    {
      "epoch": 0.13664583333333333,
      "grad_norm": 0.7052416801452637,
      "learning_rate": 0.0002870892321402328,
      "loss": 3.9478,
      "step": 65590
    },
    {
      "epoch": 0.13666666666666666,
      "grad_norm": 0.7768219113349915,
      "learning_rate": 0.000287085230494858,
      "loss": 3.8606,
      "step": 65600
    },
    {
      "epoch": 0.1366875,
      "grad_norm": 0.7721940279006958,
      "learning_rate": 0.00028708122825732923,
      "loss": 3.889,
      "step": 65610
    },
    {
      "epoch": 0.13670833333333332,
      "grad_norm": 0.7931677103042603,
      "learning_rate": 0.00028707722542766384,
      "loss": 3.8851,
      "step": 65620
    },
    {
      "epoch": 0.13672916666666668,
      "grad_norm": 0.8016607761383057,
      "learning_rate": 0.0002870732220058791,
      "loss": 3.946,
      "step": 65630
    },
    {
      "epoch": 0.13675,
      "grad_norm": 0.8310295343399048,
      "learning_rate": 0.00028706921799199234,
      "loss": 3.8892,
      "step": 65640
    },
    {
      "epoch": 0.13677083333333334,
      "grad_norm": 0.7296850681304932,
      "learning_rate": 0.00028706521338602074,
      "loss": 3.9353,
      "step": 65650
    },
    {
      "epoch": 0.13679166666666667,
      "grad_norm": 0.7558501958847046,
      "learning_rate": 0.00028706120818798174,
      "loss": 3.7684,
      "step": 65660
    },
    {
      "epoch": 0.1368125,
      "grad_norm": 0.7843570113182068,
      "learning_rate": 0.0002870572023978925,
      "loss": 4.003,
      "step": 65670
    },
    {
      "epoch": 0.13683333333333333,
      "grad_norm": 0.8324593901634216,
      "learning_rate": 0.00028705319601577046,
      "loss": 3.7992,
      "step": 65680
    },
    {
      "epoch": 0.13685416666666667,
      "grad_norm": 0.8596004247665405,
      "learning_rate": 0.0002870491890416328,
      "loss": 3.9707,
      "step": 65690
    },
    {
      "epoch": 0.136875,
      "grad_norm": 0.769801139831543,
      "learning_rate": 0.00028704518147549694,
      "loss": 3.9967,
      "step": 65700
    },
    {
      "epoch": 0.13689583333333333,
      "grad_norm": 0.7398144602775574,
      "learning_rate": 0.0002870411733173802,
      "loss": 3.8826,
      "step": 65710
    },
    {
      "epoch": 0.13691666666666666,
      "grad_norm": 0.7475129961967468,
      "learning_rate": 0.00028703716456729975,
      "loss": 3.9846,
      "step": 65720
    },
    {
      "epoch": 0.1369375,
      "grad_norm": 0.8137556314468384,
      "learning_rate": 0.00028703315522527297,
      "loss": 3.766,
      "step": 65730
    },
    {
      "epoch": 0.13695833333333332,
      "grad_norm": 0.868998646736145,
      "learning_rate": 0.00028702914529131723,
      "loss": 3.9603,
      "step": 65740
    },
    {
      "epoch": 0.13697916666666668,
      "grad_norm": 0.8844988346099854,
      "learning_rate": 0.00028702513476544983,
      "loss": 3.8723,
      "step": 65750
    },
    {
      "epoch": 0.137,
      "grad_norm": 0.770193338394165,
      "learning_rate": 0.0002870211236476881,
      "loss": 4.0065,
      "step": 65760
    },
    {
      "epoch": 0.13702083333333334,
      "grad_norm": 0.743553102016449,
      "learning_rate": 0.00028701711193804936,
      "loss": 4.2644,
      "step": 65770
    },
    {
      "epoch": 0.13704166666666667,
      "grad_norm": 0.7592821717262268,
      "learning_rate": 0.0002870130996365509,
      "loss": 3.8594,
      "step": 65780
    },
    {
      "epoch": 0.1370625,
      "grad_norm": 0.8209540843963623,
      "learning_rate": 0.0002870090867432101,
      "loss": 3.95,
      "step": 65790
    },
    {
      "epoch": 0.13708333333333333,
      "grad_norm": 0.7818352580070496,
      "learning_rate": 0.0002870050732580443,
      "loss": 3.9313,
      "step": 65800
    },
    {
      "epoch": 0.13710416666666667,
      "grad_norm": 0.7777538299560547,
      "learning_rate": 0.0002870010591810708,
      "loss": 4.1911,
      "step": 65810
    },
    {
      "epoch": 0.137125,
      "grad_norm": 0.9045796394348145,
      "learning_rate": 0.0002869970445123069,
      "loss": 4.0692,
      "step": 65820
    },
    {
      "epoch": 0.13714583333333333,
      "grad_norm": 0.7993079423904419,
      "learning_rate": 0.00028699302925177004,
      "loss": 4.048,
      "step": 65830
    },
    {
      "epoch": 0.13716666666666666,
      "grad_norm": 2.634913206100464,
      "learning_rate": 0.0002869890133994775,
      "loss": 3.9703,
      "step": 65840
    },
    {
      "epoch": 0.1371875,
      "grad_norm": 0.807085394859314,
      "learning_rate": 0.0002869849969554467,
      "loss": 4.0553,
      "step": 65850
    },
    {
      "epoch": 0.13720833333333332,
      "grad_norm": 1.083817958831787,
      "learning_rate": 0.00028698097991969486,
      "loss": 4.025,
      "step": 65860
    },
    {
      "epoch": 0.13722916666666668,
      "grad_norm": 0.7468310594558716,
      "learning_rate": 0.0002869769622922395,
      "loss": 4.0082,
      "step": 65870
    },
    {
      "epoch": 0.13725,
      "grad_norm": 0.990460216999054,
      "learning_rate": 0.0002869729440730978,
      "loss": 3.8593,
      "step": 65880
    },
    {
      "epoch": 0.13727083333333334,
      "grad_norm": 0.8732584118843079,
      "learning_rate": 0.0002869689252622872,
      "loss": 4.0827,
      "step": 65890
    },
    {
      "epoch": 0.13729166666666667,
      "grad_norm": 0.7800723314285278,
      "learning_rate": 0.0002869649058598251,
      "loss": 4.1737,
      "step": 65900
    },
    {
      "epoch": 0.1373125,
      "grad_norm": 0.916387677192688,
      "learning_rate": 0.00028696088586572876,
      "loss": 3.9019,
      "step": 65910
    },
    {
      "epoch": 0.13733333333333334,
      "grad_norm": 0.7495294809341431,
      "learning_rate": 0.0002869568652800157,
      "loss": 4.0042,
      "step": 65920
    },
    {
      "epoch": 0.13735416666666667,
      "grad_norm": 0.7494322657585144,
      "learning_rate": 0.00028695284410270314,
      "loss": 3.778,
      "step": 65930
    },
    {
      "epoch": 0.137375,
      "grad_norm": 0.708899736404419,
      "learning_rate": 0.0002869488223338085,
      "loss": 3.7854,
      "step": 65940
    },
    {
      "epoch": 0.13739583333333333,
      "grad_norm": 0.8492857217788696,
      "learning_rate": 0.0002869447999733492,
      "loss": 4.0197,
      "step": 65950
    },
    {
      "epoch": 0.13741666666666666,
      "grad_norm": 0.7774770855903625,
      "learning_rate": 0.0002869407770213425,
      "loss": 3.9175,
      "step": 65960
    },
    {
      "epoch": 0.1374375,
      "grad_norm": 0.8904722332954407,
      "learning_rate": 0.00028693675347780587,
      "loss": 3.8871,
      "step": 65970
    },
    {
      "epoch": 0.13745833333333332,
      "grad_norm": 0.8568634390830994,
      "learning_rate": 0.0002869327293427567,
      "loss": 3.8772,
      "step": 65980
    },
    {
      "epoch": 0.13747916666666668,
      "grad_norm": 0.8707426190376282,
      "learning_rate": 0.0002869287046162123,
      "loss": 3.7674,
      "step": 65990
    },
    {
      "epoch": 0.1375,
      "grad_norm": 0.8670472502708435,
      "learning_rate": 0.00028692467929819016,
      "loss": 4.1639,
      "step": 66000
    },
    {
      "epoch": 0.1375,
      "eval_loss": 4.280795097351074,
      "eval_runtime": 10.0378,
      "eval_samples_per_second": 0.996,
      "eval_steps_per_second": 0.299,
      "step": 66000
    },
    {
      "epoch": 0.13752083333333334,
      "grad_norm": 0.740135669708252,
      "learning_rate": 0.00028692065338870753,
      "loss": 3.8462,
      "step": 66010
    },
    {
      "epoch": 0.13754166666666667,
      "grad_norm": 0.9340844750404358,
      "learning_rate": 0.00028691662688778193,
      "loss": 3.9741,
      "step": 66020
    },
    {
      "epoch": 0.1375625,
      "grad_norm": 0.7554949522018433,
      "learning_rate": 0.00028691259979543067,
      "loss": 4.1069,
      "step": 66030
    },
    {
      "epoch": 0.13758333333333334,
      "grad_norm": 0.7845373749732971,
      "learning_rate": 0.0002869085721116712,
      "loss": 3.7915,
      "step": 66040
    },
    {
      "epoch": 0.13760416666666667,
      "grad_norm": 1.071006417274475,
      "learning_rate": 0.00028690454383652084,
      "loss": 4.021,
      "step": 66050
    },
    {
      "epoch": 0.137625,
      "grad_norm": 0.8170678019523621,
      "learning_rate": 0.00028690051496999707,
      "loss": 3.8861,
      "step": 66060
    },
    {
      "epoch": 0.13764583333333333,
      "grad_norm": 0.9291921257972717,
      "learning_rate": 0.00028689648551211724,
      "loss": 3.9739,
      "step": 66070
    },
    {
      "epoch": 0.13766666666666666,
      "grad_norm": 0.7531381249427795,
      "learning_rate": 0.0002868924554628988,
      "loss": 3.9176,
      "step": 66080
    },
    {
      "epoch": 0.1376875,
      "grad_norm": 0.7596206068992615,
      "learning_rate": 0.00028688842482235916,
      "loss": 4.0523,
      "step": 66090
    },
    {
      "epoch": 0.13770833333333332,
      "grad_norm": 0.7787721753120422,
      "learning_rate": 0.0002868843935905157,
      "loss": 4.0548,
      "step": 66100
    },
    {
      "epoch": 0.13772916666666668,
      "grad_norm": 0.7916592359542847,
      "learning_rate": 0.0002868803617673858,
      "loss": 4.0309,
      "step": 66110
    },
    {
      "epoch": 0.13775,
      "grad_norm": 0.8433559536933899,
      "learning_rate": 0.0002868763293529869,
      "loss": 4.1242,
      "step": 66120
    },
    {
      "epoch": 0.13777083333333334,
      "grad_norm": 0.7746022343635559,
      "learning_rate": 0.00028687229634733656,
      "loss": 3.8951,
      "step": 66130
    },
    {
      "epoch": 0.13779166666666667,
      "grad_norm": 0.7962788343429565,
      "learning_rate": 0.000286868262750452,
      "loss": 4.0907,
      "step": 66140
    },
    {
      "epoch": 0.1378125,
      "grad_norm": 0.7643312811851501,
      "learning_rate": 0.00028686422856235075,
      "loss": 3.9383,
      "step": 66150
    },
    {
      "epoch": 0.13783333333333334,
      "grad_norm": 0.8939483165740967,
      "learning_rate": 0.00028686019378305015,
      "loss": 3.812,
      "step": 66160
    },
    {
      "epoch": 0.13785416666666667,
      "grad_norm": 0.6806573271751404,
      "learning_rate": 0.0002868561584125677,
      "loss": 3.9889,
      "step": 66170
    },
    {
      "epoch": 0.137875,
      "grad_norm": 0.7723097801208496,
      "learning_rate": 0.00028685212245092086,
      "loss": 3.9836,
      "step": 66180
    },
    {
      "epoch": 0.13789583333333333,
      "grad_norm": 0.8020229935646057,
      "learning_rate": 0.00028684808589812697,
      "loss": 3.9696,
      "step": 66190
    },
    {
      "epoch": 0.13791666666666666,
      "grad_norm": 0.7712486982345581,
      "learning_rate": 0.0002868440487542036,
      "loss": 3.8379,
      "step": 66200
    },
    {
      "epoch": 0.1379375,
      "grad_norm": 0.8245943188667297,
      "learning_rate": 0.000286840011019168,
      "loss": 4.1566,
      "step": 66210
    },
    {
      "epoch": 0.13795833333333332,
      "grad_norm": 0.8406330347061157,
      "learning_rate": 0.00028683597269303776,
      "loss": 3.9494,
      "step": 66220
    },
    {
      "epoch": 0.13797916666666668,
      "grad_norm": 0.7398877143859863,
      "learning_rate": 0.0002868319337758303,
      "loss": 4.2635,
      "step": 66230
    },
    {
      "epoch": 0.138,
      "grad_norm": 0.7273675203323364,
      "learning_rate": 0.0002868278942675631,
      "loss": 3.8957,
      "step": 66240
    },
    {
      "epoch": 0.13802083333333334,
      "grad_norm": 0.8393301367759705,
      "learning_rate": 0.00028682385416825345,
      "loss": 3.8792,
      "step": 66250
    },
    {
      "epoch": 0.13804166666666667,
      "grad_norm": 0.9525238871574402,
      "learning_rate": 0.00028681981347791893,
      "loss": 3.8784,
      "step": 66260
    },
    {
      "epoch": 0.1380625,
      "grad_norm": 1.0002228021621704,
      "learning_rate": 0.000286815772196577,
      "loss": 4.0425,
      "step": 66270
    },
    {
      "epoch": 0.13808333333333334,
      "grad_norm": 0.7807588577270508,
      "learning_rate": 0.00028681173032424513,
      "loss": 4.1447,
      "step": 66280
    },
    {
      "epoch": 0.13810416666666667,
      "grad_norm": 0.7657002806663513,
      "learning_rate": 0.00028680768786094066,
      "loss": 3.9529,
      "step": 66290
    },
    {
      "epoch": 0.138125,
      "grad_norm": 0.7748212218284607,
      "learning_rate": 0.00028680364480668116,
      "loss": 3.9714,
      "step": 66300
    },
    {
      "epoch": 0.13814583333333333,
      "grad_norm": 0.8226855993270874,
      "learning_rate": 0.0002867996011614841,
      "loss": 3.9952,
      "step": 66310
    },
    {
      "epoch": 0.13816666666666666,
      "grad_norm": 0.6432904601097107,
      "learning_rate": 0.00028679555692536683,
      "loss": 4.0371,
      "step": 66320
    },
    {
      "epoch": 0.1381875,
      "grad_norm": 0.8896268606185913,
      "learning_rate": 0.00028679151209834696,
      "loss": 4.043,
      "step": 66330
    },
    {
      "epoch": 0.13820833333333332,
      "grad_norm": 0.801670253276825,
      "learning_rate": 0.0002867874666804419,
      "loss": 3.9039,
      "step": 66340
    },
    {
      "epoch": 0.13822916666666665,
      "grad_norm": 0.755953311920166,
      "learning_rate": 0.00028678342067166914,
      "loss": 4.2403,
      "step": 66350
    },
    {
      "epoch": 0.13825,
      "grad_norm": 0.8296604752540588,
      "learning_rate": 0.0002867793740720461,
      "loss": 4.0175,
      "step": 66360
    },
    {
      "epoch": 0.13827083333333334,
      "grad_norm": 0.8860189318656921,
      "learning_rate": 0.00028677532688159034,
      "loss": 3.9633,
      "step": 66370
    },
    {
      "epoch": 0.13829166666666667,
      "grad_norm": 0.8846216201782227,
      "learning_rate": 0.0002867712791003193,
      "loss": 3.7753,
      "step": 66380
    },
    {
      "epoch": 0.1383125,
      "grad_norm": 0.725294828414917,
      "learning_rate": 0.00028676723072825047,
      "loss": 3.847,
      "step": 66390
    },
    {
      "epoch": 0.13833333333333334,
      "grad_norm": 0.7203556299209595,
      "learning_rate": 0.0002867631817654014,
      "loss": 4.0929,
      "step": 66400
    },
    {
      "epoch": 0.13835416666666667,
      "grad_norm": 0.7871002554893494,
      "learning_rate": 0.0002867591322117894,
      "loss": 4.002,
      "step": 66410
    },
    {
      "epoch": 0.138375,
      "grad_norm": 0.8023578524589539,
      "learning_rate": 0.0002867550820674322,
      "loss": 3.9665,
      "step": 66420
    },
    {
      "epoch": 0.13839583333333333,
      "grad_norm": 0.9391366243362427,
      "learning_rate": 0.0002867510313323471,
      "loss": 4.0523,
      "step": 66430
    },
    {
      "epoch": 0.13841666666666666,
      "grad_norm": 0.7334455251693726,
      "learning_rate": 0.0002867469800065517,
      "loss": 4.2115,
      "step": 66440
    },
    {
      "epoch": 0.1384375,
      "grad_norm": 0.7620160579681396,
      "learning_rate": 0.00028674292809006345,
      "loss": 3.893,
      "step": 66450
    },
    {
      "epoch": 0.13845833333333332,
      "grad_norm": 0.7667372822761536,
      "learning_rate": 0.0002867388755828999,
      "loss": 3.733,
      "step": 66460
    },
    {
      "epoch": 0.13847916666666665,
      "grad_norm": 1.0828499794006348,
      "learning_rate": 0.00028673482248507855,
      "loss": 3.9695,
      "step": 66470
    },
    {
      "epoch": 0.1385,
      "grad_norm": 0.7990016937255859,
      "learning_rate": 0.0002867307687966169,
      "loss": 3.956,
      "step": 66480
    },
    {
      "epoch": 0.13852083333333334,
      "grad_norm": 0.7766852974891663,
      "learning_rate": 0.00028672671451753233,
      "loss": 4.0184,
      "step": 66490
    },
    {
      "epoch": 0.13854166666666667,
      "grad_norm": 0.7112399935722351,
      "learning_rate": 0.0002867226596478426,
      "loss": 4.004,
      "step": 66500
    },
    {
      "epoch": 0.1385625,
      "grad_norm": 0.8018895983695984,
      "learning_rate": 0.0002867186041875651,
      "loss": 3.8946,
      "step": 66510
    },
    {
      "epoch": 0.13858333333333334,
      "grad_norm": 0.9305739998817444,
      "learning_rate": 0.00028671454813671726,
      "loss": 4.2356,
      "step": 66520
    },
    {
      "epoch": 0.13860416666666667,
      "grad_norm": 0.7580352425575256,
      "learning_rate": 0.00028671049149531675,
      "loss": 3.9579,
      "step": 66530
    },
    {
      "epoch": 0.138625,
      "grad_norm": 0.7714937329292297,
      "learning_rate": 0.000286706434263381,
      "loss": 3.9876,
      "step": 66540
    },
    {
      "epoch": 0.13864583333333333,
      "grad_norm": 0.8185648918151855,
      "learning_rate": 0.0002867023764409276,
      "loss": 4.0402,
      "step": 66550
    },
    {
      "epoch": 0.13866666666666666,
      "grad_norm": 0.8889954686164856,
      "learning_rate": 0.00028669831802797407,
      "loss": 4.1126,
      "step": 66560
    },
    {
      "epoch": 0.1386875,
      "grad_norm": 0.882784366607666,
      "learning_rate": 0.00028669425902453787,
      "loss": 3.7506,
      "step": 66570
    },
    {
      "epoch": 0.13870833333333332,
      "grad_norm": 0.8317544460296631,
      "learning_rate": 0.0002866901994306366,
      "loss": 3.8671,
      "step": 66580
    },
    {
      "epoch": 0.13872916666666665,
      "grad_norm": 0.7309566140174866,
      "learning_rate": 0.0002866861392462877,
      "loss": 3.9634,
      "step": 66590
    },
    {
      "epoch": 0.13875,
      "grad_norm": 0.8411346077919006,
      "learning_rate": 0.0002866820784715088,
      "loss": 3.9735,
      "step": 66600
    },
    {
      "epoch": 0.13877083333333334,
      "grad_norm": 0.7378370761871338,
      "learning_rate": 0.0002866780171063175,
      "loss": 3.9803,
      "step": 66610
    },
    {
      "epoch": 0.13879166666666667,
      "grad_norm": 0.7075258493423462,
      "learning_rate": 0.0002866739551507312,
      "loss": 4.0165,
      "step": 66620
    },
    {
      "epoch": 0.1388125,
      "grad_norm": 0.8132305145263672,
      "learning_rate": 0.0002866698926047676,
      "loss": 3.8272,
      "step": 66630
    },
    {
      "epoch": 0.13883333333333334,
      "grad_norm": 0.8023970723152161,
      "learning_rate": 0.0002866658294684441,
      "loss": 3.9566,
      "step": 66640
    },
    {
      "epoch": 0.13885416666666667,
      "grad_norm": 0.7620745301246643,
      "learning_rate": 0.0002866617657417783,
      "loss": 3.9641,
      "step": 66650
    },
    {
      "epoch": 0.138875,
      "grad_norm": 0.8282944560050964,
      "learning_rate": 0.00028665770142478783,
      "loss": 4.0796,
      "step": 66660
    },
    {
      "epoch": 0.13889583333333333,
      "grad_norm": 0.689987063407898,
      "learning_rate": 0.00028665363651749013,
      "loss": 3.9885,
      "step": 66670
    },
    {
      "epoch": 0.13891666666666666,
      "grad_norm": 0.8217405676841736,
      "learning_rate": 0.0002866495710199028,
      "loss": 3.9427,
      "step": 66680
    },
    {
      "epoch": 0.1389375,
      "grad_norm": 0.7840771079063416,
      "learning_rate": 0.0002866455049320434,
      "loss": 4.0037,
      "step": 66690
    },
    {
      "epoch": 0.13895833333333332,
      "grad_norm": 0.8600865006446838,
      "learning_rate": 0.00028664143825392953,
      "loss": 3.7886,
      "step": 66700
    },
    {
      "epoch": 0.13897916666666665,
      "grad_norm": 0.7443968057632446,
      "learning_rate": 0.00028663737098557875,
      "loss": 3.962,
      "step": 66710
    },
    {
      "epoch": 0.139,
      "grad_norm": 0.9079613089561462,
      "learning_rate": 0.00028663330312700863,
      "loss": 3.8281,
      "step": 66720
    },
    {
      "epoch": 0.13902083333333334,
      "grad_norm": 0.7392581105232239,
      "learning_rate": 0.0002866292346782367,
      "loss": 3.957,
      "step": 66730
    },
    {
      "epoch": 0.13904166666666667,
      "grad_norm": 0.8310708403587341,
      "learning_rate": 0.00028662516563928055,
      "loss": 4.0316,
      "step": 66740
    },
    {
      "epoch": 0.1390625,
      "grad_norm": 0.8175225257873535,
      "learning_rate": 0.00028662109601015776,
      "loss": 3.8698,
      "step": 66750
    },
    {
      "epoch": 0.13908333333333334,
      "grad_norm": 0.7781490087509155,
      "learning_rate": 0.00028661702579088594,
      "loss": 3.6807,
      "step": 66760
    },
    {
      "epoch": 0.13910416666666667,
      "grad_norm": 0.7586997151374817,
      "learning_rate": 0.0002866129549814826,
      "loss": 3.9592,
      "step": 66770
    },
    {
      "epoch": 0.139125,
      "grad_norm": 0.832291841506958,
      "learning_rate": 0.0002866088835819654,
      "loss": 3.9807,
      "step": 66780
    },
    {
      "epoch": 0.13914583333333333,
      "grad_norm": 0.719735324382782,
      "learning_rate": 0.0002866048115923519,
      "loss": 3.9444,
      "step": 66790
    },
    {
      "epoch": 0.13916666666666666,
      "grad_norm": 0.7619137763977051,
      "learning_rate": 0.0002866007390126597,
      "loss": 3.9132,
      "step": 66800
    },
    {
      "epoch": 0.1391875,
      "grad_norm": 0.9500381350517273,
      "learning_rate": 0.00028659666584290633,
      "loss": 3.913,
      "step": 66810
    },
    {
      "epoch": 0.13920833333333332,
      "grad_norm": 0.8629404902458191,
      "learning_rate": 0.0002865925920831095,
      "loss": 4.0357,
      "step": 66820
    },
    {
      "epoch": 0.13922916666666665,
      "grad_norm": 0.7602584362030029,
      "learning_rate": 0.0002865885177332867,
      "loss": 4.101,
      "step": 66830
    },
    {
      "epoch": 0.13925,
      "grad_norm": 0.6978729367256165,
      "learning_rate": 0.00028658444279345554,
      "loss": 4.0849,
      "step": 66840
    },
    {
      "epoch": 0.13927083333333334,
      "grad_norm": 0.7115938067436218,
      "learning_rate": 0.0002865803672636337,
      "loss": 3.9577,
      "step": 66850
    },
    {
      "epoch": 0.13929166666666667,
      "grad_norm": 0.9050566554069519,
      "learning_rate": 0.00028657629114383867,
      "loss": 3.7679,
      "step": 66860
    },
    {
      "epoch": 0.1393125,
      "grad_norm": 1.0012133121490479,
      "learning_rate": 0.0002865722144340882,
      "loss": 3.891,
      "step": 66870
    },
    {
      "epoch": 0.13933333333333334,
      "grad_norm": 0.7658916115760803,
      "learning_rate": 0.00028656813713439977,
      "loss": 3.8708,
      "step": 66880
    },
    {
      "epoch": 0.13935416666666667,
      "grad_norm": 0.7346609234809875,
      "learning_rate": 0.0002865640592447911,
      "loss": 4.0782,
      "step": 66890
    },
    {
      "epoch": 0.139375,
      "grad_norm": 1.2897148132324219,
      "learning_rate": 0.00028655998076527973,
      "loss": 3.8769,
      "step": 66900
    },
    {
      "epoch": 0.13939583333333333,
      "grad_norm": 0.8564690947532654,
      "learning_rate": 0.00028655590169588324,
      "loss": 3.8499,
      "step": 66910
    },
    {
      "epoch": 0.13941666666666666,
      "grad_norm": 0.7858598828315735,
      "learning_rate": 0.00028655182203661935,
      "loss": 4.0368,
      "step": 66920
    },
    {
      "epoch": 0.1394375,
      "grad_norm": 0.7081370949745178,
      "learning_rate": 0.00028654774178750567,
      "loss": 3.8307,
      "step": 66930
    },
    {
      "epoch": 0.13945833333333332,
      "grad_norm": 0.9028245210647583,
      "learning_rate": 0.0002865436609485597,
      "loss": 3.9862,
      "step": 66940
    },
    {
      "epoch": 0.13947916666666665,
      "grad_norm": 0.7501576542854309,
      "learning_rate": 0.00028653957951979927,
      "loss": 4.0422,
      "step": 66950
    },
    {
      "epoch": 0.1395,
      "grad_norm": 0.751736044883728,
      "learning_rate": 0.00028653549750124184,
      "loss": 4.0201,
      "step": 66960
    },
    {
      "epoch": 0.13952083333333334,
      "grad_norm": 0.7579165697097778,
      "learning_rate": 0.0002865314148929051,
      "loss": 4.2246,
      "step": 66970
    },
    {
      "epoch": 0.13954166666666667,
      "grad_norm": 0.8148170709609985,
      "learning_rate": 0.00028652733169480673,
      "loss": 4.1324,
      "step": 66980
    },
    {
      "epoch": 0.1395625,
      "grad_norm": 0.7061417102813721,
      "learning_rate": 0.0002865232479069643,
      "loss": 4.0256,
      "step": 66990
    },
    {
      "epoch": 0.13958333333333334,
      "grad_norm": 0.7910216450691223,
      "learning_rate": 0.00028651916352939554,
      "loss": 4.003,
      "step": 67000
    },
    {
      "epoch": 0.13958333333333334,
      "eval_loss": 4.276420593261719,
      "eval_runtime": 10.2531,
      "eval_samples_per_second": 0.975,
      "eval_steps_per_second": 0.293,
      "step": 67000
    },
    {
      "epoch": 0.13960416666666667,
      "grad_norm": 0.9156991839408875,
      "learning_rate": 0.00028651507856211796,
      "loss": 3.9639,
      "step": 67010
    },
    {
      "epoch": 0.139625,
      "grad_norm": 0.7979676723480225,
      "learning_rate": 0.0002865109930051493,
      "loss": 3.9102,
      "step": 67020
    },
    {
      "epoch": 0.13964583333333333,
      "grad_norm": 0.7167903184890747,
      "learning_rate": 0.0002865069068585072,
      "loss": 4.1039,
      "step": 67030
    },
    {
      "epoch": 0.13966666666666666,
      "grad_norm": 0.9077431559562683,
      "learning_rate": 0.0002865028201222093,
      "loss": 4.0158,
      "step": 67040
    },
    {
      "epoch": 0.1396875,
      "grad_norm": 0.697561502456665,
      "learning_rate": 0.0002864987327962732,
      "loss": 3.9194,
      "step": 67050
    },
    {
      "epoch": 0.13970833333333332,
      "grad_norm": 0.7293820381164551,
      "learning_rate": 0.00028649464488071663,
      "loss": 3.9485,
      "step": 67060
    },
    {
      "epoch": 0.13972916666666665,
      "grad_norm": 0.7158096432685852,
      "learning_rate": 0.0002864905563755572,
      "loss": 4.1011,
      "step": 67070
    },
    {
      "epoch": 0.13975,
      "grad_norm": 0.7435108423233032,
      "learning_rate": 0.00028648646728081264,
      "loss": 4.0432,
      "step": 67080
    },
    {
      "epoch": 0.13977083333333334,
      "grad_norm": 0.8101531863212585,
      "learning_rate": 0.0002864823775965005,
      "loss": 4.0,
      "step": 67090
    },
    {
      "epoch": 0.13979166666666668,
      "grad_norm": 0.7339980006217957,
      "learning_rate": 0.0002864782873226386,
      "loss": 4.1664,
      "step": 67100
    },
    {
      "epoch": 0.1398125,
      "grad_norm": 0.737366259098053,
      "learning_rate": 0.0002864741964592445,
      "loss": 3.7327,
      "step": 67110
    },
    {
      "epoch": 0.13983333333333334,
      "grad_norm": 0.9386153221130371,
      "learning_rate": 0.00028647010500633586,
      "loss": 3.8721,
      "step": 67120
    },
    {
      "epoch": 0.13985416666666667,
      "grad_norm": 0.8770789504051208,
      "learning_rate": 0.0002864660129639304,
      "loss": 4.0339,
      "step": 67130
    },
    {
      "epoch": 0.139875,
      "grad_norm": 0.764401376247406,
      "learning_rate": 0.00028646192033204577,
      "loss": 3.929,
      "step": 67140
    },
    {
      "epoch": 0.13989583333333333,
      "grad_norm": 0.7835575342178345,
      "learning_rate": 0.0002864578271106997,
      "loss": 4.0543,
      "step": 67150
    },
    {
      "epoch": 0.13991666666666666,
      "grad_norm": 0.7477178573608398,
      "learning_rate": 0.00028645373329990977,
      "loss": 4.0098,
      "step": 67160
    },
    {
      "epoch": 0.1399375,
      "grad_norm": 0.7605560421943665,
      "learning_rate": 0.00028644963889969376,
      "loss": 3.9761,
      "step": 67170
    },
    {
      "epoch": 0.13995833333333332,
      "grad_norm": 0.821408212184906,
      "learning_rate": 0.0002864455439100693,
      "loss": 3.9771,
      "step": 67180
    },
    {
      "epoch": 0.13997916666666665,
      "grad_norm": 0.8547506332397461,
      "learning_rate": 0.0002864414483310541,
      "loss": 4.1226,
      "step": 67190
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7052234411239624,
      "learning_rate": 0.0002864373521626659,
      "loss": 4.3073,
      "step": 67200
    },
    {
      "epoch": 0.14002083333333334,
      "grad_norm": 0.757892906665802,
      "learning_rate": 0.0002864332554049223,
      "loss": 4.2282,
      "step": 67210
    },
    {
      "epoch": 0.14004166666666668,
      "grad_norm": 0.8175687193870544,
      "learning_rate": 0.000286429158057841,
      "loss": 4.1726,
      "step": 67220
    },
    {
      "epoch": 0.1400625,
      "grad_norm": 0.8422300219535828,
      "learning_rate": 0.0002864250601214398,
      "loss": 3.9396,
      "step": 67230
    },
    {
      "epoch": 0.14008333333333334,
      "grad_norm": 0.733242392539978,
      "learning_rate": 0.0002864209615957363,
      "loss": 4.056,
      "step": 67240
    },
    {
      "epoch": 0.14010416666666667,
      "grad_norm": 0.688207745552063,
      "learning_rate": 0.00028641686248074834,
      "loss": 4.055,
      "step": 67250
    },
    {
      "epoch": 0.140125,
      "grad_norm": 0.8442126512527466,
      "learning_rate": 0.00028641276277649344,
      "loss": 4.0531,
      "step": 67260
    },
    {
      "epoch": 0.14014583333333333,
      "grad_norm": 0.8507494926452637,
      "learning_rate": 0.0002864086624829894,
      "loss": 4.0052,
      "step": 67270
    },
    {
      "epoch": 0.14016666666666666,
      "grad_norm": 0.7374512553215027,
      "learning_rate": 0.000286404561600254,
      "loss": 3.9533,
      "step": 67280
    },
    {
      "epoch": 0.1401875,
      "grad_norm": 0.8030338287353516,
      "learning_rate": 0.0002864004601283048,
      "loss": 3.8822,
      "step": 67290
    },
    {
      "epoch": 0.14020833333333332,
      "grad_norm": 0.781160295009613,
      "learning_rate": 0.00028639635806715965,
      "loss": 3.9163,
      "step": 67300
    },
    {
      "epoch": 0.14022916666666665,
      "grad_norm": 0.7141364812850952,
      "learning_rate": 0.00028639225541683623,
      "loss": 3.9323,
      "step": 67310
    },
    {
      "epoch": 0.14025,
      "grad_norm": 0.8599461913108826,
      "learning_rate": 0.00028638815217735226,
      "loss": 4.0808,
      "step": 67320
    },
    {
      "epoch": 0.14027083333333334,
      "grad_norm": 0.7610298991203308,
      "learning_rate": 0.0002863840483487254,
      "loss": 3.8495,
      "step": 67330
    },
    {
      "epoch": 0.14029166666666668,
      "grad_norm": 0.8625538349151611,
      "learning_rate": 0.0002863799439309735,
      "loss": 4.0453,
      "step": 67340
    },
    {
      "epoch": 0.1403125,
      "grad_norm": 0.8232345581054688,
      "learning_rate": 0.0002863758389241142,
      "loss": 3.9452,
      "step": 67350
    },
    {
      "epoch": 0.14033333333333334,
      "grad_norm": 0.8120365738868713,
      "learning_rate": 0.0002863717333281653,
      "loss": 4.0147,
      "step": 67360
    },
    {
      "epoch": 0.14035416666666667,
      "grad_norm": 0.8351393342018127,
      "learning_rate": 0.00028636762714314443,
      "loss": 4.0277,
      "step": 67370
    },
    {
      "epoch": 0.140375,
      "grad_norm": 0.7913128137588501,
      "learning_rate": 0.0002863635203690694,
      "loss": 4.1899,
      "step": 67380
    },
    {
      "epoch": 0.14039583333333333,
      "grad_norm": 0.9136815667152405,
      "learning_rate": 0.00028635941300595797,
      "loss": 3.9516,
      "step": 67390
    },
    {
      "epoch": 0.14041666666666666,
      "grad_norm": 0.7650099396705627,
      "learning_rate": 0.0002863553050538278,
      "loss": 3.9319,
      "step": 67400
    },
    {
      "epoch": 0.1404375,
      "grad_norm": 0.9565250873565674,
      "learning_rate": 0.00028635119651269675,
      "loss": 3.7928,
      "step": 67410
    },
    {
      "epoch": 0.14045833333333332,
      "grad_norm": 0.8208547830581665,
      "learning_rate": 0.00028634708738258245,
      "loss": 4.1785,
      "step": 67420
    },
    {
      "epoch": 0.14047916666666665,
      "grad_norm": 0.8738393187522888,
      "learning_rate": 0.0002863429776635027,
      "loss": 4.1467,
      "step": 67430
    },
    {
      "epoch": 0.1405,
      "grad_norm": 0.8750103116035461,
      "learning_rate": 0.00028633886735547533,
      "loss": 3.9183,
      "step": 67440
    },
    {
      "epoch": 0.14052083333333334,
      "grad_norm": 0.7483782172203064,
      "learning_rate": 0.0002863347564585179,
      "loss": 3.8365,
      "step": 67450
    },
    {
      "epoch": 0.14054166666666668,
      "grad_norm": 0.6976781487464905,
      "learning_rate": 0.0002863306449726484,
      "loss": 4.101,
      "step": 67460
    },
    {
      "epoch": 0.1405625,
      "grad_norm": 0.8085796236991882,
      "learning_rate": 0.0002863265328978844,
      "loss": 3.9653,
      "step": 67470
    },
    {
      "epoch": 0.14058333333333334,
      "grad_norm": 1.0199956893920898,
      "learning_rate": 0.00028632242023424377,
      "loss": 4.0001,
      "step": 67480
    },
    {
      "epoch": 0.14060416666666667,
      "grad_norm": 0.8205024003982544,
      "learning_rate": 0.0002863183069817442,
      "loss": 4.074,
      "step": 67490
    },
    {
      "epoch": 0.140625,
      "grad_norm": 0.7775112986564636,
      "learning_rate": 0.0002863141931404036,
      "loss": 3.8565,
      "step": 67500
    },
    {
      "epoch": 0.14064583333333333,
      "grad_norm": 0.8740219473838806,
      "learning_rate": 0.00028631007871023957,
      "loss": 3.734,
      "step": 67510
    },
    {
      "epoch": 0.14066666666666666,
      "grad_norm": 0.8270694017410278,
      "learning_rate": 0.00028630596369126995,
      "loss": 3.875,
      "step": 67520
    },
    {
      "epoch": 0.1406875,
      "grad_norm": 0.7835750579833984,
      "learning_rate": 0.0002863018480835126,
      "loss": 3.9083,
      "step": 67530
    },
    {
      "epoch": 0.14070833333333332,
      "grad_norm": 0.6668506860733032,
      "learning_rate": 0.0002862977318869851,
      "loss": 3.7652,
      "step": 67540
    },
    {
      "epoch": 0.14072916666666666,
      "grad_norm": 0.6979983448982239,
      "learning_rate": 0.0002862936151017055,
      "loss": 4.2391,
      "step": 67550
    },
    {
      "epoch": 0.14075,
      "grad_norm": 0.7491747736930847,
      "learning_rate": 0.00028628949772769127,
      "loss": 4.0635,
      "step": 67560
    },
    {
      "epoch": 0.14077083333333335,
      "grad_norm": 0.6643783450126648,
      "learning_rate": 0.0002862853797649605,
      "loss": 4.049,
      "step": 67570
    },
    {
      "epoch": 0.14079166666666668,
      "grad_norm": 0.9443399906158447,
      "learning_rate": 0.0002862812612135307,
      "loss": 3.7484,
      "step": 67580
    },
    {
      "epoch": 0.1408125,
      "grad_norm": 0.8297256231307983,
      "learning_rate": 0.0002862771420734199,
      "loss": 3.9352,
      "step": 67590
    },
    {
      "epoch": 0.14083333333333334,
      "grad_norm": 0.6943755745887756,
      "learning_rate": 0.0002862730223446457,
      "loss": 4.0403,
      "step": 67600
    },
    {
      "epoch": 0.14085416666666667,
      "grad_norm": 0.8211439251899719,
      "learning_rate": 0.00028626890202722603,
      "loss": 4.0425,
      "step": 67610
    },
    {
      "epoch": 0.140875,
      "grad_norm": 0.7740168571472168,
      "learning_rate": 0.00028626478112117864,
      "loss": 4.0039,
      "step": 67620
    },
    {
      "epoch": 0.14089583333333333,
      "grad_norm": 0.7538868188858032,
      "learning_rate": 0.00028626065962652136,
      "loss": 3.9336,
      "step": 67630
    },
    {
      "epoch": 0.14091666666666666,
      "grad_norm": 0.8363707065582275,
      "learning_rate": 0.00028625653754327197,
      "loss": 3.8547,
      "step": 67640
    },
    {
      "epoch": 0.1409375,
      "grad_norm": 0.7309132218360901,
      "learning_rate": 0.00028625241487144825,
      "loss": 4.1285,
      "step": 67650
    },
    {
      "epoch": 0.14095833333333332,
      "grad_norm": 0.7842198610305786,
      "learning_rate": 0.000286248291611068,
      "loss": 4.0555,
      "step": 67660
    },
    {
      "epoch": 0.14097916666666666,
      "grad_norm": 0.8510138392448425,
      "learning_rate": 0.00028624416776214907,
      "loss": 3.804,
      "step": 67670
    },
    {
      "epoch": 0.141,
      "grad_norm": 0.7988179326057434,
      "learning_rate": 0.0002862400433247093,
      "loss": 4.1998,
      "step": 67680
    },
    {
      "epoch": 0.14102083333333335,
      "grad_norm": 0.8140338659286499,
      "learning_rate": 0.00028623591829876643,
      "loss": 4.0173,
      "step": 67690
    },
    {
      "epoch": 0.14104166666666668,
      "grad_norm": 0.7124209403991699,
      "learning_rate": 0.0002862317926843384,
      "loss": 3.8901,
      "step": 67700
    },
    {
      "epoch": 0.1410625,
      "grad_norm": 0.7556617856025696,
      "learning_rate": 0.00028622766648144285,
      "loss": 4.1091,
      "step": 67710
    },
    {
      "epoch": 0.14108333333333334,
      "grad_norm": 0.7983152270317078,
      "learning_rate": 0.00028622353969009773,
      "loss": 3.8423,
      "step": 67720
    },
    {
      "epoch": 0.14110416666666667,
      "grad_norm": 0.8871049880981445,
      "learning_rate": 0.00028621941231032086,
      "loss": 3.855,
      "step": 67730
    },
    {
      "epoch": 0.141125,
      "grad_norm": 0.7759780287742615,
      "learning_rate": 0.00028621528434213,
      "loss": 3.997,
      "step": 67740
    },
    {
      "epoch": 0.14114583333333333,
      "grad_norm": 0.753017008304596,
      "learning_rate": 0.00028621115578554313,
      "loss": 4.0343,
      "step": 67750
    },
    {
      "epoch": 0.14116666666666666,
      "grad_norm": 0.7977811694145203,
      "learning_rate": 0.0002862070266405779,
      "loss": 3.884,
      "step": 67760
    },
    {
      "epoch": 0.1411875,
      "grad_norm": 0.6948860883712769,
      "learning_rate": 0.0002862028969072523,
      "loss": 4.0462,
      "step": 67770
    },
    {
      "epoch": 0.14120833333333332,
      "grad_norm": 0.925207257270813,
      "learning_rate": 0.000286198766585584,
      "loss": 4.0486,
      "step": 67780
    },
    {
      "epoch": 0.14122916666666666,
      "grad_norm": 0.9186550378799438,
      "learning_rate": 0.00028619463567559103,
      "loss": 3.9416,
      "step": 67790
    },
    {
      "epoch": 0.14125,
      "grad_norm": 0.8622272610664368,
      "learning_rate": 0.0002861905041772911,
      "loss": 3.9462,
      "step": 67800
    },
    {
      "epoch": 0.14127083333333335,
      "grad_norm": 0.6530129313468933,
      "learning_rate": 0.00028618637209070207,
      "loss": 4.085,
      "step": 67810
    },
    {
      "epoch": 0.14129166666666668,
      "grad_norm": 0.7675093412399292,
      "learning_rate": 0.00028618223941584187,
      "loss": 4.0921,
      "step": 67820
    },
    {
      "epoch": 0.1413125,
      "grad_norm": 0.7854140996932983,
      "learning_rate": 0.0002861781061527283,
      "loss": 4.1592,
      "step": 67830
    },
    {
      "epoch": 0.14133333333333334,
      "grad_norm": 0.7828556895256042,
      "learning_rate": 0.0002861739723013792,
      "loss": 4.011,
      "step": 67840
    },
    {
      "epoch": 0.14135416666666667,
      "grad_norm": 0.7644075155258179,
      "learning_rate": 0.00028616983786181245,
      "loss": 4.0299,
      "step": 67850
    },
    {
      "epoch": 0.141375,
      "grad_norm": 0.8139627575874329,
      "learning_rate": 0.0002861657028340459,
      "loss": 4.001,
      "step": 67860
    },
    {
      "epoch": 0.14139583333333333,
      "grad_norm": 0.7982949614524841,
      "learning_rate": 0.0002861615672180974,
      "loss": 3.9721,
      "step": 67870
    },
    {
      "epoch": 0.14141666666666666,
      "grad_norm": 0.792457103729248,
      "learning_rate": 0.0002861574310139848,
      "loss": 3.9748,
      "step": 67880
    },
    {
      "epoch": 0.1414375,
      "grad_norm": 0.7915335893630981,
      "learning_rate": 0.000286153294221726,
      "loss": 4.172,
      "step": 67890
    },
    {
      "epoch": 0.14145833333333332,
      "grad_norm": 0.7654396891593933,
      "learning_rate": 0.00028614915684133894,
      "loss": 4.0046,
      "step": 67900
    },
    {
      "epoch": 0.14147916666666666,
      "grad_norm": 0.8173422813415527,
      "learning_rate": 0.00028614501887284135,
      "loss": 4.0218,
      "step": 67910
    },
    {
      "epoch": 0.1415,
      "grad_norm": 0.7302141785621643,
      "learning_rate": 0.00028614088031625115,
      "loss": 3.9187,
      "step": 67920
    },
    {
      "epoch": 0.14152083333333335,
      "grad_norm": 0.7753027081489563,
      "learning_rate": 0.0002861367411715862,
      "loss": 3.9306,
      "step": 67930
    },
    {
      "epoch": 0.14154166666666668,
      "grad_norm": 0.7701120376586914,
      "learning_rate": 0.0002861326014388645,
      "loss": 3.8931,
      "step": 67940
    },
    {
      "epoch": 0.1415625,
      "grad_norm": 0.8398255109786987,
      "learning_rate": 0.00028612846111810385,
      "loss": 3.9586,
      "step": 67950
    },
    {
      "epoch": 0.14158333333333334,
      "grad_norm": 0.7803829908370972,
      "learning_rate": 0.0002861243202093221,
      "loss": 4.0788,
      "step": 67960
    },
    {
      "epoch": 0.14160416666666667,
      "grad_norm": 0.8801718354225159,
      "learning_rate": 0.0002861201787125372,
      "loss": 3.9231,
      "step": 67970
    },
    {
      "epoch": 0.141625,
      "grad_norm": 0.7943689823150635,
      "learning_rate": 0.00028611603662776695,
      "loss": 4.0173,
      "step": 67980
    },
    {
      "epoch": 0.14164583333333333,
      "grad_norm": 0.7450417280197144,
      "learning_rate": 0.00028611189395502933,
      "loss": 3.9647,
      "step": 67990
    },
    {
      "epoch": 0.14166666666666666,
      "grad_norm": 0.6568418145179749,
      "learning_rate": 0.0002861077506943422,
      "loss": 3.9027,
      "step": 68000
    },
    {
      "epoch": 0.14166666666666666,
      "eval_loss": 4.286848545074463,
      "eval_runtime": 9.2215,
      "eval_samples_per_second": 1.084,
      "eval_steps_per_second": 0.325,
      "step": 68000
    },
    {
      "epoch": 0.1416875,
      "grad_norm": 0.7643829584121704,
      "learning_rate": 0.0002861036068457235,
      "loss": 4.0662,
      "step": 68010
    },
    {
      "epoch": 0.14170833333333333,
      "grad_norm": 0.8547444939613342,
      "learning_rate": 0.000286099462409191,
      "loss": 3.9766,
      "step": 68020
    },
    {
      "epoch": 0.14172916666666666,
      "grad_norm": 0.7716964483261108,
      "learning_rate": 0.00028609531738476283,
      "loss": 3.9988,
      "step": 68030
    },
    {
      "epoch": 0.14175,
      "grad_norm": 1.3800851106643677,
      "learning_rate": 0.00028609117177245665,
      "loss": 3.8436,
      "step": 68040
    },
    {
      "epoch": 0.14177083333333335,
      "grad_norm": 0.7249186635017395,
      "learning_rate": 0.0002860870255722905,
      "loss": 3.9899,
      "step": 68050
    },
    {
      "epoch": 0.14179166666666668,
      "grad_norm": 0.8138715624809265,
      "learning_rate": 0.00028608287878428227,
      "loss": 3.9322,
      "step": 68060
    },
    {
      "epoch": 0.1418125,
      "grad_norm": 0.813245415687561,
      "learning_rate": 0.0002860787314084499,
      "loss": 3.9035,
      "step": 68070
    },
    {
      "epoch": 0.14183333333333334,
      "grad_norm": 0.8059067726135254,
      "learning_rate": 0.0002860745834448112,
      "loss": 4.0111,
      "step": 68080
    },
    {
      "epoch": 0.14185416666666667,
      "grad_norm": 0.7531965374946594,
      "learning_rate": 0.00028607043489338425,
      "loss": 3.9871,
      "step": 68090
    },
    {
      "epoch": 0.141875,
      "grad_norm": 0.7514706254005432,
      "learning_rate": 0.00028606628575418683,
      "loss": 3.9158,
      "step": 68100
    },
    {
      "epoch": 0.14189583333333333,
      "grad_norm": 0.8034390211105347,
      "learning_rate": 0.0002860621360272369,
      "loss": 3.7255,
      "step": 68110
    },
    {
      "epoch": 0.14191666666666666,
      "grad_norm": 0.7740110754966736,
      "learning_rate": 0.0002860579857125525,
      "loss": 3.998,
      "step": 68120
    },
    {
      "epoch": 0.1419375,
      "grad_norm": 0.9132469892501831,
      "learning_rate": 0.0002860538348101513,
      "loss": 4.0898,
      "step": 68130
    },
    {
      "epoch": 0.14195833333333333,
      "grad_norm": 0.8638371825218201,
      "learning_rate": 0.0002860496833200515,
      "loss": 3.9487,
      "step": 68140
    },
    {
      "epoch": 0.14197916666666666,
      "grad_norm": 0.7923216223716736,
      "learning_rate": 0.0002860455312422709,
      "loss": 3.9976,
      "step": 68150
    },
    {
      "epoch": 0.142,
      "grad_norm": 0.764724612236023,
      "learning_rate": 0.00028604137857682745,
      "loss": 3.9946,
      "step": 68160
    },
    {
      "epoch": 0.14202083333333335,
      "grad_norm": 0.6943413019180298,
      "learning_rate": 0.0002860372253237391,
      "loss": 4.0631,
      "step": 68170
    },
    {
      "epoch": 0.14204166666666668,
      "grad_norm": 0.7473767995834351,
      "learning_rate": 0.00028603307148302375,
      "loss": 3.9916,
      "step": 68180
    },
    {
      "epoch": 0.1420625,
      "grad_norm": 0.7849889993667603,
      "learning_rate": 0.0002860289170546994,
      "loss": 3.9912,
      "step": 68190
    },
    {
      "epoch": 0.14208333333333334,
      "grad_norm": 0.9748041033744812,
      "learning_rate": 0.000286024762038784,
      "loss": 3.9122,
      "step": 68200
    },
    {
      "epoch": 0.14210416666666667,
      "grad_norm": 0.908832311630249,
      "learning_rate": 0.00028602060643529543,
      "loss": 3.8981,
      "step": 68210
    },
    {
      "epoch": 0.142125,
      "grad_norm": 0.7090237736701965,
      "learning_rate": 0.0002860164502442517,
      "loss": 3.8567,
      "step": 68220
    },
    {
      "epoch": 0.14214583333333333,
      "grad_norm": 0.8290879726409912,
      "learning_rate": 0.00028601229346567075,
      "loss": 4.0328,
      "step": 68230
    },
    {
      "epoch": 0.14216666666666666,
      "grad_norm": 0.7229495048522949,
      "learning_rate": 0.0002860081360995705,
      "loss": 3.9705,
      "step": 68240
    },
    {
      "epoch": 0.1421875,
      "grad_norm": 0.8187728524208069,
      "learning_rate": 0.00028600397814596896,
      "loss": 4.0034,
      "step": 68250
    },
    {
      "epoch": 0.14220833333333333,
      "grad_norm": 0.8531426787376404,
      "learning_rate": 0.00028599981960488407,
      "loss": 3.9797,
      "step": 68260
    },
    {
      "epoch": 0.14222916666666666,
      "grad_norm": 0.8050381541252136,
      "learning_rate": 0.00028599566047633377,
      "loss": 4.1167,
      "step": 68270
    },
    {
      "epoch": 0.14225,
      "grad_norm": 0.7954885959625244,
      "learning_rate": 0.00028599150076033606,
      "loss": 4.061,
      "step": 68280
    },
    {
      "epoch": 0.14227083333333335,
      "grad_norm": 0.7434096336364746,
      "learning_rate": 0.0002859873404569089,
      "loss": 3.9838,
      "step": 68290
    },
    {
      "epoch": 0.14229166666666668,
      "grad_norm": 0.7522338628768921,
      "learning_rate": 0.0002859831795660703,
      "loss": 3.9981,
      "step": 68300
    },
    {
      "epoch": 0.1423125,
      "grad_norm": 0.8243728280067444,
      "learning_rate": 0.0002859790180878381,
      "loss": 3.9135,
      "step": 68310
    },
    {
      "epoch": 0.14233333333333334,
      "grad_norm": 0.7268194556236267,
      "learning_rate": 0.00028597485602223046,
      "loss": 4.0035,
      "step": 68320
    },
    {
      "epoch": 0.14235416666666667,
      "grad_norm": 0.8003144264221191,
      "learning_rate": 0.0002859706933692652,
      "loss": 3.8899,
      "step": 68330
    },
    {
      "epoch": 0.142375,
      "grad_norm": 1.0348068475723267,
      "learning_rate": 0.00028596653012896034,
      "loss": 3.8792,
      "step": 68340
    },
    {
      "epoch": 0.14239583333333333,
      "grad_norm": 0.7865002751350403,
      "learning_rate": 0.00028596236630133395,
      "loss": 3.9494,
      "step": 68350
    },
    {
      "epoch": 0.14241666666666666,
      "grad_norm": 0.8334981203079224,
      "learning_rate": 0.0002859582018864039,
      "loss": 3.8546,
      "step": 68360
    },
    {
      "epoch": 0.1424375,
      "grad_norm": 0.7282049059867859,
      "learning_rate": 0.0002859540368841883,
      "loss": 4.064,
      "step": 68370
    },
    {
      "epoch": 0.14245833333333333,
      "grad_norm": 0.7172561883926392,
      "learning_rate": 0.00028594987129470503,
      "loss": 3.8566,
      "step": 68380
    },
    {
      "epoch": 0.14247916666666666,
      "grad_norm": 0.7230831980705261,
      "learning_rate": 0.00028594570511797216,
      "loss": 3.8113,
      "step": 68390
    },
    {
      "epoch": 0.1425,
      "grad_norm": 0.6746689081192017,
      "learning_rate": 0.00028594153835400765,
      "loss": 3.8732,
      "step": 68400
    },
    {
      "epoch": 0.14252083333333335,
      "grad_norm": 0.7172960638999939,
      "learning_rate": 0.0002859373710028295,
      "loss": 4.043,
      "step": 68410
    },
    {
      "epoch": 0.14254166666666668,
      "grad_norm": 0.66281658411026,
      "learning_rate": 0.0002859332030644557,
      "loss": 3.9268,
      "step": 68420
    },
    {
      "epoch": 0.1425625,
      "grad_norm": 0.754166305065155,
      "learning_rate": 0.00028592903453890427,
      "loss": 4.0261,
      "step": 68430
    },
    {
      "epoch": 0.14258333333333334,
      "grad_norm": 0.8262802958488464,
      "learning_rate": 0.00028592486542619323,
      "loss": 3.8987,
      "step": 68440
    },
    {
      "epoch": 0.14260416666666667,
      "grad_norm": 0.8017993569374084,
      "learning_rate": 0.0002859206957263406,
      "loss": 3.9276,
      "step": 68450
    },
    {
      "epoch": 0.142625,
      "grad_norm": 0.8600105047225952,
      "learning_rate": 0.0002859165254393643,
      "loss": 4.0053,
      "step": 68460
    },
    {
      "epoch": 0.14264583333333333,
      "grad_norm": 0.7667782306671143,
      "learning_rate": 0.00028591235456528244,
      "loss": 3.7532,
      "step": 68470
    },
    {
      "epoch": 0.14266666666666666,
      "grad_norm": 0.8554555177688599,
      "learning_rate": 0.000285908183104113,
      "loss": 3.9408,
      "step": 68480
    },
    {
      "epoch": 0.1426875,
      "grad_norm": 0.8535481095314026,
      "learning_rate": 0.00028590401105587406,
      "loss": 3.9527,
      "step": 68490
    },
    {
      "epoch": 0.14270833333333333,
      "grad_norm": 0.876471996307373,
      "learning_rate": 0.0002858998384205835,
      "loss": 3.8801,
      "step": 68500
    },
    {
      "epoch": 0.14272916666666666,
      "grad_norm": 0.9083638191223145,
      "learning_rate": 0.00028589566519825947,
      "loss": 3.8746,
      "step": 68510
    },
    {
      "epoch": 0.14275,
      "grad_norm": 0.6900635361671448,
      "learning_rate": 0.00028589149138892,
      "loss": 4.0078,
      "step": 68520
    },
    {
      "epoch": 0.14277083333333335,
      "grad_norm": 0.7093167901039124,
      "learning_rate": 0.000285887316992583,
      "loss": 3.8431,
      "step": 68530
    },
    {
      "epoch": 0.14279166666666668,
      "grad_norm": 0.7775229811668396,
      "learning_rate": 0.0002858831420092666,
      "loss": 3.8998,
      "step": 68540
    },
    {
      "epoch": 0.1428125,
      "grad_norm": 0.7805194854736328,
      "learning_rate": 0.00028587896643898883,
      "loss": 3.8318,
      "step": 68550
    },
    {
      "epoch": 0.14283333333333334,
      "grad_norm": 0.8315593004226685,
      "learning_rate": 0.00028587479028176774,
      "loss": 3.8961,
      "step": 68560
    },
    {
      "epoch": 0.14285416666666667,
      "grad_norm": 0.784963071346283,
      "learning_rate": 0.0002858706135376213,
      "loss": 4.1217,
      "step": 68570
    },
    {
      "epoch": 0.142875,
      "grad_norm": 0.7537537813186646,
      "learning_rate": 0.0002858664362065676,
      "loss": 3.9514,
      "step": 68580
    },
    {
      "epoch": 0.14289583333333333,
      "grad_norm": 0.834528923034668,
      "learning_rate": 0.00028586225828862465,
      "loss": 3.8817,
      "step": 68590
    },
    {
      "epoch": 0.14291666666666666,
      "grad_norm": 0.8019347786903381,
      "learning_rate": 0.0002858580797838105,
      "loss": 3.787,
      "step": 68600
    },
    {
      "epoch": 0.1429375,
      "grad_norm": 0.8701620101928711,
      "learning_rate": 0.0002858539006921433,
      "loss": 3.9976,
      "step": 68610
    },
    {
      "epoch": 0.14295833333333333,
      "grad_norm": 0.7548373937606812,
      "learning_rate": 0.000285849721013641,
      "loss": 4.1532,
      "step": 68620
    },
    {
      "epoch": 0.14297916666666666,
      "grad_norm": 0.8507885932922363,
      "learning_rate": 0.0002858455407483217,
      "loss": 3.8716,
      "step": 68630
    },
    {
      "epoch": 0.143,
      "grad_norm": 0.8160971999168396,
      "learning_rate": 0.0002858413598962034,
      "loss": 3.8161,
      "step": 68640
    },
    {
      "epoch": 0.14302083333333335,
      "grad_norm": 0.8048255443572998,
      "learning_rate": 0.00028583717845730416,
      "loss": 4.2902,
      "step": 68650
    },
    {
      "epoch": 0.14304166666666668,
      "grad_norm": 0.7886331081390381,
      "learning_rate": 0.0002858329964316421,
      "loss": 4.045,
      "step": 68660
    },
    {
      "epoch": 0.1430625,
      "grad_norm": 0.9302475452423096,
      "learning_rate": 0.00028582881381923527,
      "loss": 4.0035,
      "step": 68670
    },
    {
      "epoch": 0.14308333333333334,
      "grad_norm": 0.8202977180480957,
      "learning_rate": 0.00028582463062010177,
      "loss": 3.9093,
      "step": 68680
    },
    {
      "epoch": 0.14310416666666667,
      "grad_norm": 0.9660162329673767,
      "learning_rate": 0.0002858204468342596,
      "loss": 4.1651,
      "step": 68690
    },
    {
      "epoch": 0.143125,
      "grad_norm": 0.7714551687240601,
      "learning_rate": 0.0002858162624617268,
      "loss": 3.9611,
      "step": 68700
    },
    {
      "epoch": 0.14314583333333333,
      "grad_norm": 0.7755201458930969,
      "learning_rate": 0.0002858120775025216,
      "loss": 4.0893,
      "step": 68710
    },
    {
      "epoch": 0.14316666666666666,
      "grad_norm": 0.7933080792427063,
      "learning_rate": 0.0002858078919566619,
      "loss": 4.0676,
      "step": 68720
    },
    {
      "epoch": 0.1431875,
      "grad_norm": 0.7870540022850037,
      "learning_rate": 0.00028580370582416593,
      "loss": 3.7976,
      "step": 68730
    },
    {
      "epoch": 0.14320833333333333,
      "grad_norm": 0.8516893982887268,
      "learning_rate": 0.0002857995191050517,
      "loss": 3.8384,
      "step": 68740
    },
    {
      "epoch": 0.14322916666666666,
      "grad_norm": 0.7151204347610474,
      "learning_rate": 0.0002857953317993373,
      "loss": 3.828,
      "step": 68750
    },
    {
      "epoch": 0.14325,
      "grad_norm": 0.8456266522407532,
      "learning_rate": 0.00028579114390704077,
      "loss": 3.986,
      "step": 68760
    },
    {
      "epoch": 0.14327083333333332,
      "grad_norm": 0.900972843170166,
      "learning_rate": 0.00028578695542818026,
      "loss": 3.9533,
      "step": 68770
    },
    {
      "epoch": 0.14329166666666668,
      "grad_norm": 0.8504452705383301,
      "learning_rate": 0.0002857827663627739,
      "loss": 3.822,
      "step": 68780
    },
    {
      "epoch": 0.1433125,
      "grad_norm": 0.6918832659721375,
      "learning_rate": 0.0002857785767108397,
      "loss": 3.8271,
      "step": 68790
    },
    {
      "epoch": 0.14333333333333334,
      "grad_norm": 0.9858295917510986,
      "learning_rate": 0.0002857743864723958,
      "loss": 3.9341,
      "step": 68800
    },
    {
      "epoch": 0.14335416666666667,
      "grad_norm": 0.700001060962677,
      "learning_rate": 0.00028577019564746033,
      "loss": 3.7585,
      "step": 68810
    },
    {
      "epoch": 0.143375,
      "grad_norm": 1.1042606830596924,
      "learning_rate": 0.0002857660042360513,
      "loss": 3.9792,
      "step": 68820
    },
    {
      "epoch": 0.14339583333333333,
      "grad_norm": 0.7815753817558289,
      "learning_rate": 0.00028576181223818686,
      "loss": 3.8902,
      "step": 68830
    },
    {
      "epoch": 0.14341666666666666,
      "grad_norm": 0.7372857332229614,
      "learning_rate": 0.0002857576196538852,
      "loss": 4.0935,
      "step": 68840
    },
    {
      "epoch": 0.1434375,
      "grad_norm": 0.8020527362823486,
      "learning_rate": 0.0002857534264831643,
      "loss": 3.7934,
      "step": 68850
    },
    {
      "epoch": 0.14345833333333333,
      "grad_norm": 0.8075910806655884,
      "learning_rate": 0.0002857492327260424,
      "loss": 3.952,
      "step": 68860
    },
    {
      "epoch": 0.14347916666666666,
      "grad_norm": 0.8080703616142273,
      "learning_rate": 0.00028574503838253745,
      "loss": 4.0199,
      "step": 68870
    },
    {
      "epoch": 0.1435,
      "grad_norm": 0.8201339244842529,
      "learning_rate": 0.0002857408434526677,
      "loss": 3.9655,
      "step": 68880
    },
    {
      "epoch": 0.14352083333333332,
      "grad_norm": 0.8126558065414429,
      "learning_rate": 0.00028573664793645127,
      "loss": 3.8574,
      "step": 68890
    },
    {
      "epoch": 0.14354166666666668,
      "grad_norm": 0.8648584485054016,
      "learning_rate": 0.00028573245183390625,
      "loss": 4.0367,
      "step": 68900
    },
    {
      "epoch": 0.1435625,
      "grad_norm": 0.834685742855072,
      "learning_rate": 0.00028572825514505077,
      "loss": 4.1916,
      "step": 68910
    },
    {
      "epoch": 0.14358333333333334,
      "grad_norm": 0.6882045269012451,
      "learning_rate": 0.00028572405786990294,
      "loss": 3.8745,
      "step": 68920
    },
    {
      "epoch": 0.14360416666666667,
      "grad_norm": 0.8061152100563049,
      "learning_rate": 0.00028571986000848086,
      "loss": 3.8862,
      "step": 68930
    },
    {
      "epoch": 0.143625,
      "grad_norm": 0.6766529679298401,
      "learning_rate": 0.00028571566156080275,
      "loss": 4.0163,
      "step": 68940
    },
    {
      "epoch": 0.14364583333333333,
      "grad_norm": 0.842812716960907,
      "learning_rate": 0.0002857114625268867,
      "loss": 4.0042,
      "step": 68950
    },
    {
      "epoch": 0.14366666666666666,
      "grad_norm": 0.781862199306488,
      "learning_rate": 0.00028570726290675085,
      "loss": 4.1165,
      "step": 68960
    },
    {
      "epoch": 0.1436875,
      "grad_norm": 0.7969842553138733,
      "learning_rate": 0.0002857030627004133,
      "loss": 3.9389,
      "step": 68970
    },
    {
      "epoch": 0.14370833333333333,
      "grad_norm": 0.79613196849823,
      "learning_rate": 0.00028569886190789225,
      "loss": 3.9496,
      "step": 68980
    },
    {
      "epoch": 0.14372916666666666,
      "grad_norm": 0.777702808380127,
      "learning_rate": 0.0002856946605292059,
      "loss": 4.0914,
      "step": 68990
    },
    {
      "epoch": 0.14375,
      "grad_norm": 0.7720385789871216,
      "learning_rate": 0.00028569045856437225,
      "loss": 4.0008,
      "step": 69000
    },
    {
      "epoch": 0.14375,
      "eval_loss": 4.274445533752441,
      "eval_runtime": 9.362,
      "eval_samples_per_second": 1.068,
      "eval_steps_per_second": 0.32,
      "step": 69000
    },
    {
      "epoch": 0.14377083333333332,
      "grad_norm": 0.7591381669044495,
      "learning_rate": 0.00028568625601340953,
      "loss": 3.8535,
      "step": 69010
    },
    {
      "epoch": 0.14379166666666668,
      "grad_norm": 0.925487756729126,
      "learning_rate": 0.00028568205287633595,
      "loss": 4.1256,
      "step": 69020
    },
    {
      "epoch": 0.1438125,
      "grad_norm": 0.8254444003105164,
      "learning_rate": 0.00028567784915316957,
      "loss": 4.0451,
      "step": 69030
    },
    {
      "epoch": 0.14383333333333334,
      "grad_norm": 0.7031874656677246,
      "learning_rate": 0.00028567364484392854,
      "loss": 3.9958,
      "step": 69040
    },
    {
      "epoch": 0.14385416666666667,
      "grad_norm": 0.7742382884025574,
      "learning_rate": 0.0002856694399486312,
      "loss": 4.0983,
      "step": 69050
    },
    {
      "epoch": 0.143875,
      "grad_norm": 1.091235876083374,
      "learning_rate": 0.00028566523446729546,
      "loss": 3.9992,
      "step": 69060
    },
    {
      "epoch": 0.14389583333333333,
      "grad_norm": 0.7113263607025146,
      "learning_rate": 0.0002856610283999396,
      "loss": 4.0939,
      "step": 69070
    },
    {
      "epoch": 0.14391666666666666,
      "grad_norm": 0.7767949104309082,
      "learning_rate": 0.00028565682174658193,
      "loss": 3.8885,
      "step": 69080
    },
    {
      "epoch": 0.1439375,
      "grad_norm": 0.7369946837425232,
      "learning_rate": 0.00028565261450724035,
      "loss": 3.9517,
      "step": 69090
    },
    {
      "epoch": 0.14395833333333333,
      "grad_norm": 0.7156903147697449,
      "learning_rate": 0.00028564840668193325,
      "loss": 4.0029,
      "step": 69100
    },
    {
      "epoch": 0.14397916666666666,
      "grad_norm": 0.7362608313560486,
      "learning_rate": 0.0002856441982706787,
      "loss": 4.0133,
      "step": 69110
    },
    {
      "epoch": 0.144,
      "grad_norm": 0.7841430306434631,
      "learning_rate": 0.00028563998927349485,
      "loss": 4.0488,
      "step": 69120
    },
    {
      "epoch": 0.14402083333333332,
      "grad_norm": 0.7672437429428101,
      "learning_rate": 0.00028563577969040004,
      "loss": 4.1256,
      "step": 69130
    },
    {
      "epoch": 0.14404166666666668,
      "grad_norm": 0.779388427734375,
      "learning_rate": 0.00028563156952141224,
      "loss": 3.9985,
      "step": 69140
    },
    {
      "epoch": 0.1440625,
      "grad_norm": 0.9371891617774963,
      "learning_rate": 0.0002856273587665499,
      "loss": 3.9048,
      "step": 69150
    },
    {
      "epoch": 0.14408333333333334,
      "grad_norm": 0.8399186134338379,
      "learning_rate": 0.0002856231474258309,
      "loss": 3.9454,
      "step": 69160
    },
    {
      "epoch": 0.14410416666666667,
      "grad_norm": 0.8997818827629089,
      "learning_rate": 0.00028561893549927366,
      "loss": 4.1008,
      "step": 69170
    },
    {
      "epoch": 0.144125,
      "grad_norm": 0.8138940930366516,
      "learning_rate": 0.00028561472298689627,
      "loss": 3.9223,
      "step": 69180
    },
    {
      "epoch": 0.14414583333333333,
      "grad_norm": 0.8672645092010498,
      "learning_rate": 0.000285610509888717,
      "loss": 4.0631,
      "step": 69190
    },
    {
      "epoch": 0.14416666666666667,
      "grad_norm": 0.7649490833282471,
      "learning_rate": 0.00028560629620475396,
      "loss": 3.9558,
      "step": 69200
    },
    {
      "epoch": 0.1441875,
      "grad_norm": 0.8688150644302368,
      "learning_rate": 0.0002856020819350254,
      "loss": 4.0186,
      "step": 69210
    },
    {
      "epoch": 0.14420833333333333,
      "grad_norm": 0.8281129598617554,
      "learning_rate": 0.00028559786707954955,
      "loss": 3.8218,
      "step": 69220
    },
    {
      "epoch": 0.14422916666666666,
      "grad_norm": 0.7590388059616089,
      "learning_rate": 0.0002855936516383446,
      "loss": 3.9423,
      "step": 69230
    },
    {
      "epoch": 0.14425,
      "grad_norm": 0.9959970116615295,
      "learning_rate": 0.0002855894356114287,
      "loss": 3.9673,
      "step": 69240
    },
    {
      "epoch": 0.14427083333333332,
      "grad_norm": 0.7323176860809326,
      "learning_rate": 0.00028558521899882015,
      "loss": 3.798,
      "step": 69250
    },
    {
      "epoch": 0.14429166666666668,
      "grad_norm": 0.8124967813491821,
      "learning_rate": 0.00028558100180053707,
      "loss": 3.9536,
      "step": 69260
    },
    {
      "epoch": 0.1443125,
      "grad_norm": 0.759676456451416,
      "learning_rate": 0.0002855767840165978,
      "loss": 3.9722,
      "step": 69270
    },
    {
      "epoch": 0.14433333333333334,
      "grad_norm": 0.7552157640457153,
      "learning_rate": 0.00028557256564702043,
      "loss": 4.0163,
      "step": 69280
    },
    {
      "epoch": 0.14435416666666667,
      "grad_norm": 0.8493736982345581,
      "learning_rate": 0.0002855683466918233,
      "loss": 3.784,
      "step": 69290
    },
    {
      "epoch": 0.144375,
      "grad_norm": 0.8520525097846985,
      "learning_rate": 0.0002855641271510245,
      "loss": 4.0873,
      "step": 69300
    },
    {
      "epoch": 0.14439583333333333,
      "grad_norm": 0.7280745506286621,
      "learning_rate": 0.00028555990702464236,
      "loss": 4.0469,
      "step": 69310
    },
    {
      "epoch": 0.14441666666666667,
      "grad_norm": 0.7128655910491943,
      "learning_rate": 0.0002855556863126951,
      "loss": 3.8393,
      "step": 69320
    },
    {
      "epoch": 0.1444375,
      "grad_norm": 0.7885478138923645,
      "learning_rate": 0.00028555146501520087,
      "loss": 3.9821,
      "step": 69330
    },
    {
      "epoch": 0.14445833333333333,
      "grad_norm": 0.72111576795578,
      "learning_rate": 0.00028554724313217806,
      "loss": 3.8723,
      "step": 69340
    },
    {
      "epoch": 0.14447916666666666,
      "grad_norm": 0.7697587609291077,
      "learning_rate": 0.0002855430206636447,
      "loss": 3.9614,
      "step": 69350
    },
    {
      "epoch": 0.1445,
      "grad_norm": 0.7524446845054626,
      "learning_rate": 0.00028553879760961925,
      "loss": 3.8673,
      "step": 69360
    },
    {
      "epoch": 0.14452083333333332,
      "grad_norm": 0.7479594349861145,
      "learning_rate": 0.0002855345739701198,
      "loss": 4.046,
      "step": 69370
    },
    {
      "epoch": 0.14454166666666668,
      "grad_norm": 0.780967652797699,
      "learning_rate": 0.0002855303497451646,
      "loss": 3.9597,
      "step": 69380
    },
    {
      "epoch": 0.1445625,
      "grad_norm": 0.747592568397522,
      "learning_rate": 0.00028552612493477203,
      "loss": 4.0796,
      "step": 69390
    },
    {
      "epoch": 0.14458333333333334,
      "grad_norm": 0.7526564598083496,
      "learning_rate": 0.00028552189953896014,
      "loss": 3.866,
      "step": 69400
    },
    {
      "epoch": 0.14460416666666667,
      "grad_norm": 0.7952519655227661,
      "learning_rate": 0.00028551767355774733,
      "loss": 3.9725,
      "step": 69410
    },
    {
      "epoch": 0.144625,
      "grad_norm": 0.8723101019859314,
      "learning_rate": 0.00028551344699115187,
      "loss": 4.0408,
      "step": 69420
    },
    {
      "epoch": 0.14464583333333333,
      "grad_norm": 0.8834154605865479,
      "learning_rate": 0.00028550921983919186,
      "loss": 4.0793,
      "step": 69430
    },
    {
      "epoch": 0.14466666666666667,
      "grad_norm": 0.7354750037193298,
      "learning_rate": 0.00028550499210188573,
      "loss": 4.097,
      "step": 69440
    },
    {
      "epoch": 0.1446875,
      "grad_norm": 0.7732417583465576,
      "learning_rate": 0.0002855007637792517,
      "loss": 3.9854,
      "step": 69450
    },
    {
      "epoch": 0.14470833333333333,
      "grad_norm": 0.8417448401451111,
      "learning_rate": 0.00028549653487130794,
      "loss": 4.184,
      "step": 69460
    },
    {
      "epoch": 0.14472916666666666,
      "grad_norm": 0.7990826964378357,
      "learning_rate": 0.0002854923053780728,
      "loss": 3.9705,
      "step": 69470
    },
    {
      "epoch": 0.14475,
      "grad_norm": 0.8470094203948975,
      "learning_rate": 0.00028548807529956446,
      "loss": 4.0412,
      "step": 69480
    },
    {
      "epoch": 0.14477083333333332,
      "grad_norm": 0.6993789672851562,
      "learning_rate": 0.00028548384463580135,
      "loss": 3.8536,
      "step": 69490
    },
    {
      "epoch": 0.14479166666666668,
      "grad_norm": 0.7714810967445374,
      "learning_rate": 0.00028547961338680163,
      "loss": 4.0203,
      "step": 69500
    },
    {
      "epoch": 0.1448125,
      "grad_norm": 0.7773483991622925,
      "learning_rate": 0.0002854753815525837,
      "loss": 3.9607,
      "step": 69510
    },
    {
      "epoch": 0.14483333333333334,
      "grad_norm": 0.8836985230445862,
      "learning_rate": 0.00028547114913316565,
      "loss": 4.0185,
      "step": 69520
    },
    {
      "epoch": 0.14485416666666667,
      "grad_norm": 0.8349967002868652,
      "learning_rate": 0.00028546691612856587,
      "loss": 4.0824,
      "step": 69530
    },
    {
      "epoch": 0.144875,
      "grad_norm": 0.9021446108818054,
      "learning_rate": 0.0002854626825388026,
      "loss": 3.9734,
      "step": 69540
    },
    {
      "epoch": 0.14489583333333333,
      "grad_norm": 0.7487984299659729,
      "learning_rate": 0.00028545844836389423,
      "loss": 3.8739,
      "step": 69550
    },
    {
      "epoch": 0.14491666666666667,
      "grad_norm": 0.6895053386688232,
      "learning_rate": 0.0002854542136038589,
      "loss": 3.9481,
      "step": 69560
    },
    {
      "epoch": 0.1449375,
      "grad_norm": 0.7913296818733215,
      "learning_rate": 0.0002854499782587151,
      "loss": 4.1279,
      "step": 69570
    },
    {
      "epoch": 0.14495833333333333,
      "grad_norm": 0.8175643682479858,
      "learning_rate": 0.0002854457423284809,
      "loss": 4.0045,
      "step": 69580
    },
    {
      "epoch": 0.14497916666666666,
      "grad_norm": 0.6936560273170471,
      "learning_rate": 0.00028544150581317476,
      "loss": 4.0167,
      "step": 69590
    },
    {
      "epoch": 0.145,
      "grad_norm": 0.8884903192520142,
      "learning_rate": 0.00028543726871281495,
      "loss": 3.904,
      "step": 69600
    },
    {
      "epoch": 0.14502083333333332,
      "grad_norm": 0.9533629417419434,
      "learning_rate": 0.0002854330310274197,
      "loss": 4.0589,
      "step": 69610
    },
    {
      "epoch": 0.14504166666666668,
      "grad_norm": 0.866701602935791,
      "learning_rate": 0.0002854287927570074,
      "loss": 3.9737,
      "step": 69620
    },
    {
      "epoch": 0.1450625,
      "grad_norm": 0.7778636813163757,
      "learning_rate": 0.00028542455390159624,
      "loss": 4.0214,
      "step": 69630
    },
    {
      "epoch": 0.14508333333333334,
      "grad_norm": 0.7379801869392395,
      "learning_rate": 0.00028542031446120473,
      "loss": 3.8982,
      "step": 69640
    },
    {
      "epoch": 0.14510416666666667,
      "grad_norm": 0.7211340665817261,
      "learning_rate": 0.00028541607443585096,
      "loss": 4.0802,
      "step": 69650
    },
    {
      "epoch": 0.145125,
      "grad_norm": 0.7276806831359863,
      "learning_rate": 0.0002854118338255534,
      "loss": 3.9115,
      "step": 69660
    },
    {
      "epoch": 0.14514583333333334,
      "grad_norm": 0.940612256526947,
      "learning_rate": 0.00028540759263033033,
      "loss": 4.0724,
      "step": 69670
    },
    {
      "epoch": 0.14516666666666667,
      "grad_norm": 0.7032187581062317,
      "learning_rate": 0.0002854033508502,
      "loss": 4.0115,
      "step": 69680
    },
    {
      "epoch": 0.1451875,
      "grad_norm": 0.8130035400390625,
      "learning_rate": 0.0002853991084851809,
      "loss": 3.6953,
      "step": 69690
    },
    {
      "epoch": 0.14520833333333333,
      "grad_norm": 0.8653534650802612,
      "learning_rate": 0.0002853948655352912,
      "loss": 3.8345,
      "step": 69700
    },
    {
      "epoch": 0.14522916666666666,
      "grad_norm": 0.7863739728927612,
      "learning_rate": 0.0002853906220005492,
      "loss": 3.9347,
      "step": 69710
    },
    {
      "epoch": 0.14525,
      "grad_norm": 1.1530100107192993,
      "learning_rate": 0.00028538637788097336,
      "loss": 4.1363,
      "step": 69720
    },
    {
      "epoch": 0.14527083333333332,
      "grad_norm": 0.9772533178329468,
      "learning_rate": 0.00028538213317658194,
      "loss": 3.8436,
      "step": 69730
    },
    {
      "epoch": 0.14529166666666668,
      "grad_norm": 0.7064031958580017,
      "learning_rate": 0.00028537788788739334,
      "loss": 4.0474,
      "step": 69740
    },
    {
      "epoch": 0.1453125,
      "grad_norm": 0.7282333970069885,
      "learning_rate": 0.00028537364201342583,
      "loss": 4.07,
      "step": 69750
    },
    {
      "epoch": 0.14533333333333334,
      "grad_norm": 0.8107814788818359,
      "learning_rate": 0.0002853693955546977,
      "loss": 3.9046,
      "step": 69760
    },
    {
      "epoch": 0.14535416666666667,
      "grad_norm": 0.7895594835281372,
      "learning_rate": 0.00028536514851122745,
      "loss": 4.0831,
      "step": 69770
    },
    {
      "epoch": 0.145375,
      "grad_norm": 0.7873914837837219,
      "learning_rate": 0.00028536090088303334,
      "loss": 3.9198,
      "step": 69780
    },
    {
      "epoch": 0.14539583333333334,
      "grad_norm": 0.6662315130233765,
      "learning_rate": 0.0002853566526701337,
      "loss": 3.9052,
      "step": 69790
    },
    {
      "epoch": 0.14541666666666667,
      "grad_norm": 0.8563457727432251,
      "learning_rate": 0.0002853524038725469,
      "loss": 4.0553,
      "step": 69800
    },
    {
      "epoch": 0.1454375,
      "grad_norm": 0.8611662983894348,
      "learning_rate": 0.00028534815449029127,
      "loss": 4.0215,
      "step": 69810
    },
    {
      "epoch": 0.14545833333333333,
      "grad_norm": 0.9152176976203918,
      "learning_rate": 0.0002853439045233852,
      "loss": 3.8795,
      "step": 69820
    },
    {
      "epoch": 0.14547916666666666,
      "grad_norm": 0.7586793899536133,
      "learning_rate": 0.000285339653971847,
      "loss": 4.0224,
      "step": 69830
    },
    {
      "epoch": 0.1455,
      "grad_norm": 0.9405799508094788,
      "learning_rate": 0.0002853354028356951,
      "loss": 4.056,
      "step": 69840
    },
    {
      "epoch": 0.14552083333333332,
      "grad_norm": 0.7564637660980225,
      "learning_rate": 0.0002853311511149478,
      "loss": 3.9918,
      "step": 69850
    },
    {
      "epoch": 0.14554166666666668,
      "grad_norm": 1.2695329189300537,
      "learning_rate": 0.00028532689880962354,
      "loss": 4.1415,
      "step": 69860
    },
    {
      "epoch": 0.1455625,
      "grad_norm": 0.8357451558113098,
      "learning_rate": 0.0002853226459197406,
      "loss": 4.0769,
      "step": 69870
    },
    {
      "epoch": 0.14558333333333334,
      "grad_norm": 0.7771034240722656,
      "learning_rate": 0.0002853183924453175,
      "loss": 3.9863,
      "step": 69880
    },
    {
      "epoch": 0.14560416666666667,
      "grad_norm": 0.7269699573516846,
      "learning_rate": 0.0002853141383863724,
      "loss": 4.0775,
      "step": 69890
    },
    {
      "epoch": 0.145625,
      "grad_norm": 0.9239238500595093,
      "learning_rate": 0.0002853098837429238,
      "loss": 3.9019,
      "step": 69900
    },
    {
      "epoch": 0.14564583333333334,
      "grad_norm": 0.7467719912528992,
      "learning_rate": 0.0002853056285149901,
      "loss": 4.0634,
      "step": 69910
    },
    {
      "epoch": 0.14566666666666667,
      "grad_norm": 0.7349724173545837,
      "learning_rate": 0.0002853013727025896,
      "loss": 4.0585,
      "step": 69920
    },
    {
      "epoch": 0.1456875,
      "grad_norm": 0.7949094772338867,
      "learning_rate": 0.00028529711630574076,
      "loss": 4.0161,
      "step": 69930
    },
    {
      "epoch": 0.14570833333333333,
      "grad_norm": 0.8780704736709595,
      "learning_rate": 0.0002852928593244619,
      "loss": 3.9273,
      "step": 69940
    },
    {
      "epoch": 0.14572916666666666,
      "grad_norm": 0.8510060906410217,
      "learning_rate": 0.00028528860175877147,
      "loss": 4.1394,
      "step": 69950
    },
    {
      "epoch": 0.14575,
      "grad_norm": 0.9196462631225586,
      "learning_rate": 0.0002852843436086878,
      "loss": 4.1695,
      "step": 69960
    },
    {
      "epoch": 0.14577083333333332,
      "grad_norm": 0.768364429473877,
      "learning_rate": 0.0002852800848742293,
      "loss": 3.8931,
      "step": 69970
    },
    {
      "epoch": 0.14579166666666668,
      "grad_norm": 1.015350341796875,
      "learning_rate": 0.00028527582555541443,
      "loss": 4.0062,
      "step": 69980
    },
    {
      "epoch": 0.1458125,
      "grad_norm": 0.8176626563072205,
      "learning_rate": 0.0002852715656522615,
      "loss": 3.7749,
      "step": 69990
    },
    {
      "epoch": 0.14583333333333334,
      "grad_norm": 0.7892084121704102,
      "learning_rate": 0.000285267305164789,
      "loss": 3.9711,
      "step": 70000
    },
    {
      "epoch": 0.14583333333333334,
      "eval_loss": 4.26912784576416,
      "eval_runtime": 10.4699,
      "eval_samples_per_second": 0.955,
      "eval_steps_per_second": 0.287,
      "step": 70000
    },
    {
      "epoch": 0.14585416666666667,
      "grad_norm": 0.7435898184776306,
      "learning_rate": 0.0002852630440930153,
      "loss": 4.0758,
      "step": 70010
    },
    {
      "epoch": 0.145875,
      "grad_norm": 0.8915320634841919,
      "learning_rate": 0.0002852587824369587,
      "loss": 4.1133,
      "step": 70020
    },
    {
      "epoch": 0.14589583333333334,
      "grad_norm": 0.819879412651062,
      "learning_rate": 0.00028525452019663775,
      "loss": 4.0017,
      "step": 70030
    },
    {
      "epoch": 0.14591666666666667,
      "grad_norm": 0.6889786720275879,
      "learning_rate": 0.0002852502573720708,
      "loss": 3.8728,
      "step": 70040
    },
    {
      "epoch": 0.1459375,
      "grad_norm": 0.8237648010253906,
      "learning_rate": 0.00028524599396327627,
      "loss": 3.9102,
      "step": 70050
    },
    {
      "epoch": 0.14595833333333333,
      "grad_norm": 0.7609225511550903,
      "learning_rate": 0.0002852417299702726,
      "loss": 3.9541,
      "step": 70060
    },
    {
      "epoch": 0.14597916666666666,
      "grad_norm": 0.7691889405250549,
      "learning_rate": 0.00028523746539307817,
      "loss": 4.0239,
      "step": 70070
    },
    {
      "epoch": 0.146,
      "grad_norm": 0.7535788416862488,
      "learning_rate": 0.00028523320023171144,
      "loss": 3.6465,
      "step": 70080
    },
    {
      "epoch": 0.14602083333333332,
      "grad_norm": 0.7788543105125427,
      "learning_rate": 0.0002852289344861908,
      "loss": 4.1644,
      "step": 70090
    },
    {
      "epoch": 0.14604166666666665,
      "grad_norm": 0.7398819327354431,
      "learning_rate": 0.00028522466815653465,
      "loss": 4.025,
      "step": 70100
    },
    {
      "epoch": 0.1460625,
      "grad_norm": 0.8079652190208435,
      "learning_rate": 0.00028522040124276155,
      "loss": 3.8058,
      "step": 70110
    },
    {
      "epoch": 0.14608333333333334,
      "grad_norm": 0.7243205308914185,
      "learning_rate": 0.00028521613374488976,
      "loss": 4.1071,
      "step": 70120
    },
    {
      "epoch": 0.14610416666666667,
      "grad_norm": 0.9580764770507812,
      "learning_rate": 0.0002852118656629378,
      "loss": 4.0586,
      "step": 70130
    },
    {
      "epoch": 0.146125,
      "grad_norm": 0.9179203510284424,
      "learning_rate": 0.00028520759699692417,
      "loss": 3.9349,
      "step": 70140
    },
    {
      "epoch": 0.14614583333333334,
      "grad_norm": 0.8001128435134888,
      "learning_rate": 0.00028520332774686723,
      "loss": 4.0479,
      "step": 70150
    },
    {
      "epoch": 0.14616666666666667,
      "grad_norm": 0.886451780796051,
      "learning_rate": 0.0002851990579127854,
      "loss": 3.7592,
      "step": 70160
    },
    {
      "epoch": 0.1461875,
      "grad_norm": 0.7593209743499756,
      "learning_rate": 0.0002851947874946971,
      "loss": 3.9764,
      "step": 70170
    },
    {
      "epoch": 0.14620833333333333,
      "grad_norm": 0.7566787004470825,
      "learning_rate": 0.0002851905164926209,
      "loss": 3.9242,
      "step": 70180
    },
    {
      "epoch": 0.14622916666666666,
      "grad_norm": 0.8463684916496277,
      "learning_rate": 0.00028518624490657515,
      "loss": 3.9248,
      "step": 70190
    },
    {
      "epoch": 0.14625,
      "grad_norm": 0.8358814716339111,
      "learning_rate": 0.00028518197273657837,
      "loss": 3.8401,
      "step": 70200
    },
    {
      "epoch": 0.14627083333333332,
      "grad_norm": 0.856998085975647,
      "learning_rate": 0.00028517769998264895,
      "loss": 3.7421,
      "step": 70210
    },
    {
      "epoch": 0.14629166666666665,
      "grad_norm": 0.7047795653343201,
      "learning_rate": 0.00028517342664480537,
      "loss": 3.8694,
      "step": 70220
    },
    {
      "epoch": 0.1463125,
      "grad_norm": 0.8201743960380554,
      "learning_rate": 0.0002851691527230661,
      "loss": 3.9812,
      "step": 70230
    },
    {
      "epoch": 0.14633333333333334,
      "grad_norm": 0.7604708671569824,
      "learning_rate": 0.0002851648782174496,
      "loss": 4.0802,
      "step": 70240
    },
    {
      "epoch": 0.14635416666666667,
      "grad_norm": 0.8410369753837585,
      "learning_rate": 0.0002851606031279743,
      "loss": 3.9369,
      "step": 70250
    },
    {
      "epoch": 0.146375,
      "grad_norm": 0.7235720753669739,
      "learning_rate": 0.00028515632745465877,
      "loss": 3.9319,
      "step": 70260
    },
    {
      "epoch": 0.14639583333333334,
      "grad_norm": 0.6920164227485657,
      "learning_rate": 0.0002851520511975213,
      "loss": 3.9149,
      "step": 70270
    },
    {
      "epoch": 0.14641666666666667,
      "grad_norm": 0.7080636024475098,
      "learning_rate": 0.00028514777435658057,
      "loss": 4.1572,
      "step": 70280
    },
    {
      "epoch": 0.1464375,
      "grad_norm": 0.7709580659866333,
      "learning_rate": 0.0002851434969318549,
      "loss": 3.9161,
      "step": 70290
    },
    {
      "epoch": 0.14645833333333333,
      "grad_norm": 0.7972705960273743,
      "learning_rate": 0.0002851392189233628,
      "loss": 4.0601,
      "step": 70300
    },
    {
      "epoch": 0.14647916666666666,
      "grad_norm": 0.7233147621154785,
      "learning_rate": 0.0002851349403311228,
      "loss": 4.0458,
      "step": 70310
    },
    {
      "epoch": 0.1465,
      "grad_norm": 0.9602296352386475,
      "learning_rate": 0.00028513066115515333,
      "loss": 4.0154,
      "step": 70320
    },
    {
      "epoch": 0.14652083333333332,
      "grad_norm": 0.8137286901473999,
      "learning_rate": 0.00028512638139547284,
      "loss": 3.98,
      "step": 70330
    },
    {
      "epoch": 0.14654166666666665,
      "grad_norm": 0.8879191279411316,
      "learning_rate": 0.00028512210105209997,
      "loss": 4.0604,
      "step": 70340
    },
    {
      "epoch": 0.1465625,
      "grad_norm": 0.8675897121429443,
      "learning_rate": 0.00028511782012505303,
      "loss": 3.9614,
      "step": 70350
    },
    {
      "epoch": 0.14658333333333334,
      "grad_norm": 0.7635958194732666,
      "learning_rate": 0.00028511353861435064,
      "loss": 3.9918,
      "step": 70360
    },
    {
      "epoch": 0.14660416666666667,
      "grad_norm": 0.8240454792976379,
      "learning_rate": 0.0002851092565200112,
      "loss": 4.0146,
      "step": 70370
    },
    {
      "epoch": 0.146625,
      "grad_norm": 0.7570258975028992,
      "learning_rate": 0.0002851049738420533,
      "loss": 4.109,
      "step": 70380
    },
    {
      "epoch": 0.14664583333333334,
      "grad_norm": 0.7569277882575989,
      "learning_rate": 0.00028510069058049534,
      "loss": 3.9234,
      "step": 70390
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 0.836298942565918,
      "learning_rate": 0.00028509640673535594,
      "loss": 3.9572,
      "step": 70400
    },
    {
      "epoch": 0.1466875,
      "grad_norm": 0.7335907220840454,
      "learning_rate": 0.00028509212230665344,
      "loss": 3.9976,
      "step": 70410
    },
    {
      "epoch": 0.14670833333333333,
      "grad_norm": 0.837879478931427,
      "learning_rate": 0.00028508783729440655,
      "loss": 4.0464,
      "step": 70420
    },
    {
      "epoch": 0.14672916666666666,
      "grad_norm": 0.761587381362915,
      "learning_rate": 0.0002850835516986336,
      "loss": 3.906,
      "step": 70430
    },
    {
      "epoch": 0.14675,
      "grad_norm": 0.8922468423843384,
      "learning_rate": 0.0002850792655193532,
      "loss": 4.1039,
      "step": 70440
    },
    {
      "epoch": 0.14677083333333332,
      "grad_norm": 0.7889083623886108,
      "learning_rate": 0.0002850749787565838,
      "loss": 4.025,
      "step": 70450
    },
    {
      "epoch": 0.14679166666666665,
      "grad_norm": 0.8785921931266785,
      "learning_rate": 0.0002850706914103441,
      "loss": 3.8719,
      "step": 70460
    },
    {
      "epoch": 0.1468125,
      "grad_norm": 0.8289032578468323,
      "learning_rate": 0.00028506640348065237,
      "loss": 3.8434,
      "step": 70470
    },
    {
      "epoch": 0.14683333333333334,
      "grad_norm": 0.6950792670249939,
      "learning_rate": 0.0002850621149675272,
      "loss": 3.9272,
      "step": 70480
    },
    {
      "epoch": 0.14685416666666667,
      "grad_norm": 1.0378618240356445,
      "learning_rate": 0.0002850578258709872,
      "loss": 3.8932,
      "step": 70490
    },
    {
      "epoch": 0.146875,
      "grad_norm": 0.7387932538986206,
      "learning_rate": 0.0002850535361910509,
      "loss": 4.0066,
      "step": 70500
    },
    {
      "epoch": 0.14689583333333334,
      "grad_norm": 0.9211015701293945,
      "learning_rate": 0.0002850492459277367,
      "loss": 3.8786,
      "step": 70510
    },
    {
      "epoch": 0.14691666666666667,
      "grad_norm": 0.780335545539856,
      "learning_rate": 0.00028504495508106326,
      "loss": 3.9988,
      "step": 70520
    },
    {
      "epoch": 0.1469375,
      "grad_norm": 0.7700327038764954,
      "learning_rate": 0.00028504066365104907,
      "loss": 3.8681,
      "step": 70530
    },
    {
      "epoch": 0.14695833333333333,
      "grad_norm": 0.7493449449539185,
      "learning_rate": 0.00028503637163771264,
      "loss": 3.9319,
      "step": 70540
    },
    {
      "epoch": 0.14697916666666666,
      "grad_norm": 0.9285547137260437,
      "learning_rate": 0.0002850320790410726,
      "loss": 4.1259,
      "step": 70550
    },
    {
      "epoch": 0.147,
      "grad_norm": 0.7321125864982605,
      "learning_rate": 0.00028502778586114735,
      "loss": 4.0552,
      "step": 70560
    },
    {
      "epoch": 0.14702083333333332,
      "grad_norm": 0.860734224319458,
      "learning_rate": 0.0002850234920979555,
      "loss": 3.9526,
      "step": 70570
    },
    {
      "epoch": 0.14704166666666665,
      "grad_norm": 0.911291241645813,
      "learning_rate": 0.0002850191977515157,
      "loss": 3.8496,
      "step": 70580
    },
    {
      "epoch": 0.1470625,
      "grad_norm": 0.7311672568321228,
      "learning_rate": 0.00028501490282184635,
      "loss": 4.0824,
      "step": 70590
    },
    {
      "epoch": 0.14708333333333334,
      "grad_norm": 0.7769649624824524,
      "learning_rate": 0.00028501060730896607,
      "loss": 4.1192,
      "step": 70600
    },
    {
      "epoch": 0.14710416666666667,
      "grad_norm": 0.6574681401252747,
      "learning_rate": 0.0002850063112128934,
      "loss": 4.0061,
      "step": 70610
    },
    {
      "epoch": 0.147125,
      "grad_norm": 0.7548052072525024,
      "learning_rate": 0.00028500201453364693,
      "loss": 3.8955,
      "step": 70620
    },
    {
      "epoch": 0.14714583333333334,
      "grad_norm": 0.7816272377967834,
      "learning_rate": 0.00028499771727124516,
      "loss": 3.8382,
      "step": 70630
    },
    {
      "epoch": 0.14716666666666667,
      "grad_norm": 0.9138084053993225,
      "learning_rate": 0.00028499341942570677,
      "loss": 4.0052,
      "step": 70640
    },
    {
      "epoch": 0.1471875,
      "grad_norm": 0.7758882641792297,
      "learning_rate": 0.00028498912099705014,
      "loss": 3.8247,
      "step": 70650
    },
    {
      "epoch": 0.14720833333333333,
      "grad_norm": 0.7486403584480286,
      "learning_rate": 0.00028498482198529397,
      "loss": 4.0722,
      "step": 70660
    },
    {
      "epoch": 0.14722916666666666,
      "grad_norm": 0.9078393578529358,
      "learning_rate": 0.00028498052239045685,
      "loss": 4.1625,
      "step": 70670
    },
    {
      "epoch": 0.14725,
      "grad_norm": 0.7558035254478455,
      "learning_rate": 0.0002849762222125572,
      "loss": 3.8941,
      "step": 70680
    },
    {
      "epoch": 0.14727083333333332,
      "grad_norm": 0.7405322790145874,
      "learning_rate": 0.00028497192145161376,
      "loss": 4.1048,
      "step": 70690
    },
    {
      "epoch": 0.14729166666666665,
      "grad_norm": 0.7279923558235168,
      "learning_rate": 0.0002849676201076451,
      "loss": 3.9966,
      "step": 70700
    },
    {
      "epoch": 0.1473125,
      "grad_norm": 1.0375614166259766,
      "learning_rate": 0.00028496331818066964,
      "loss": 3.7154,
      "step": 70710
    },
    {
      "epoch": 0.14733333333333334,
      "grad_norm": 0.8000854849815369,
      "learning_rate": 0.00028495901567070615,
      "loss": 3.8953,
      "step": 70720
    },
    {
      "epoch": 0.14735416666666667,
      "grad_norm": 0.7650704979896545,
      "learning_rate": 0.0002849547125777731,
      "loss": 4.0827,
      "step": 70730
    },
    {
      "epoch": 0.147375,
      "grad_norm": 0.7293088436126709,
      "learning_rate": 0.00028495040890188914,
      "loss": 4.0645,
      "step": 70740
    },
    {
      "epoch": 0.14739583333333334,
      "grad_norm": 0.8080040216445923,
      "learning_rate": 0.00028494610464307275,
      "loss": 3.9648,
      "step": 70750
    },
    {
      "epoch": 0.14741666666666667,
      "grad_norm": 0.7630507946014404,
      "learning_rate": 0.00028494179980134265,
      "loss": 4.1478,
      "step": 70760
    },
    {
      "epoch": 0.1474375,
      "grad_norm": 0.8327875733375549,
      "learning_rate": 0.00028493749437671743,
      "loss": 3.92,
      "step": 70770
    },
    {
      "epoch": 0.14745833333333333,
      "grad_norm": 0.7751945853233337,
      "learning_rate": 0.0002849331883692156,
      "loss": 3.8638,
      "step": 70780
    },
    {
      "epoch": 0.14747916666666666,
      "grad_norm": 0.8261473178863525,
      "learning_rate": 0.0002849288817788558,
      "loss": 3.9871,
      "step": 70790
    },
    {
      "epoch": 0.1475,
      "grad_norm": 0.7510938048362732,
      "learning_rate": 0.00028492457460565666,
      "loss": 4.1507,
      "step": 70800
    },
    {
      "epoch": 0.14752083333333332,
      "grad_norm": 0.7204061150550842,
      "learning_rate": 0.00028492026684963676,
      "loss": 3.8249,
      "step": 70810
    },
    {
      "epoch": 0.14754166666666665,
      "grad_norm": 0.8568095564842224,
      "learning_rate": 0.0002849159585108147,
      "loss": 4.0815,
      "step": 70820
    },
    {
      "epoch": 0.1475625,
      "grad_norm": 0.6975789070129395,
      "learning_rate": 0.00028491164958920913,
      "loss": 3.8742,
      "step": 70830
    },
    {
      "epoch": 0.14758333333333334,
      "grad_norm": 0.7814606428146362,
      "learning_rate": 0.00028490734008483864,
      "loss": 3.9741,
      "step": 70840
    },
    {
      "epoch": 0.14760416666666668,
      "grad_norm": 0.6680817008018494,
      "learning_rate": 0.00028490302999772184,
      "loss": 3.7527,
      "step": 70850
    },
    {
      "epoch": 0.147625,
      "grad_norm": 0.7374251484870911,
      "learning_rate": 0.0002848987193278773,
      "loss": 3.9141,
      "step": 70860
    },
    {
      "epoch": 0.14764583333333334,
      "grad_norm": 0.7649693489074707,
      "learning_rate": 0.00028489440807532375,
      "loss": 3.9403,
      "step": 70870
    },
    {
      "epoch": 0.14766666666666667,
      "grad_norm": 0.7564494013786316,
      "learning_rate": 0.0002848900962400797,
      "loss": 3.9429,
      "step": 70880
    },
    {
      "epoch": 0.1476875,
      "grad_norm": 0.793039083480835,
      "learning_rate": 0.0002848857838221638,
      "loss": 3.977,
      "step": 70890
    },
    {
      "epoch": 0.14770833333333333,
      "grad_norm": 0.9813269376754761,
      "learning_rate": 0.0002848814708215948,
      "loss": 4.0172,
      "step": 70900
    },
    {
      "epoch": 0.14772916666666666,
      "grad_norm": 0.757882833480835,
      "learning_rate": 0.0002848771572383912,
      "loss": 3.7661,
      "step": 70910
    },
    {
      "epoch": 0.14775,
      "grad_norm": 0.7030050754547119,
      "learning_rate": 0.00028487284307257164,
      "loss": 3.9025,
      "step": 70920
    },
    {
      "epoch": 0.14777083333333332,
      "grad_norm": 0.7204713821411133,
      "learning_rate": 0.0002848685283241548,
      "loss": 3.963,
      "step": 70930
    },
    {
      "epoch": 0.14779166666666665,
      "grad_norm": 1.171222448348999,
      "learning_rate": 0.0002848642129931593,
      "loss": 3.9744,
      "step": 70940
    },
    {
      "epoch": 0.1478125,
      "grad_norm": 0.6897326111793518,
      "learning_rate": 0.0002848598970796038,
      "loss": 4.0045,
      "step": 70950
    },
    {
      "epoch": 0.14783333333333334,
      "grad_norm": 0.7398867011070251,
      "learning_rate": 0.0002848555805835069,
      "loss": 3.7481,
      "step": 70960
    },
    {
      "epoch": 0.14785416666666668,
      "grad_norm": 0.7656953930854797,
      "learning_rate": 0.0002848512635048873,
      "loss": 3.8326,
      "step": 70970
    },
    {
      "epoch": 0.147875,
      "grad_norm": 0.8426531553268433,
      "learning_rate": 0.0002848469458437636,
      "loss": 4.1601,
      "step": 70980
    },
    {
      "epoch": 0.14789583333333334,
      "grad_norm": 0.7725698947906494,
      "learning_rate": 0.0002848426276001545,
      "loss": 3.9413,
      "step": 70990
    },
    {
      "epoch": 0.14791666666666667,
      "grad_norm": 0.7696405053138733,
      "learning_rate": 0.00028483830877407856,
      "loss": 4.0112,
      "step": 71000
    },
    {
      "epoch": 0.14791666666666667,
      "eval_loss": 4.284165382385254,
      "eval_runtime": 9.1084,
      "eval_samples_per_second": 1.098,
      "eval_steps_per_second": 0.329,
      "step": 71000
    },
    {
      "epoch": 0.1479375,
      "grad_norm": 0.7905187010765076,
      "learning_rate": 0.00028483398936555456,
      "loss": 3.9901,
      "step": 71010
    },
    {
      "epoch": 0.14795833333333333,
      "grad_norm": 0.8021465539932251,
      "learning_rate": 0.00028482966937460106,
      "loss": 4.0941,
      "step": 71020
    },
    {
      "epoch": 0.14797916666666666,
      "grad_norm": 0.7418262362480164,
      "learning_rate": 0.00028482534880123675,
      "loss": 3.9853,
      "step": 71030
    },
    {
      "epoch": 0.148,
      "grad_norm": 0.7624172568321228,
      "learning_rate": 0.00028482102764548035,
      "loss": 3.8035,
      "step": 71040
    },
    {
      "epoch": 0.14802083333333332,
      "grad_norm": 0.8580581545829773,
      "learning_rate": 0.00028481670590735044,
      "loss": 3.8673,
      "step": 71050
    },
    {
      "epoch": 0.14804166666666665,
      "grad_norm": 0.7686579823493958,
      "learning_rate": 0.00028481238358686573,
      "loss": 4.0046,
      "step": 71060
    },
    {
      "epoch": 0.1480625,
      "grad_norm": 0.7011567950248718,
      "learning_rate": 0.00028480806068404487,
      "loss": 3.9806,
      "step": 71070
    },
    {
      "epoch": 0.14808333333333334,
      "grad_norm": 0.779774010181427,
      "learning_rate": 0.0002848037371989066,
      "loss": 3.9366,
      "step": 71080
    },
    {
      "epoch": 0.14810416666666668,
      "grad_norm": 0.7824998497962952,
      "learning_rate": 0.0002847994131314695,
      "loss": 3.9259,
      "step": 71090
    },
    {
      "epoch": 0.148125,
      "grad_norm": 0.7422212958335876,
      "learning_rate": 0.0002847950884817523,
      "loss": 3.9097,
      "step": 71100
    },
    {
      "epoch": 0.14814583333333334,
      "grad_norm": 0.6770913600921631,
      "learning_rate": 0.0002847907632497737,
      "loss": 4.1077,
      "step": 71110
    },
    {
      "epoch": 0.14816666666666667,
      "grad_norm": 0.7348718643188477,
      "learning_rate": 0.00028478643743555233,
      "loss": 4.0255,
      "step": 71120
    },
    {
      "epoch": 0.1481875,
      "grad_norm": 0.9059455394744873,
      "learning_rate": 0.0002847821110391069,
      "loss": 3.72,
      "step": 71130
    },
    {
      "epoch": 0.14820833333333333,
      "grad_norm": 0.7659428119659424,
      "learning_rate": 0.0002847777840604561,
      "loss": 4.1059,
      "step": 71140
    },
    {
      "epoch": 0.14822916666666666,
      "grad_norm": 0.7198939919471741,
      "learning_rate": 0.00028477345649961864,
      "loss": 4.0336,
      "step": 71150
    },
    {
      "epoch": 0.14825,
      "grad_norm": 0.7605399489402771,
      "learning_rate": 0.0002847691283566132,
      "loss": 3.975,
      "step": 71160
    },
    {
      "epoch": 0.14827083333333332,
      "grad_norm": 0.8730732202529907,
      "learning_rate": 0.00028476479963145845,
      "loss": 4.0358,
      "step": 71170
    },
    {
      "epoch": 0.14829166666666665,
      "grad_norm": 0.7102091312408447,
      "learning_rate": 0.0002847604703241731,
      "loss": 3.9719,
      "step": 71180
    },
    {
      "epoch": 0.1483125,
      "grad_norm": 0.8173009753227234,
      "learning_rate": 0.0002847561404347759,
      "loss": 4.1131,
      "step": 71190
    },
    {
      "epoch": 0.14833333333333334,
      "grad_norm": 0.7617464065551758,
      "learning_rate": 0.0002847518099632855,
      "loss": 4.002,
      "step": 71200
    },
    {
      "epoch": 0.14835416666666668,
      "grad_norm": 0.7886496782302856,
      "learning_rate": 0.0002847474789097206,
      "loss": 4.0719,
      "step": 71210
    },
    {
      "epoch": 0.148375,
      "grad_norm": 0.7785465717315674,
      "learning_rate": 0.00028474314727409993,
      "loss": 3.9436,
      "step": 71220
    },
    {
      "epoch": 0.14839583333333334,
      "grad_norm": 0.8125216960906982,
      "learning_rate": 0.0002847388150564422,
      "loss": 3.9755,
      "step": 71230
    },
    {
      "epoch": 0.14841666666666667,
      "grad_norm": 0.7480450868606567,
      "learning_rate": 0.0002847344822567661,
      "loss": 3.907,
      "step": 71240
    },
    {
      "epoch": 0.1484375,
      "grad_norm": 0.7671841979026794,
      "learning_rate": 0.0002847301488750904,
      "loss": 4.052,
      "step": 71250
    },
    {
      "epoch": 0.14845833333333333,
      "grad_norm": 0.9425755143165588,
      "learning_rate": 0.0002847258149114338,
      "loss": 4.0931,
      "step": 71260
    },
    {
      "epoch": 0.14847916666666666,
      "grad_norm": 0.7930712699890137,
      "learning_rate": 0.000284721480365815,
      "loss": 3.9558,
      "step": 71270
    },
    {
      "epoch": 0.1485,
      "grad_norm": 0.8144110441207886,
      "learning_rate": 0.0002847171452382527,
      "loss": 3.8485,
      "step": 71280
    },
    {
      "epoch": 0.14852083333333332,
      "grad_norm": 1.0648144483566284,
      "learning_rate": 0.0002847128095287657,
      "loss": 4.0264,
      "step": 71290
    },
    {
      "epoch": 0.14854166666666666,
      "grad_norm": 0.8163142800331116,
      "learning_rate": 0.00028470847323737263,
      "loss": 3.8487,
      "step": 71300
    },
    {
      "epoch": 0.1485625,
      "grad_norm": 0.7700211405754089,
      "learning_rate": 0.0002847041363640923,
      "loss": 4.0265,
      "step": 71310
    },
    {
      "epoch": 0.14858333333333335,
      "grad_norm": 1.1434084177017212,
      "learning_rate": 0.00028469979890894347,
      "loss": 3.9967,
      "step": 71320
    },
    {
      "epoch": 0.14860416666666668,
      "grad_norm": 0.8698025941848755,
      "learning_rate": 0.0002846954608719448,
      "loss": 4.0618,
      "step": 71330
    },
    {
      "epoch": 0.148625,
      "grad_norm": 0.8047134876251221,
      "learning_rate": 0.000284691122253115,
      "loss": 3.9848,
      "step": 71340
    },
    {
      "epoch": 0.14864583333333334,
      "grad_norm": 0.7494893074035645,
      "learning_rate": 0.0002846867830524729,
      "loss": 3.9671,
      "step": 71350
    },
    {
      "epoch": 0.14866666666666667,
      "grad_norm": 0.8174264430999756,
      "learning_rate": 0.00028468244327003724,
      "loss": 4.0091,
      "step": 71360
    },
    {
      "epoch": 0.1486875,
      "grad_norm": 0.7800838351249695,
      "learning_rate": 0.0002846781029058267,
      "loss": 3.9655,
      "step": 71370
    },
    {
      "epoch": 0.14870833333333333,
      "grad_norm": 0.7907758355140686,
      "learning_rate": 0.0002846737619598601,
      "loss": 3.9742,
      "step": 71380
    },
    {
      "epoch": 0.14872916666666666,
      "grad_norm": 0.8528965711593628,
      "learning_rate": 0.00028466942043215614,
      "loss": 3.9647,
      "step": 71390
    },
    {
      "epoch": 0.14875,
      "grad_norm": 0.9358994960784912,
      "learning_rate": 0.0002846650783227336,
      "loss": 3.8695,
      "step": 71400
    },
    {
      "epoch": 0.14877083333333332,
      "grad_norm": 0.8777825236320496,
      "learning_rate": 0.0002846607356316112,
      "loss": 3.9801,
      "step": 71410
    },
    {
      "epoch": 0.14879166666666666,
      "grad_norm": 0.8991490006446838,
      "learning_rate": 0.0002846563923588077,
      "loss": 3.9912,
      "step": 71420
    },
    {
      "epoch": 0.1488125,
      "grad_norm": 0.7709356546401978,
      "learning_rate": 0.00028465204850434197,
      "loss": 4.0917,
      "step": 71430
    },
    {
      "epoch": 0.14883333333333335,
      "grad_norm": 0.7932181358337402,
      "learning_rate": 0.0002846477040682326,
      "loss": 3.9192,
      "step": 71440
    },
    {
      "epoch": 0.14885416666666668,
      "grad_norm": 0.740972638130188,
      "learning_rate": 0.0002846433590504985,
      "loss": 3.8576,
      "step": 71450
    },
    {
      "epoch": 0.148875,
      "grad_norm": 0.7025546431541443,
      "learning_rate": 0.00028463901345115837,
      "loss": 3.8922,
      "step": 71460
    },
    {
      "epoch": 0.14889583333333334,
      "grad_norm": 0.7704331874847412,
      "learning_rate": 0.000284634667270231,
      "loss": 4.0307,
      "step": 71470
    },
    {
      "epoch": 0.14891666666666667,
      "grad_norm": 1.0900804996490479,
      "learning_rate": 0.00028463032050773517,
      "loss": 3.9595,
      "step": 71480
    },
    {
      "epoch": 0.1489375,
      "grad_norm": 0.8697716593742371,
      "learning_rate": 0.0002846259731636896,
      "loss": 3.9997,
      "step": 71490
    },
    {
      "epoch": 0.14895833333333333,
      "grad_norm": 0.8139185309410095,
      "learning_rate": 0.00028462162523811317,
      "loss": 3.9287,
      "step": 71500
    },
    {
      "epoch": 0.14897916666666666,
      "grad_norm": 0.9552225470542908,
      "learning_rate": 0.00028461727673102457,
      "loss": 4.0279,
      "step": 71510
    },
    {
      "epoch": 0.149,
      "grad_norm": 0.7749955654144287,
      "learning_rate": 0.00028461292764244263,
      "loss": 4.0088,
      "step": 71520
    },
    {
      "epoch": 0.14902083333333332,
      "grad_norm": 0.7781401872634888,
      "learning_rate": 0.00028460857797238615,
      "loss": 3.8408,
      "step": 71530
    },
    {
      "epoch": 0.14904166666666666,
      "grad_norm": 0.7465201020240784,
      "learning_rate": 0.00028460422772087383,
      "loss": 3.9059,
      "step": 71540
    },
    {
      "epoch": 0.1490625,
      "grad_norm": 0.710066020488739,
      "learning_rate": 0.0002845998768879246,
      "loss": 3.9026,
      "step": 71550
    },
    {
      "epoch": 0.14908333333333335,
      "grad_norm": 0.7229118347167969,
      "learning_rate": 0.00028459552547355715,
      "loss": 3.9192,
      "step": 71560
    },
    {
      "epoch": 0.14910416666666668,
      "grad_norm": 1.1155638694763184,
      "learning_rate": 0.0002845911734777903,
      "loss": 3.7946,
      "step": 71570
    },
    {
      "epoch": 0.149125,
      "grad_norm": 0.8917801380157471,
      "learning_rate": 0.0002845868209006429,
      "loss": 4.0234,
      "step": 71580
    },
    {
      "epoch": 0.14914583333333334,
      "grad_norm": 0.94773930311203,
      "learning_rate": 0.0002845824677421336,
      "loss": 3.7823,
      "step": 71590
    },
    {
      "epoch": 0.14916666666666667,
      "grad_norm": 0.8116409778594971,
      "learning_rate": 0.0002845781140022814,
      "loss": 3.8846,
      "step": 71600
    },
    {
      "epoch": 0.1491875,
      "grad_norm": 0.7623091340065002,
      "learning_rate": 0.000284573759681105,
      "loss": 3.9585,
      "step": 71610
    },
    {
      "epoch": 0.14920833333333333,
      "grad_norm": 0.8278562426567078,
      "learning_rate": 0.0002845694047786232,
      "loss": 4.0079,
      "step": 71620
    },
    {
      "epoch": 0.14922916666666666,
      "grad_norm": 0.9009554386138916,
      "learning_rate": 0.0002845650492948549,
      "loss": 3.9093,
      "step": 71630
    },
    {
      "epoch": 0.14925,
      "grad_norm": 0.7580499053001404,
      "learning_rate": 0.0002845606932298188,
      "loss": 4.0763,
      "step": 71640
    },
    {
      "epoch": 0.14927083333333332,
      "grad_norm": 0.8750494718551636,
      "learning_rate": 0.0002845563365835338,
      "loss": 4.0393,
      "step": 71650
    },
    {
      "epoch": 0.14929166666666666,
      "grad_norm": 0.7408109903335571,
      "learning_rate": 0.0002845519793560186,
      "loss": 3.9725,
      "step": 71660
    },
    {
      "epoch": 0.1493125,
      "grad_norm": 0.8094432950019836,
      "learning_rate": 0.0002845476215472922,
      "loss": 3.8375,
      "step": 71670
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 0.7717129588127136,
      "learning_rate": 0.00028454326315737334,
      "loss": 4.0632,
      "step": 71680
    },
    {
      "epoch": 0.14935416666666668,
      "grad_norm": 0.7702759504318237,
      "learning_rate": 0.00028453890418628084,
      "loss": 4.0045,
      "step": 71690
    },
    {
      "epoch": 0.149375,
      "grad_norm": 0.8685171604156494,
      "learning_rate": 0.0002845345446340334,
      "loss": 3.8928,
      "step": 71700
    },
    {
      "epoch": 0.14939583333333334,
      "grad_norm": 0.9150027632713318,
      "learning_rate": 0.0002845301845006501,
      "loss": 3.9233,
      "step": 71710
    },
    {
      "epoch": 0.14941666666666667,
      "grad_norm": 0.7720416784286499,
      "learning_rate": 0.0002845258237861497,
      "loss": 3.8108,
      "step": 71720
    },
    {
      "epoch": 0.1494375,
      "grad_norm": 0.9362589120864868,
      "learning_rate": 0.0002845214624905509,
      "loss": 3.9277,
      "step": 71730
    },
    {
      "epoch": 0.14945833333333333,
      "grad_norm": 0.8128464818000793,
      "learning_rate": 0.0002845171006138726,
      "loss": 4.1033,
      "step": 71740
    },
    {
      "epoch": 0.14947916666666666,
      "grad_norm": 0.752554178237915,
      "learning_rate": 0.00028451273815613377,
      "loss": 3.8588,
      "step": 71750
    },
    {
      "epoch": 0.1495,
      "grad_norm": 0.8801952600479126,
      "learning_rate": 0.0002845083751173531,
      "loss": 3.9596,
      "step": 71760
    },
    {
      "epoch": 0.14952083333333333,
      "grad_norm": 0.8071030974388123,
      "learning_rate": 0.0002845040114975495,
      "loss": 3.9856,
      "step": 71770
    },
    {
      "epoch": 0.14954166666666666,
      "grad_norm": 0.7862836122512817,
      "learning_rate": 0.0002844996472967418,
      "loss": 3.9644,
      "step": 71780
    },
    {
      "epoch": 0.1495625,
      "grad_norm": 0.7857822775840759,
      "learning_rate": 0.00028449528251494883,
      "loss": 4.0167,
      "step": 71790
    },
    {
      "epoch": 0.14958333333333335,
      "grad_norm": 0.7912495732307434,
      "learning_rate": 0.00028449091715218957,
      "loss": 3.8651,
      "step": 71800
    },
    {
      "epoch": 0.14960416666666668,
      "grad_norm": 0.7305403351783752,
      "learning_rate": 0.0002844865512084827,
      "loss": 3.9962,
      "step": 71810
    },
    {
      "epoch": 0.149625,
      "grad_norm": 0.7999270558357239,
      "learning_rate": 0.00028448218468384717,
      "loss": 3.9629,
      "step": 71820
    },
    {
      "epoch": 0.14964583333333334,
      "grad_norm": 0.8545464873313904,
      "learning_rate": 0.0002844778175783019,
      "loss": 3.8118,
      "step": 71830
    },
    {
      "epoch": 0.14966666666666667,
      "grad_norm": 0.8261105418205261,
      "learning_rate": 0.0002844734498918656,
      "loss": 3.868,
      "step": 71840
    },
    {
      "epoch": 0.1496875,
      "grad_norm": 0.7680333852767944,
      "learning_rate": 0.0002844690816245573,
      "loss": 3.9965,
      "step": 71850
    },
    {
      "epoch": 0.14970833333333333,
      "grad_norm": 0.886259913444519,
      "learning_rate": 0.00028446471277639575,
      "loss": 3.9505,
      "step": 71860
    },
    {
      "epoch": 0.14972916666666666,
      "grad_norm": 0.7556746006011963,
      "learning_rate": 0.0002844603433473999,
      "loss": 3.9307,
      "step": 71870
    },
    {
      "epoch": 0.14975,
      "grad_norm": 0.7038658261299133,
      "learning_rate": 0.0002844559733375885,
      "loss": 3.9779,
      "step": 71880
    },
    {
      "epoch": 0.14977083333333333,
      "grad_norm": 0.7639734745025635,
      "learning_rate": 0.0002844516027469806,
      "loss": 3.9773,
      "step": 71890
    },
    {
      "epoch": 0.14979166666666666,
      "grad_norm": 0.7529335021972656,
      "learning_rate": 0.000284447231575595,
      "loss": 4.0046,
      "step": 71900
    },
    {
      "epoch": 0.1498125,
      "grad_norm": 0.9344610571861267,
      "learning_rate": 0.00028444285982345054,
      "loss": 3.9518,
      "step": 71910
    },
    {
      "epoch": 0.14983333333333335,
      "grad_norm": 0.7351492643356323,
      "learning_rate": 0.0002844384874905662,
      "loss": 4.0872,
      "step": 71920
    },
    {
      "epoch": 0.14985416666666668,
      "grad_norm": 0.7677125930786133,
      "learning_rate": 0.0002844341145769608,
      "loss": 3.9007,
      "step": 71930
    },
    {
      "epoch": 0.149875,
      "grad_norm": 0.693696916103363,
      "learning_rate": 0.00028442974108265314,
      "loss": 4.008,
      "step": 71940
    },
    {
      "epoch": 0.14989583333333334,
      "grad_norm": 0.7964749336242676,
      "learning_rate": 0.00028442536700766226,
      "loss": 3.8951,
      "step": 71950
    },
    {
      "epoch": 0.14991666666666667,
      "grad_norm": 0.8002138137817383,
      "learning_rate": 0.00028442099235200706,
      "loss": 4.0999,
      "step": 71960
    },
    {
      "epoch": 0.1499375,
      "grad_norm": 0.9176610112190247,
      "learning_rate": 0.0002844166171157063,
      "loss": 3.9667,
      "step": 71970
    },
    {
      "epoch": 0.14995833333333333,
      "grad_norm": 0.7362682819366455,
      "learning_rate": 0.00028441224129877897,
      "loss": 3.9581,
      "step": 71980
    },
    {
      "epoch": 0.14997916666666666,
      "grad_norm": 0.7761439085006714,
      "learning_rate": 0.000284407864901244,
      "loss": 3.9336,
      "step": 71990
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.7397243976593018,
      "learning_rate": 0.0002844034879231203,
      "loss": 4.0251,
      "step": 72000
    },
    {
      "epoch": 0.15,
      "eval_loss": 4.295764923095703,
      "eval_runtime": 9.5639,
      "eval_samples_per_second": 1.046,
      "eval_steps_per_second": 0.314,
      "step": 72000
    },
    {
      "epoch": 0.15002083333333333,
      "grad_norm": 0.8388078808784485,
      "learning_rate": 0.0002843991103644267,
      "loss": 4.0227,
      "step": 72010
    },
    {
      "epoch": 0.15004166666666666,
      "grad_norm": 0.9408968091011047,
      "learning_rate": 0.00028439473222518206,
      "loss": 3.9341,
      "step": 72020
    },
    {
      "epoch": 0.1500625,
      "grad_norm": 0.7338883280754089,
      "learning_rate": 0.00028439035350540543,
      "loss": 3.8319,
      "step": 72030
    },
    {
      "epoch": 0.15008333333333335,
      "grad_norm": 0.7317513823509216,
      "learning_rate": 0.00028438597420511573,
      "loss": 3.9728,
      "step": 72040
    },
    {
      "epoch": 0.15010416666666668,
      "grad_norm": 0.828517735004425,
      "learning_rate": 0.0002843815943243317,
      "loss": 3.762,
      "step": 72050
    },
    {
      "epoch": 0.150125,
      "grad_norm": 1.0389846563339233,
      "learning_rate": 0.0002843772138630725,
      "loss": 3.8084,
      "step": 72060
    },
    {
      "epoch": 0.15014583333333334,
      "grad_norm": 0.6843791007995605,
      "learning_rate": 0.0002843728328213568,
      "loss": 4.0249,
      "step": 72070
    },
    {
      "epoch": 0.15016666666666667,
      "grad_norm": 0.8441025018692017,
      "learning_rate": 0.00028436845119920377,
      "loss": 4.0895,
      "step": 72080
    },
    {
      "epoch": 0.1501875,
      "grad_norm": 0.718093752861023,
      "learning_rate": 0.00028436406899663214,
      "loss": 4.1182,
      "step": 72090
    },
    {
      "epoch": 0.15020833333333333,
      "grad_norm": 0.735041081905365,
      "learning_rate": 0.0002843596862136609,
      "loss": 4.0152,
      "step": 72100
    },
    {
      "epoch": 0.15022916666666666,
      "grad_norm": 0.7616361379623413,
      "learning_rate": 0.00028435530285030904,
      "loss": 3.9742,
      "step": 72110
    },
    {
      "epoch": 0.15025,
      "grad_norm": 0.766974925994873,
      "learning_rate": 0.00028435091890659545,
      "loss": 3.9273,
      "step": 72120
    },
    {
      "epoch": 0.15027083333333333,
      "grad_norm": 1.0119668245315552,
      "learning_rate": 0.0002843465343825391,
      "loss": 3.8686,
      "step": 72130
    },
    {
      "epoch": 0.15029166666666666,
      "grad_norm": 0.7462304830551147,
      "learning_rate": 0.0002843421492781588,
      "loss": 4.1103,
      "step": 72140
    },
    {
      "epoch": 0.1503125,
      "grad_norm": 0.7401243448257446,
      "learning_rate": 0.0002843377635934737,
      "loss": 3.8154,
      "step": 72150
    },
    {
      "epoch": 0.15033333333333335,
      "grad_norm": 0.8520476818084717,
      "learning_rate": 0.00028433337732850254,
      "loss": 4.0405,
      "step": 72160
    },
    {
      "epoch": 0.15035416666666668,
      "grad_norm": 0.8213244080543518,
      "learning_rate": 0.00028432899048326445,
      "loss": 3.8169,
      "step": 72170
    },
    {
      "epoch": 0.150375,
      "grad_norm": 0.8177028894424438,
      "learning_rate": 0.0002843246030577782,
      "loss": 4.1099,
      "step": 72180
    },
    {
      "epoch": 0.15039583333333334,
      "grad_norm": 0.7936242818832397,
      "learning_rate": 0.000284320215052063,
      "loss": 3.9734,
      "step": 72190
    },
    {
      "epoch": 0.15041666666666667,
      "grad_norm": 0.8216565847396851,
      "learning_rate": 0.0002843158264661375,
      "loss": 4.0511,
      "step": 72200
    },
    {
      "epoch": 0.1504375,
      "grad_norm": 0.697338879108429,
      "learning_rate": 0.00028431143730002083,
      "loss": 3.9714,
      "step": 72210
    },
    {
      "epoch": 0.15045833333333333,
      "grad_norm": 0.9458749294281006,
      "learning_rate": 0.0002843070475537319,
      "loss": 3.8303,
      "step": 72220
    },
    {
      "epoch": 0.15047916666666666,
      "grad_norm": 0.7465956211090088,
      "learning_rate": 0.0002843026572272897,
      "loss": 3.9151,
      "step": 72230
    },
    {
      "epoch": 0.1505,
      "grad_norm": 0.8416056632995605,
      "learning_rate": 0.0002842982663207132,
      "loss": 3.9581,
      "step": 72240
    },
    {
      "epoch": 0.15052083333333333,
      "grad_norm": 0.8168357014656067,
      "learning_rate": 0.0002842938748340213,
      "loss": 3.9749,
      "step": 72250
    },
    {
      "epoch": 0.15054166666666666,
      "grad_norm": 0.8974773287773132,
      "learning_rate": 0.000284289482767233,
      "loss": 3.9778,
      "step": 72260
    },
    {
      "epoch": 0.1505625,
      "grad_norm": 0.7147213220596313,
      "learning_rate": 0.0002842850901203674,
      "loss": 4.0194,
      "step": 72270
    },
    {
      "epoch": 0.15058333333333335,
      "grad_norm": 0.8465138673782349,
      "learning_rate": 0.00028428069689344327,
      "loss": 4.0292,
      "step": 72280
    },
    {
      "epoch": 0.15060416666666668,
      "grad_norm": 0.8558012843132019,
      "learning_rate": 0.0002842763030864797,
      "loss": 3.936,
      "step": 72290
    },
    {
      "epoch": 0.150625,
      "grad_norm": 0.983116626739502,
      "learning_rate": 0.0002842719086994957,
      "loss": 4.0686,
      "step": 72300
    },
    {
      "epoch": 0.15064583333333334,
      "grad_norm": 0.7522895932197571,
      "learning_rate": 0.00028426751373251014,
      "loss": 4.0658,
      "step": 72310
    },
    {
      "epoch": 0.15066666666666667,
      "grad_norm": 0.7169217467308044,
      "learning_rate": 0.0002842631181855421,
      "loss": 4.1575,
      "step": 72320
    },
    {
      "epoch": 0.1506875,
      "grad_norm": 0.7256879806518555,
      "learning_rate": 0.0002842587220586105,
      "loss": 4.0786,
      "step": 72330
    },
    {
      "epoch": 0.15070833333333333,
      "grad_norm": 0.7191252708435059,
      "learning_rate": 0.00028425432535173444,
      "loss": 3.9841,
      "step": 72340
    },
    {
      "epoch": 0.15072916666666666,
      "grad_norm": 0.7323718070983887,
      "learning_rate": 0.0002842499280649328,
      "loss": 4.068,
      "step": 72350
    },
    {
      "epoch": 0.15075,
      "grad_norm": 0.7600184082984924,
      "learning_rate": 0.00028424553019822454,
      "loss": 3.9458,
      "step": 72360
    },
    {
      "epoch": 0.15077083333333333,
      "grad_norm": 0.8027377724647522,
      "learning_rate": 0.00028424113175162883,
      "loss": 4.0308,
      "step": 72370
    },
    {
      "epoch": 0.15079166666666666,
      "grad_norm": 0.8312699794769287,
      "learning_rate": 0.0002842367327251645,
      "loss": 4.0085,
      "step": 72380
    },
    {
      "epoch": 0.1508125,
      "grad_norm": 0.7182160019874573,
      "learning_rate": 0.0002842323331188507,
      "loss": 3.9754,
      "step": 72390
    },
    {
      "epoch": 0.15083333333333335,
      "grad_norm": 0.7611488699913025,
      "learning_rate": 0.00028422793293270625,
      "loss": 4.0225,
      "step": 72400
    },
    {
      "epoch": 0.15085416666666668,
      "grad_norm": 0.7022058367729187,
      "learning_rate": 0.0002842235321667503,
      "loss": 3.9381,
      "step": 72410
    },
    {
      "epoch": 0.150875,
      "grad_norm": 0.7718464136123657,
      "learning_rate": 0.0002842191308210018,
      "loss": 4.0963,
      "step": 72420
    },
    {
      "epoch": 0.15089583333333334,
      "grad_norm": 0.9441313743591309,
      "learning_rate": 0.00028421472889547986,
      "loss": 3.956,
      "step": 72430
    },
    {
      "epoch": 0.15091666666666667,
      "grad_norm": 0.942916214466095,
      "learning_rate": 0.00028421032639020335,
      "loss": 3.9402,
      "step": 72440
    },
    {
      "epoch": 0.1509375,
      "grad_norm": 1.022138237953186,
      "learning_rate": 0.0002842059233051914,
      "loss": 4.0063,
      "step": 72450
    },
    {
      "epoch": 0.15095833333333333,
      "grad_norm": 0.8479210734367371,
      "learning_rate": 0.0002842015196404629,
      "loss": 3.9831,
      "step": 72460
    },
    {
      "epoch": 0.15097916666666666,
      "grad_norm": 1.0297539234161377,
      "learning_rate": 0.00028419711539603705,
      "loss": 4.0513,
      "step": 72470
    },
    {
      "epoch": 0.151,
      "grad_norm": 0.9022752642631531,
      "learning_rate": 0.00028419271057193273,
      "loss": 4.1092,
      "step": 72480
    },
    {
      "epoch": 0.15102083333333333,
      "grad_norm": 1.5635342597961426,
      "learning_rate": 0.00028418830516816905,
      "loss": 3.8363,
      "step": 72490
    },
    {
      "epoch": 0.15104166666666666,
      "grad_norm": 0.9071887731552124,
      "learning_rate": 0.000284183899184765,
      "loss": 3.9169,
      "step": 72500
    },
    {
      "epoch": 0.1510625,
      "grad_norm": 0.7524942755699158,
      "learning_rate": 0.0002841794926217396,
      "loss": 4.0659,
      "step": 72510
    },
    {
      "epoch": 0.15108333333333332,
      "grad_norm": 0.8225988149642944,
      "learning_rate": 0.00028417508547911186,
      "loss": 4.0076,
      "step": 72520
    },
    {
      "epoch": 0.15110416666666668,
      "grad_norm": 0.955308735370636,
      "learning_rate": 0.00028417067775690093,
      "loss": 4.0221,
      "step": 72530
    },
    {
      "epoch": 0.151125,
      "grad_norm": 0.8638079762458801,
      "learning_rate": 0.0002841662694551258,
      "loss": 4.1908,
      "step": 72540
    },
    {
      "epoch": 0.15114583333333334,
      "grad_norm": 0.815079391002655,
      "learning_rate": 0.0002841618605738054,
      "loss": 3.952,
      "step": 72550
    },
    {
      "epoch": 0.15116666666666667,
      "grad_norm": 0.7443315386772156,
      "learning_rate": 0.00028415745111295894,
      "loss": 3.8732,
      "step": 72560
    },
    {
      "epoch": 0.1511875,
      "grad_norm": 0.7739659547805786,
      "learning_rate": 0.0002841530410726054,
      "loss": 4.062,
      "step": 72570
    },
    {
      "epoch": 0.15120833333333333,
      "grad_norm": 0.7999347448348999,
      "learning_rate": 0.0002841486304527638,
      "loss": 4.2184,
      "step": 72580
    },
    {
      "epoch": 0.15122916666666666,
      "grad_norm": 0.8120511174201965,
      "learning_rate": 0.0002841442192534532,
      "loss": 3.885,
      "step": 72590
    },
    {
      "epoch": 0.15125,
      "grad_norm": 0.7557273507118225,
      "learning_rate": 0.00028413980747469267,
      "loss": 3.9144,
      "step": 72600
    },
    {
      "epoch": 0.15127083333333333,
      "grad_norm": 0.7908822894096375,
      "learning_rate": 0.0002841353951165013,
      "loss": 3.8818,
      "step": 72610
    },
    {
      "epoch": 0.15129166666666666,
      "grad_norm": 0.7700543999671936,
      "learning_rate": 0.00028413098217889806,
      "loss": 4.0513,
      "step": 72620
    },
    {
      "epoch": 0.1513125,
      "grad_norm": 0.8138931393623352,
      "learning_rate": 0.0002841265686619021,
      "loss": 3.9867,
      "step": 72630
    },
    {
      "epoch": 0.15133333333333332,
      "grad_norm": 0.7181718945503235,
      "learning_rate": 0.00028412215456553245,
      "loss": 4.0142,
      "step": 72640
    },
    {
      "epoch": 0.15135416666666668,
      "grad_norm": 0.8626682758331299,
      "learning_rate": 0.00028411773988980824,
      "loss": 4.0082,
      "step": 72650
    },
    {
      "epoch": 0.151375,
      "grad_norm": 0.7466697692871094,
      "learning_rate": 0.00028411332463474845,
      "loss": 4.0678,
      "step": 72660
    },
    {
      "epoch": 0.15139583333333334,
      "grad_norm": 0.8079784512519836,
      "learning_rate": 0.0002841089088003721,
      "loss": 3.9889,
      "step": 72670
    },
    {
      "epoch": 0.15141666666666667,
      "grad_norm": 0.7213324904441833,
      "learning_rate": 0.00028410449238669845,
      "loss": 3.9646,
      "step": 72680
    },
    {
      "epoch": 0.1514375,
      "grad_norm": 0.7599303722381592,
      "learning_rate": 0.00028410007539374644,
      "loss": 4.1372,
      "step": 72690
    },
    {
      "epoch": 0.15145833333333333,
      "grad_norm": 0.7314761877059937,
      "learning_rate": 0.0002840956578215352,
      "loss": 4.177,
      "step": 72700
    },
    {
      "epoch": 0.15147916666666666,
      "grad_norm": 0.9583154320716858,
      "learning_rate": 0.0002840912396700838,
      "loss": 4.1015,
      "step": 72710
    },
    {
      "epoch": 0.1515,
      "grad_norm": 0.8020080327987671,
      "learning_rate": 0.0002840868209394113,
      "loss": 4.0157,
      "step": 72720
    },
    {
      "epoch": 0.15152083333333333,
      "grad_norm": 0.7528849244117737,
      "learning_rate": 0.0002840824016295368,
      "loss": 3.9454,
      "step": 72730
    },
    {
      "epoch": 0.15154166666666666,
      "grad_norm": 0.9540367722511292,
      "learning_rate": 0.0002840779817404794,
      "loss": 3.8685,
      "step": 72740
    },
    {
      "epoch": 0.1515625,
      "grad_norm": 0.8045822978019714,
      "learning_rate": 0.00028407356127225825,
      "loss": 4.0676,
      "step": 72750
    },
    {
      "epoch": 0.15158333333333332,
      "grad_norm": 0.709798276424408,
      "learning_rate": 0.0002840691402248923,
      "loss": 4.0525,
      "step": 72760
    },
    {
      "epoch": 0.15160416666666668,
      "grad_norm": 0.905811607837677,
      "learning_rate": 0.00028406471859840083,
      "loss": 4.1315,
      "step": 72770
    },
    {
      "epoch": 0.151625,
      "grad_norm": 0.7818454504013062,
      "learning_rate": 0.00028406029639280276,
      "loss": 3.9897,
      "step": 72780
    },
    {
      "epoch": 0.15164583333333334,
      "grad_norm": 0.7797512412071228,
      "learning_rate": 0.0002840558736081173,
      "loss": 4.0339,
      "step": 72790
    },
    {
      "epoch": 0.15166666666666667,
      "grad_norm": 0.9299226999282837,
      "learning_rate": 0.00028405145024436356,
      "loss": 3.8646,
      "step": 72800
    },
    {
      "epoch": 0.1516875,
      "grad_norm": 0.8420463800430298,
      "learning_rate": 0.00028404702630156054,
      "loss": 4.0367,
      "step": 72810
    },
    {
      "epoch": 0.15170833333333333,
      "grad_norm": 0.8580852746963501,
      "learning_rate": 0.0002840426017797275,
      "loss": 3.9131,
      "step": 72820
    },
    {
      "epoch": 0.15172916666666666,
      "grad_norm": 0.7600605487823486,
      "learning_rate": 0.00028403817667888346,
      "loss": 3.9144,
      "step": 72830
    },
    {
      "epoch": 0.15175,
      "grad_norm": 0.9438735246658325,
      "learning_rate": 0.0002840337509990475,
      "loss": 4.0707,
      "step": 72840
    },
    {
      "epoch": 0.15177083333333333,
      "grad_norm": 0.7981035709381104,
      "learning_rate": 0.0002840293247402388,
      "loss": 3.9633,
      "step": 72850
    },
    {
      "epoch": 0.15179166666666666,
      "grad_norm": 0.7321599125862122,
      "learning_rate": 0.0002840248979024765,
      "loss": 4.0976,
      "step": 72860
    },
    {
      "epoch": 0.1518125,
      "grad_norm": 0.743794858455658,
      "learning_rate": 0.00028402047048577974,
      "loss": 3.9909,
      "step": 72870
    },
    {
      "epoch": 0.15183333333333332,
      "grad_norm": 0.7463403940200806,
      "learning_rate": 0.0002840160424901676,
      "loss": 3.9713,
      "step": 72880
    },
    {
      "epoch": 0.15185416666666668,
      "grad_norm": 0.7467679977416992,
      "learning_rate": 0.00028401161391565906,
      "loss": 3.9249,
      "step": 72890
    },
    {
      "epoch": 0.151875,
      "grad_norm": 0.7973138093948364,
      "learning_rate": 0.00028400718476227353,
      "loss": 4.0584,
      "step": 72900
    },
    {
      "epoch": 0.15189583333333334,
      "grad_norm": 0.6751752495765686,
      "learning_rate": 0.00028400275503003,
      "loss": 3.9658,
      "step": 72910
    },
    {
      "epoch": 0.15191666666666667,
      "grad_norm": 0.7750449180603027,
      "learning_rate": 0.0002839983247189475,
      "loss": 4.0311,
      "step": 72920
    },
    {
      "epoch": 0.1519375,
      "grad_norm": 0.8871482610702515,
      "learning_rate": 0.00028399389382904535,
      "loss": 3.9979,
      "step": 72930
    },
    {
      "epoch": 0.15195833333333333,
      "grad_norm": 0.7578150629997253,
      "learning_rate": 0.0002839894623603426,
      "loss": 3.9,
      "step": 72940
    },
    {
      "epoch": 0.15197916666666667,
      "grad_norm": 0.7444786429405212,
      "learning_rate": 0.00028398503031285845,
      "loss": 4.0309,
      "step": 72950
    },
    {
      "epoch": 0.152,
      "grad_norm": 0.7813825011253357,
      "learning_rate": 0.00028398059768661204,
      "loss": 4.0679,
      "step": 72960
    },
    {
      "epoch": 0.15202083333333333,
      "grad_norm": 0.7288935780525208,
      "learning_rate": 0.00028397616448162235,
      "loss": 4.0372,
      "step": 72970
    },
    {
      "epoch": 0.15204166666666666,
      "grad_norm": 0.765454113483429,
      "learning_rate": 0.00028397173069790875,
      "loss": 3.9429,
      "step": 72980
    },
    {
      "epoch": 0.1520625,
      "grad_norm": 0.8828328847885132,
      "learning_rate": 0.00028396729633549026,
      "loss": 4.0985,
      "step": 72990
    },
    {
      "epoch": 0.15208333333333332,
      "grad_norm": 0.8802688717842102,
      "learning_rate": 0.0002839628613943861,
      "loss": 3.9756,
      "step": 73000
    },
    {
      "epoch": 0.15208333333333332,
      "eval_loss": 4.289035797119141,
      "eval_runtime": 9.6587,
      "eval_samples_per_second": 1.035,
      "eval_steps_per_second": 0.311,
      "step": 73000
    },
    {
      "epoch": 0.15210416666666668,
      "grad_norm": 0.7039880156517029,
      "learning_rate": 0.0002839584258746154,
      "loss": 3.9436,
      "step": 73010
    },
    {
      "epoch": 0.152125,
      "grad_norm": 0.772083580493927,
      "learning_rate": 0.00028395398977619735,
      "loss": 3.9297,
      "step": 73020
    },
    {
      "epoch": 0.15214583333333334,
      "grad_norm": 0.9898645281791687,
      "learning_rate": 0.0002839495530991511,
      "loss": 4.1193,
      "step": 73030
    },
    {
      "epoch": 0.15216666666666667,
      "grad_norm": 0.768926203250885,
      "learning_rate": 0.0002839451158434958,
      "loss": 4.0435,
      "step": 73040
    },
    {
      "epoch": 0.1521875,
      "grad_norm": 0.7805061340332031,
      "learning_rate": 0.00028394067800925057,
      "loss": 3.8929,
      "step": 73050
    },
    {
      "epoch": 0.15220833333333333,
      "grad_norm": 0.7719686627388,
      "learning_rate": 0.0002839362395964346,
      "loss": 3.7854,
      "step": 73060
    },
    {
      "epoch": 0.15222916666666667,
      "grad_norm": 0.8028059005737305,
      "learning_rate": 0.0002839318006050672,
      "loss": 3.9693,
      "step": 73070
    },
    {
      "epoch": 0.15225,
      "grad_norm": 0.8585761189460754,
      "learning_rate": 0.0002839273610351674,
      "loss": 3.9051,
      "step": 73080
    },
    {
      "epoch": 0.15227083333333333,
      "grad_norm": 0.7626745104789734,
      "learning_rate": 0.00028392292088675437,
      "loss": 3.9207,
      "step": 73090
    },
    {
      "epoch": 0.15229166666666666,
      "grad_norm": 0.7298381924629211,
      "learning_rate": 0.0002839184801598473,
      "loss": 4.0438,
      "step": 73100
    },
    {
      "epoch": 0.1523125,
      "grad_norm": 0.8463944792747498,
      "learning_rate": 0.0002839140388544655,
      "loss": 3.9336,
      "step": 73110
    },
    {
      "epoch": 0.15233333333333332,
      "grad_norm": 0.7844811081886292,
      "learning_rate": 0.000283909596970628,
      "loss": 3.9378,
      "step": 73120
    },
    {
      "epoch": 0.15235416666666668,
      "grad_norm": 0.8684730529785156,
      "learning_rate": 0.000283905154508354,
      "loss": 3.6447,
      "step": 73130
    },
    {
      "epoch": 0.152375,
      "grad_norm": 0.7893691658973694,
      "learning_rate": 0.0002839007114676628,
      "loss": 3.9233,
      "step": 73140
    },
    {
      "epoch": 0.15239583333333334,
      "grad_norm": 0.7345757484436035,
      "learning_rate": 0.00028389626784857357,
      "loss": 3.8923,
      "step": 73150
    },
    {
      "epoch": 0.15241666666666667,
      "grad_norm": 0.9433168172836304,
      "learning_rate": 0.0002838918236511054,
      "loss": 4.068,
      "step": 73160
    },
    {
      "epoch": 0.1524375,
      "grad_norm": 0.8687768578529358,
      "learning_rate": 0.00028388737887527753,
      "loss": 4.1145,
      "step": 73170
    },
    {
      "epoch": 0.15245833333333333,
      "grad_norm": 0.8037504553794861,
      "learning_rate": 0.00028388293352110927,
      "loss": 3.8816,
      "step": 73180
    },
    {
      "epoch": 0.15247916666666667,
      "grad_norm": 0.8040510416030884,
      "learning_rate": 0.0002838784875886196,
      "loss": 4.0265,
      "step": 73190
    },
    {
      "epoch": 0.1525,
      "grad_norm": 0.8467494249343872,
      "learning_rate": 0.000283874041077828,
      "loss": 3.9374,
      "step": 73200
    },
    {
      "epoch": 0.15252083333333333,
      "grad_norm": 0.7648420929908752,
      "learning_rate": 0.0002838695939887535,
      "loss": 3.9582,
      "step": 73210
    },
    {
      "epoch": 0.15254166666666666,
      "grad_norm": 0.7715051770210266,
      "learning_rate": 0.0002838651463214152,
      "loss": 4.0835,
      "step": 73220
    },
    {
      "epoch": 0.1525625,
      "grad_norm": 0.7688460350036621,
      "learning_rate": 0.00028386069807583264,
      "loss": 4.0062,
      "step": 73230
    },
    {
      "epoch": 0.15258333333333332,
      "grad_norm": 0.7146083116531372,
      "learning_rate": 0.00028385624925202476,
      "loss": 4.0293,
      "step": 73240
    },
    {
      "epoch": 0.15260416666666668,
      "grad_norm": 0.7722119092941284,
      "learning_rate": 0.0002838517998500108,
      "loss": 3.9419,
      "step": 73250
    },
    {
      "epoch": 0.152625,
      "grad_norm": 0.7356873154640198,
      "learning_rate": 0.0002838473498698102,
      "loss": 4.12,
      "step": 73260
    },
    {
      "epoch": 0.15264583333333334,
      "grad_norm": 0.7520571351051331,
      "learning_rate": 0.00028384289931144196,
      "loss": 3.9967,
      "step": 73270
    },
    {
      "epoch": 0.15266666666666667,
      "grad_norm": 0.6952807903289795,
      "learning_rate": 0.00028383844817492536,
      "loss": 4.2289,
      "step": 73280
    },
    {
      "epoch": 0.1526875,
      "grad_norm": 0.8427094221115112,
      "learning_rate": 0.0002838339964602797,
      "loss": 3.9082,
      "step": 73290
    },
    {
      "epoch": 0.15270833333333333,
      "grad_norm": 0.827663242816925,
      "learning_rate": 0.00028382954416752407,
      "loss": 4.0389,
      "step": 73300
    },
    {
      "epoch": 0.15272916666666667,
      "grad_norm": 0.9176377654075623,
      "learning_rate": 0.0002838250912966778,
      "loss": 4.1204,
      "step": 73310
    },
    {
      "epoch": 0.15275,
      "grad_norm": 0.8079107403755188,
      "learning_rate": 0.00028382063784776013,
      "loss": 4.0683,
      "step": 73320
    },
    {
      "epoch": 0.15277083333333333,
      "grad_norm": 0.7335153222084045,
      "learning_rate": 0.00028381618382079024,
      "loss": 4.0067,
      "step": 73330
    },
    {
      "epoch": 0.15279166666666666,
      "grad_norm": 0.7644971013069153,
      "learning_rate": 0.00028381172921578744,
      "loss": 3.9507,
      "step": 73340
    },
    {
      "epoch": 0.1528125,
      "grad_norm": 0.8006301522254944,
      "learning_rate": 0.00028380727403277094,
      "loss": 3.9322,
      "step": 73350
    },
    {
      "epoch": 0.15283333333333332,
      "grad_norm": 0.7938095927238464,
      "learning_rate": 0.00028380281827175997,
      "loss": 4.041,
      "step": 73360
    },
    {
      "epoch": 0.15285416666666668,
      "grad_norm": 0.8033451437950134,
      "learning_rate": 0.00028379836193277377,
      "loss": 3.88,
      "step": 73370
    },
    {
      "epoch": 0.152875,
      "grad_norm": 0.7751308083534241,
      "learning_rate": 0.00028379390501583166,
      "loss": 4.0363,
      "step": 73380
    },
    {
      "epoch": 0.15289583333333334,
      "grad_norm": 0.7850701212882996,
      "learning_rate": 0.0002837894475209528,
      "loss": 4.0163,
      "step": 73390
    },
    {
      "epoch": 0.15291666666666667,
      "grad_norm": 0.7530560493469238,
      "learning_rate": 0.00028378498944815647,
      "loss": 3.9799,
      "step": 73400
    },
    {
      "epoch": 0.1529375,
      "grad_norm": 0.8355073928833008,
      "learning_rate": 0.00028378053079746194,
      "loss": 4.0634,
      "step": 73410
    },
    {
      "epoch": 0.15295833333333334,
      "grad_norm": 0.7835350036621094,
      "learning_rate": 0.00028377607156888847,
      "loss": 4.095,
      "step": 73420
    },
    {
      "epoch": 0.15297916666666667,
      "grad_norm": 0.7210692167282104,
      "learning_rate": 0.0002837716117624554,
      "loss": 3.8746,
      "step": 73430
    },
    {
      "epoch": 0.153,
      "grad_norm": 0.8039471507072449,
      "learning_rate": 0.00028376715137818184,
      "loss": 3.9442,
      "step": 73440
    },
    {
      "epoch": 0.15302083333333333,
      "grad_norm": 0.7650304436683655,
      "learning_rate": 0.00028376269041608716,
      "loss": 4.0332,
      "step": 73450
    },
    {
      "epoch": 0.15304166666666666,
      "grad_norm": 0.7592710852622986,
      "learning_rate": 0.00028375822887619057,
      "loss": 3.9801,
      "step": 73460
    },
    {
      "epoch": 0.1530625,
      "grad_norm": 0.8189033269882202,
      "learning_rate": 0.0002837537667585114,
      "loss": 4.2142,
      "step": 73470
    },
    {
      "epoch": 0.15308333333333332,
      "grad_norm": 0.7113751173019409,
      "learning_rate": 0.00028374930406306896,
      "loss": 4.0691,
      "step": 73480
    },
    {
      "epoch": 0.15310416666666668,
      "grad_norm": 0.7578450441360474,
      "learning_rate": 0.0002837448407898824,
      "loss": 3.9702,
      "step": 73490
    },
    {
      "epoch": 0.153125,
      "grad_norm": 0.7560532093048096,
      "learning_rate": 0.0002837403769389711,
      "loss": 3.9826,
      "step": 73500
    },
    {
      "epoch": 0.15314583333333334,
      "grad_norm": 0.8160309791564941,
      "learning_rate": 0.00028373591251035425,
      "loss": 4.1464,
      "step": 73510
    },
    {
      "epoch": 0.15316666666666667,
      "grad_norm": 0.7979289293289185,
      "learning_rate": 0.00028373144750405124,
      "loss": 4.2059,
      "step": 73520
    },
    {
      "epoch": 0.1531875,
      "grad_norm": 1.3935414552688599,
      "learning_rate": 0.0002837269819200813,
      "loss": 3.9896,
      "step": 73530
    },
    {
      "epoch": 0.15320833333333334,
      "grad_norm": 0.7592385411262512,
      "learning_rate": 0.00028372251575846375,
      "loss": 3.8376,
      "step": 73540
    },
    {
      "epoch": 0.15322916666666667,
      "grad_norm": 0.9285362362861633,
      "learning_rate": 0.00028371804901921785,
      "loss": 4.0821,
      "step": 73550
    },
    {
      "epoch": 0.15325,
      "grad_norm": 0.8936423063278198,
      "learning_rate": 0.0002837135817023629,
      "loss": 3.8755,
      "step": 73560
    },
    {
      "epoch": 0.15327083333333333,
      "grad_norm": 0.7954498529434204,
      "learning_rate": 0.0002837091138079182,
      "loss": 3.8762,
      "step": 73570
    },
    {
      "epoch": 0.15329166666666666,
      "grad_norm": 0.8194359540939331,
      "learning_rate": 0.0002837046453359031,
      "loss": 3.857,
      "step": 73580
    },
    {
      "epoch": 0.1533125,
      "grad_norm": 0.8303548097610474,
      "learning_rate": 0.00028370017628633683,
      "loss": 3.9694,
      "step": 73590
    },
    {
      "epoch": 0.15333333333333332,
      "grad_norm": 0.7597904205322266,
      "learning_rate": 0.0002836957066592387,
      "loss": 3.8603,
      "step": 73600
    },
    {
      "epoch": 0.15335416666666668,
      "grad_norm": 0.7998079061508179,
      "learning_rate": 0.00028369123645462805,
      "loss": 4.0151,
      "step": 73610
    },
    {
      "epoch": 0.153375,
      "grad_norm": 0.7875493764877319,
      "learning_rate": 0.0002836867656725242,
      "loss": 4.031,
      "step": 73620
    },
    {
      "epoch": 0.15339583333333334,
      "grad_norm": 0.7740491032600403,
      "learning_rate": 0.0002836822943129464,
      "loss": 3.9649,
      "step": 73630
    },
    {
      "epoch": 0.15341666666666667,
      "grad_norm": 0.8287675380706787,
      "learning_rate": 0.00028367782237591403,
      "loss": 3.9921,
      "step": 73640
    },
    {
      "epoch": 0.1534375,
      "grad_norm": 0.8252224326133728,
      "learning_rate": 0.00028367334986144637,
      "loss": 3.8955,
      "step": 73650
    },
    {
      "epoch": 0.15345833333333334,
      "grad_norm": 0.8693181276321411,
      "learning_rate": 0.00028366887676956276,
      "loss": 4.1401,
      "step": 73660
    },
    {
      "epoch": 0.15347916666666667,
      "grad_norm": 0.8157568573951721,
      "learning_rate": 0.00028366440310028247,
      "loss": 3.9597,
      "step": 73670
    },
    {
      "epoch": 0.1535,
      "grad_norm": 0.822344183921814,
      "learning_rate": 0.00028365992885362495,
      "loss": 3.9391,
      "step": 73680
    },
    {
      "epoch": 0.15352083333333333,
      "grad_norm": 0.9049589037895203,
      "learning_rate": 0.0002836554540296094,
      "loss": 3.9783,
      "step": 73690
    },
    {
      "epoch": 0.15354166666666666,
      "grad_norm": 0.7346199750900269,
      "learning_rate": 0.00028365097862825513,
      "loss": 3.8874,
      "step": 73700
    },
    {
      "epoch": 0.1535625,
      "grad_norm": 0.8062243461608887,
      "learning_rate": 0.00028364650264958165,
      "loss": 4.1499,
      "step": 73710
    },
    {
      "epoch": 0.15358333333333332,
      "grad_norm": 0.7193365693092346,
      "learning_rate": 0.0002836420260936081,
      "loss": 4.0235,
      "step": 73720
    },
    {
      "epoch": 0.15360416666666668,
      "grad_norm": 0.787533164024353,
      "learning_rate": 0.00028363754896035395,
      "loss": 3.983,
      "step": 73730
    },
    {
      "epoch": 0.153625,
      "grad_norm": 0.8192620873451233,
      "learning_rate": 0.0002836330712498384,
      "loss": 4.0264,
      "step": 73740
    },
    {
      "epoch": 0.15364583333333334,
      "grad_norm": 0.709965705871582,
      "learning_rate": 0.00028362859296208093,
      "loss": 4.0014,
      "step": 73750
    },
    {
      "epoch": 0.15366666666666667,
      "grad_norm": 0.6903032660484314,
      "learning_rate": 0.00028362411409710086,
      "loss": 4.1528,
      "step": 73760
    },
    {
      "epoch": 0.1536875,
      "grad_norm": 0.8671177625656128,
      "learning_rate": 0.00028361963465491747,
      "loss": 3.7804,
      "step": 73770
    },
    {
      "epoch": 0.15370833333333334,
      "grad_norm": 0.7458586692810059,
      "learning_rate": 0.00028361515463555016,
      "loss": 4.028,
      "step": 73780
    },
    {
      "epoch": 0.15372916666666667,
      "grad_norm": 0.7680201530456543,
      "learning_rate": 0.0002836106740390183,
      "loss": 4.161,
      "step": 73790
    },
    {
      "epoch": 0.15375,
      "grad_norm": 0.8758038282394409,
      "learning_rate": 0.0002836061928653412,
      "loss": 3.9732,
      "step": 73800
    },
    {
      "epoch": 0.15377083333333333,
      "grad_norm": 0.7092270255088806,
      "learning_rate": 0.00028360171111453816,
      "loss": 3.9179,
      "step": 73810
    },
    {
      "epoch": 0.15379166666666666,
      "grad_norm": 0.7810970544815063,
      "learning_rate": 0.0002835972287866287,
      "loss": 4.0487,
      "step": 73820
    },
    {
      "epoch": 0.1538125,
      "grad_norm": 0.7219531536102295,
      "learning_rate": 0.00028359274588163206,
      "loss": 4.0425,
      "step": 73830
    },
    {
      "epoch": 0.15383333333333332,
      "grad_norm": 0.6883900165557861,
      "learning_rate": 0.00028358826239956766,
      "loss": 3.9364,
      "step": 73840
    },
    {
      "epoch": 0.15385416666666665,
      "grad_norm": 0.6988272070884705,
      "learning_rate": 0.0002835837783404548,
      "loss": 3.9364,
      "step": 73850
    },
    {
      "epoch": 0.153875,
      "grad_norm": 0.6967785954475403,
      "learning_rate": 0.00028357929370431294,
      "loss": 4.1574,
      "step": 73860
    },
    {
      "epoch": 0.15389583333333334,
      "grad_norm": 0.832975447177887,
      "learning_rate": 0.0002835748084911614,
      "loss": 3.9732,
      "step": 73870
    },
    {
      "epoch": 0.15391666666666667,
      "grad_norm": 0.8089030981063843,
      "learning_rate": 0.0002835703227010196,
      "loss": 4.0968,
      "step": 73880
    },
    {
      "epoch": 0.1539375,
      "grad_norm": 0.7326657772064209,
      "learning_rate": 0.00028356583633390675,
      "loss": 4.0256,
      "step": 73890
    },
    {
      "epoch": 0.15395833333333334,
      "grad_norm": 0.6976575255393982,
      "learning_rate": 0.00028356134938984246,
      "loss": 4.1072,
      "step": 73900
    },
    {
      "epoch": 0.15397916666666667,
      "grad_norm": 0.8250044584274292,
      "learning_rate": 0.00028355686186884595,
      "loss": 4.1239,
      "step": 73910
    },
    {
      "epoch": 0.154,
      "grad_norm": 0.8209596872329712,
      "learning_rate": 0.0002835523737709367,
      "loss": 3.9264,
      "step": 73920
    },
    {
      "epoch": 0.15402083333333333,
      "grad_norm": 0.7477697730064392,
      "learning_rate": 0.000283547885096134,
      "loss": 3.9181,
      "step": 73930
    },
    {
      "epoch": 0.15404166666666666,
      "grad_norm": 0.708919107913971,
      "learning_rate": 0.0002835433958444574,
      "loss": 3.8325,
      "step": 73940
    },
    {
      "epoch": 0.1540625,
      "grad_norm": 0.8785334229469299,
      "learning_rate": 0.00028353890601592614,
      "loss": 3.9662,
      "step": 73950
    },
    {
      "epoch": 0.15408333333333332,
      "grad_norm": 0.7577531933784485,
      "learning_rate": 0.00028353441561055964,
      "loss": 3.7741,
      "step": 73960
    },
    {
      "epoch": 0.15410416666666665,
      "grad_norm": 0.7160803079605103,
      "learning_rate": 0.00028352992462837736,
      "loss": 3.947,
      "step": 73970
    },
    {
      "epoch": 0.154125,
      "grad_norm": 0.7292088270187378,
      "learning_rate": 0.0002835254330693986,
      "loss": 4.0908,
      "step": 73980
    },
    {
      "epoch": 0.15414583333333334,
      "grad_norm": 0.671909749507904,
      "learning_rate": 0.0002835209409336429,
      "loss": 4.0251,
      "step": 73990
    },
    {
      "epoch": 0.15416666666666667,
      "grad_norm": 0.6892721652984619,
      "learning_rate": 0.0002835164482211295,
      "loss": 4.0327,
      "step": 74000
    },
    {
      "epoch": 0.15416666666666667,
      "eval_loss": 4.283780574798584,
      "eval_runtime": 10.0265,
      "eval_samples_per_second": 0.997,
      "eval_steps_per_second": 0.299,
      "step": 74000
    },
    {
      "epoch": 0.1541875,
      "grad_norm": 0.7777121067047119,
      "learning_rate": 0.00028351195493187795,
      "loss": 3.895,
      "step": 74010
    },
    {
      "epoch": 0.15420833333333334,
      "grad_norm": 0.733920693397522,
      "learning_rate": 0.00028350746106590763,
      "loss": 4.0647,
      "step": 74020
    },
    {
      "epoch": 0.15422916666666667,
      "grad_norm": 0.6507008671760559,
      "learning_rate": 0.00028350296662323787,
      "loss": 3.8509,
      "step": 74030
    },
    {
      "epoch": 0.15425,
      "grad_norm": 0.833376944065094,
      "learning_rate": 0.0002834984716038882,
      "loss": 4.0186,
      "step": 74040
    },
    {
      "epoch": 0.15427083333333333,
      "grad_norm": 0.8900867104530334,
      "learning_rate": 0.00028349397600787793,
      "loss": 4.1141,
      "step": 74050
    },
    {
      "epoch": 0.15429166666666666,
      "grad_norm": 0.7419366836547852,
      "learning_rate": 0.0002834894798352265,
      "loss": 4.0453,
      "step": 74060
    },
    {
      "epoch": 0.1543125,
      "grad_norm": 0.6885731220245361,
      "learning_rate": 0.0002834849830859534,
      "loss": 4.1278,
      "step": 74070
    },
    {
      "epoch": 0.15433333333333332,
      "grad_norm": 0.9258619546890259,
      "learning_rate": 0.000283480485760078,
      "loss": 3.8765,
      "step": 74080
    },
    {
      "epoch": 0.15435416666666665,
      "grad_norm": 0.7779691219329834,
      "learning_rate": 0.00028347598785761975,
      "loss": 4.0027,
      "step": 74090
    },
    {
      "epoch": 0.154375,
      "grad_norm": 0.8266304135322571,
      "learning_rate": 0.000283471489378598,
      "loss": 3.8708,
      "step": 74100
    },
    {
      "epoch": 0.15439583333333334,
      "grad_norm": 0.7437942028045654,
      "learning_rate": 0.0002834669903230323,
      "loss": 3.6922,
      "step": 74110
    },
    {
      "epoch": 0.15441666666666667,
      "grad_norm": 0.7675392031669617,
      "learning_rate": 0.00028346249069094204,
      "loss": 4.0626,
      "step": 74120
    },
    {
      "epoch": 0.1544375,
      "grad_norm": 0.7813106775283813,
      "learning_rate": 0.0002834579904823467,
      "loss": 4.1491,
      "step": 74130
    },
    {
      "epoch": 0.15445833333333334,
      "grad_norm": 0.7985984086990356,
      "learning_rate": 0.00028345348969726556,
      "loss": 4.0049,
      "step": 74140
    },
    {
      "epoch": 0.15447916666666667,
      "grad_norm": 0.7868517637252808,
      "learning_rate": 0.00028344898833571817,
      "loss": 4.0591,
      "step": 74150
    },
    {
      "epoch": 0.1545,
      "grad_norm": 0.798766553401947,
      "learning_rate": 0.000283444486397724,
      "loss": 3.9644,
      "step": 74160
    },
    {
      "epoch": 0.15452083333333333,
      "grad_norm": 0.7904515862464905,
      "learning_rate": 0.0002834399838833025,
      "loss": 4.0561,
      "step": 74170
    },
    {
      "epoch": 0.15454166666666666,
      "grad_norm": 0.8406566977500916,
      "learning_rate": 0.00028343548079247307,
      "loss": 3.8442,
      "step": 74180
    },
    {
      "epoch": 0.1545625,
      "grad_norm": 0.8060728311538696,
      "learning_rate": 0.0002834309771252552,
      "loss": 3.849,
      "step": 74190
    },
    {
      "epoch": 0.15458333333333332,
      "grad_norm": 0.741301953792572,
      "learning_rate": 0.0002834264728816683,
      "loss": 4.0383,
      "step": 74200
    },
    {
      "epoch": 0.15460416666666665,
      "grad_norm": 0.6978849172592163,
      "learning_rate": 0.00028342196806173186,
      "loss": 3.8633,
      "step": 74210
    },
    {
      "epoch": 0.154625,
      "grad_norm": 0.861434280872345,
      "learning_rate": 0.00028341746266546535,
      "loss": 4.0145,
      "step": 74220
    },
    {
      "epoch": 0.15464583333333334,
      "grad_norm": 0.6940504312515259,
      "learning_rate": 0.0002834129566928882,
      "loss": 4.129,
      "step": 74230
    },
    {
      "epoch": 0.15466666666666667,
      "grad_norm": 0.7726131081581116,
      "learning_rate": 0.00028340845014401985,
      "loss": 3.9589,
      "step": 74240
    },
    {
      "epoch": 0.1546875,
      "grad_norm": 0.7230958342552185,
      "learning_rate": 0.00028340394301887983,
      "loss": 3.9849,
      "step": 74250
    },
    {
      "epoch": 0.15470833333333334,
      "grad_norm": 0.839603841304779,
      "learning_rate": 0.0002833994353174876,
      "loss": 3.9395,
      "step": 74260
    },
    {
      "epoch": 0.15472916666666667,
      "grad_norm": 0.852306067943573,
      "learning_rate": 0.0002833949270398626,
      "loss": 3.8796,
      "step": 74270
    },
    {
      "epoch": 0.15475,
      "grad_norm": 0.7826898097991943,
      "learning_rate": 0.0002833904181860243,
      "loss": 3.9891,
      "step": 74280
    },
    {
      "epoch": 0.15477083333333333,
      "grad_norm": 0.7693696022033691,
      "learning_rate": 0.00028338590875599215,
      "loss": 4.034,
      "step": 74290
    },
    {
      "epoch": 0.15479166666666666,
      "grad_norm": 1.066893458366394,
      "learning_rate": 0.0002833813987497857,
      "loss": 4.0199,
      "step": 74300
    },
    {
      "epoch": 0.1548125,
      "grad_norm": 0.8082525134086609,
      "learning_rate": 0.00028337688816742443,
      "loss": 4.0038,
      "step": 74310
    },
    {
      "epoch": 0.15483333333333332,
      "grad_norm": 0.7809162735939026,
      "learning_rate": 0.0002833723770089278,
      "loss": 3.8246,
      "step": 74320
    },
    {
      "epoch": 0.15485416666666665,
      "grad_norm": 0.7808398008346558,
      "learning_rate": 0.00028336786527431533,
      "loss": 3.7959,
      "step": 74330
    },
    {
      "epoch": 0.154875,
      "grad_norm": 0.764299750328064,
      "learning_rate": 0.00028336335296360644,
      "loss": 3.9448,
      "step": 74340
    },
    {
      "epoch": 0.15489583333333334,
      "grad_norm": 0.9053197503089905,
      "learning_rate": 0.00028335884007682065,
      "loss": 3.8515,
      "step": 74350
    },
    {
      "epoch": 0.15491666666666667,
      "grad_norm": 0.7905935645103455,
      "learning_rate": 0.00028335432661397744,
      "loss": 3.8667,
      "step": 74360
    },
    {
      "epoch": 0.1549375,
      "grad_norm": 0.7395516633987427,
      "learning_rate": 0.00028334981257509636,
      "loss": 4.0472,
      "step": 74370
    },
    {
      "epoch": 0.15495833333333334,
      "grad_norm": 0.7712090015411377,
      "learning_rate": 0.00028334529796019683,
      "loss": 3.9215,
      "step": 74380
    },
    {
      "epoch": 0.15497916666666667,
      "grad_norm": 0.7608568668365479,
      "learning_rate": 0.0002833407827692984,
      "loss": 3.9064,
      "step": 74390
    },
    {
      "epoch": 0.155,
      "grad_norm": 0.8871476054191589,
      "learning_rate": 0.0002833362670024206,
      "loss": 3.8726,
      "step": 74400
    },
    {
      "epoch": 0.15502083333333333,
      "grad_norm": 0.8368592262268066,
      "learning_rate": 0.0002833317506595829,
      "loss": 3.8461,
      "step": 74410
    },
    {
      "epoch": 0.15504166666666666,
      "grad_norm": 0.9319838285446167,
      "learning_rate": 0.00028332723374080475,
      "loss": 3.9123,
      "step": 74420
    },
    {
      "epoch": 0.1550625,
      "grad_norm": 0.8985961079597473,
      "learning_rate": 0.0002833227162461058,
      "loss": 3.9965,
      "step": 74430
    },
    {
      "epoch": 0.15508333333333332,
      "grad_norm": 0.7412881255149841,
      "learning_rate": 0.0002833181981755055,
      "loss": 4.1284,
      "step": 74440
    },
    {
      "epoch": 0.15510416666666665,
      "grad_norm": 0.8004097938537598,
      "learning_rate": 0.00028331367952902326,
      "loss": 3.9482,
      "step": 74450
    },
    {
      "epoch": 0.155125,
      "grad_norm": 0.7659456133842468,
      "learning_rate": 0.0002833091603066788,
      "loss": 3.7329,
      "step": 74460
    },
    {
      "epoch": 0.15514583333333334,
      "grad_norm": 0.9894313216209412,
      "learning_rate": 0.00028330464050849147,
      "loss": 4.0193,
      "step": 74470
    },
    {
      "epoch": 0.15516666666666667,
      "grad_norm": 0.7359451651573181,
      "learning_rate": 0.00028330012013448087,
      "loss": 4.1081,
      "step": 74480
    },
    {
      "epoch": 0.1551875,
      "grad_norm": 0.9135481715202332,
      "learning_rate": 0.00028329559918466654,
      "loss": 3.8511,
      "step": 74490
    },
    {
      "epoch": 0.15520833333333334,
      "grad_norm": 0.8564267158508301,
      "learning_rate": 0.00028329107765906795,
      "loss": 3.7711,
      "step": 74500
    },
    {
      "epoch": 0.15522916666666667,
      "grad_norm": 0.7380326390266418,
      "learning_rate": 0.0002832865555577047,
      "loss": 4.1417,
      "step": 74510
    },
    {
      "epoch": 0.15525,
      "grad_norm": 0.7813717126846313,
      "learning_rate": 0.00028328203288059624,
      "loss": 4.0239,
      "step": 74520
    },
    {
      "epoch": 0.15527083333333333,
      "grad_norm": 0.8706365823745728,
      "learning_rate": 0.0002832775096277622,
      "loss": 3.968,
      "step": 74530
    },
    {
      "epoch": 0.15529166666666666,
      "grad_norm": 0.9258253574371338,
      "learning_rate": 0.00028327298579922203,
      "loss": 3.881,
      "step": 74540
    },
    {
      "epoch": 0.1553125,
      "grad_norm": 0.7382897138595581,
      "learning_rate": 0.00028326846139499533,
      "loss": 3.8864,
      "step": 74550
    },
    {
      "epoch": 0.15533333333333332,
      "grad_norm": 0.7979393005371094,
      "learning_rate": 0.00028326393641510167,
      "loss": 3.9732,
      "step": 74560
    },
    {
      "epoch": 0.15535416666666665,
      "grad_norm": 0.7758294343948364,
      "learning_rate": 0.0002832594108595605,
      "loss": 3.9235,
      "step": 74570
    },
    {
      "epoch": 0.155375,
      "grad_norm": 0.8742675185203552,
      "learning_rate": 0.00028325488472839144,
      "loss": 3.8543,
      "step": 74580
    },
    {
      "epoch": 0.15539583333333334,
      "grad_norm": 0.8914968967437744,
      "learning_rate": 0.00028325035802161406,
      "loss": 4.0674,
      "step": 74590
    },
    {
      "epoch": 0.15541666666666668,
      "grad_norm": 0.726053774356842,
      "learning_rate": 0.00028324583073924785,
      "loss": 4.0089,
      "step": 74600
    },
    {
      "epoch": 0.1554375,
      "grad_norm": 0.7506197094917297,
      "learning_rate": 0.0002832413028813124,
      "loss": 4.052,
      "step": 74610
    },
    {
      "epoch": 0.15545833333333334,
      "grad_norm": 0.8418910503387451,
      "learning_rate": 0.00028323677444782723,
      "loss": 4.0174,
      "step": 74620
    },
    {
      "epoch": 0.15547916666666667,
      "grad_norm": 0.7669274806976318,
      "learning_rate": 0.000283232245438812,
      "loss": 3.9461,
      "step": 74630
    },
    {
      "epoch": 0.1555,
      "grad_norm": 0.9000797867774963,
      "learning_rate": 0.0002832277158542861,
      "loss": 4.0901,
      "step": 74640
    },
    {
      "epoch": 0.15552083333333333,
      "grad_norm": 0.8246632814407349,
      "learning_rate": 0.0002832231856942693,
      "loss": 3.9433,
      "step": 74650
    },
    {
      "epoch": 0.15554166666666666,
      "grad_norm": 0.7363452911376953,
      "learning_rate": 0.000283218654958781,
      "loss": 4.0827,
      "step": 74660
    },
    {
      "epoch": 0.1555625,
      "grad_norm": 0.883378267288208,
      "learning_rate": 0.0002832141236478409,
      "loss": 4.0913,
      "step": 74670
    },
    {
      "epoch": 0.15558333333333332,
      "grad_norm": 0.7422046661376953,
      "learning_rate": 0.0002832095917614685,
      "loss": 3.9332,
      "step": 74680
    },
    {
      "epoch": 0.15560416666666665,
      "grad_norm": 0.7264895439147949,
      "learning_rate": 0.0002832050592996834,
      "loss": 3.9544,
      "step": 74690
    },
    {
      "epoch": 0.155625,
      "grad_norm": 0.8372377157211304,
      "learning_rate": 0.00028320052626250514,
      "loss": 3.9209,
      "step": 74700
    },
    {
      "epoch": 0.15564583333333334,
      "grad_norm": 0.7496258020401001,
      "learning_rate": 0.00028319599264995337,
      "loss": 4.0893,
      "step": 74710
    },
    {
      "epoch": 0.15566666666666668,
      "grad_norm": 0.7789977788925171,
      "learning_rate": 0.0002831914584620476,
      "loss": 3.8135,
      "step": 74720
    },
    {
      "epoch": 0.1556875,
      "grad_norm": 0.8583061695098877,
      "learning_rate": 0.00028318692369880743,
      "loss": 4.1,
      "step": 74730
    },
    {
      "epoch": 0.15570833333333334,
      "grad_norm": 0.8171669244766235,
      "learning_rate": 0.0002831823883602525,
      "loss": 3.9395,
      "step": 74740
    },
    {
      "epoch": 0.15572916666666667,
      "grad_norm": 0.7158638834953308,
      "learning_rate": 0.0002831778524464024,
      "loss": 3.9229,
      "step": 74750
    },
    {
      "epoch": 0.15575,
      "grad_norm": 0.9157170653343201,
      "learning_rate": 0.0002831733159572767,
      "loss": 3.9164,
      "step": 74760
    },
    {
      "epoch": 0.15577083333333333,
      "grad_norm": 0.7919090390205383,
      "learning_rate": 0.00028316877889289493,
      "loss": 3.8648,
      "step": 74770
    },
    {
      "epoch": 0.15579166666666666,
      "grad_norm": 0.7721575498580933,
      "learning_rate": 0.00028316424125327677,
      "loss": 3.8953,
      "step": 74780
    },
    {
      "epoch": 0.1558125,
      "grad_norm": 0.759651243686676,
      "learning_rate": 0.00028315970303844176,
      "loss": 4.0241,
      "step": 74790
    },
    {
      "epoch": 0.15583333333333332,
      "grad_norm": 0.7491286993026733,
      "learning_rate": 0.00028315516424840963,
      "loss": 3.9421,
      "step": 74800
    },
    {
      "epoch": 0.15585416666666665,
      "grad_norm": 0.7453456521034241,
      "learning_rate": 0.00028315062488319984,
      "loss": 3.9273,
      "step": 74810
    },
    {
      "epoch": 0.155875,
      "grad_norm": 0.6912851333618164,
      "learning_rate": 0.000283146084942832,
      "loss": 3.9494,
      "step": 74820
    },
    {
      "epoch": 0.15589583333333334,
      "grad_norm": 0.9785271883010864,
      "learning_rate": 0.00028314154442732586,
      "loss": 3.7434,
      "step": 74830
    },
    {
      "epoch": 0.15591666666666668,
      "grad_norm": 0.7941310405731201,
      "learning_rate": 0.0002831370033367009,
      "loss": 3.8623,
      "step": 74840
    },
    {
      "epoch": 0.1559375,
      "grad_norm": 0.8088726997375488,
      "learning_rate": 0.00028313246167097685,
      "loss": 3.8937,
      "step": 74850
    },
    {
      "epoch": 0.15595833333333334,
      "grad_norm": 0.7639140486717224,
      "learning_rate": 0.0002831279194301732,
      "loss": 3.9745,
      "step": 74860
    },
    {
      "epoch": 0.15597916666666667,
      "grad_norm": 0.8269873857498169,
      "learning_rate": 0.00028312337661430965,
      "loss": 4.0387,
      "step": 74870
    },
    {
      "epoch": 0.156,
      "grad_norm": 0.7784593105316162,
      "learning_rate": 0.0002831188332234058,
      "loss": 4.2092,
      "step": 74880
    },
    {
      "epoch": 0.15602083333333333,
      "grad_norm": 0.7027403712272644,
      "learning_rate": 0.00028311428925748136,
      "loss": 3.8101,
      "step": 74890
    },
    {
      "epoch": 0.15604166666666666,
      "grad_norm": 0.6909337639808655,
      "learning_rate": 0.00028310974471655576,
      "loss": 4.0768,
      "step": 74900
    },
    {
      "epoch": 0.1560625,
      "grad_norm": 0.7203516960144043,
      "learning_rate": 0.0002831051996006488,
      "loss": 3.9196,
      "step": 74910
    },
    {
      "epoch": 0.15608333333333332,
      "grad_norm": 0.7892189621925354,
      "learning_rate": 0.0002831006539097801,
      "loss": 3.9966,
      "step": 74920
    },
    {
      "epoch": 0.15610416666666665,
      "grad_norm": 0.7794607877731323,
      "learning_rate": 0.0002830961076439692,
      "loss": 3.8825,
      "step": 74930
    },
    {
      "epoch": 0.156125,
      "grad_norm": 0.801398515701294,
      "learning_rate": 0.00028309156080323584,
      "loss": 4.1467,
      "step": 74940
    },
    {
      "epoch": 0.15614583333333334,
      "grad_norm": 0.899466872215271,
      "learning_rate": 0.00028308701338759963,
      "loss": 4.0464,
      "step": 74950
    },
    {
      "epoch": 0.15616666666666668,
      "grad_norm": 0.8653557300567627,
      "learning_rate": 0.0002830824653970802,
      "loss": 4.194,
      "step": 74960
    },
    {
      "epoch": 0.1561875,
      "grad_norm": 0.7732663750648499,
      "learning_rate": 0.00028307791683169716,
      "loss": 4.0648,
      "step": 74970
    },
    {
      "epoch": 0.15620833333333334,
      "grad_norm": 0.7247009873390198,
      "learning_rate": 0.0002830733676914702,
      "loss": 3.8168,
      "step": 74980
    },
    {
      "epoch": 0.15622916666666667,
      "grad_norm": 0.8430490493774414,
      "learning_rate": 0.000283068817976419,
      "loss": 4.0307,
      "step": 74990
    },
    {
      "epoch": 0.15625,
      "grad_norm": 0.9032727479934692,
      "learning_rate": 0.00028306426768656315,
      "loss": 4.0919,
      "step": 75000
    },
    {
      "epoch": 0.15625,
      "eval_loss": 4.294827461242676,
      "eval_runtime": 10.3173,
      "eval_samples_per_second": 0.969,
      "eval_steps_per_second": 0.291,
      "step": 75000
    },
    {
      "epoch": 0.15627083333333333,
      "grad_norm": 0.7757003307342529,
      "learning_rate": 0.00028305971682192235,
      "loss": 4.1201,
      "step": 75010
    },
    {
      "epoch": 0.15629166666666666,
      "grad_norm": 0.7746261358261108,
      "learning_rate": 0.0002830551653825162,
      "loss": 3.9816,
      "step": 75020
    },
    {
      "epoch": 0.1563125,
      "grad_norm": 0.9182020425796509,
      "learning_rate": 0.0002830506133683645,
      "loss": 4.0319,
      "step": 75030
    },
    {
      "epoch": 0.15633333333333332,
      "grad_norm": 0.7626779675483704,
      "learning_rate": 0.0002830460607794867,
      "loss": 4.0332,
      "step": 75040
    },
    {
      "epoch": 0.15635416666666666,
      "grad_norm": 0.7736157178878784,
      "learning_rate": 0.00028304150761590264,
      "loss": 3.831,
      "step": 75050
    },
    {
      "epoch": 0.156375,
      "grad_norm": 0.8082687258720398,
      "learning_rate": 0.00028303695387763196,
      "loss": 3.9608,
      "step": 75060
    },
    {
      "epoch": 0.15639583333333335,
      "grad_norm": 0.7461254000663757,
      "learning_rate": 0.0002830323995646943,
      "loss": 3.9867,
      "step": 75070
    },
    {
      "epoch": 0.15641666666666668,
      "grad_norm": 0.931937038898468,
      "learning_rate": 0.0002830278446771092,
      "loss": 3.9162,
      "step": 75080
    },
    {
      "epoch": 0.1564375,
      "grad_norm": 0.7474852204322815,
      "learning_rate": 0.0002830232892148966,
      "loss": 3.9125,
      "step": 75090
    },
    {
      "epoch": 0.15645833333333334,
      "grad_norm": 0.9105162620544434,
      "learning_rate": 0.000283018733178076,
      "loss": 3.9957,
      "step": 75100
    },
    {
      "epoch": 0.15647916666666667,
      "grad_norm": 0.9142236113548279,
      "learning_rate": 0.0002830141765666671,
      "loss": 4.0368,
      "step": 75110
    },
    {
      "epoch": 0.1565,
      "grad_norm": 0.7089110612869263,
      "learning_rate": 0.00028300961938068967,
      "loss": 3.8386,
      "step": 75120
    },
    {
      "epoch": 0.15652083333333333,
      "grad_norm": 0.7883853912353516,
      "learning_rate": 0.0002830050616201633,
      "loss": 4.0413,
      "step": 75130
    },
    {
      "epoch": 0.15654166666666666,
      "grad_norm": 0.7496956586837769,
      "learning_rate": 0.0002830005032851077,
      "loss": 3.9571,
      "step": 75140
    },
    {
      "epoch": 0.1565625,
      "grad_norm": 0.8716757297515869,
      "learning_rate": 0.0002829959443755426,
      "loss": 4.1665,
      "step": 75150
    },
    {
      "epoch": 0.15658333333333332,
      "grad_norm": 0.8706633448600769,
      "learning_rate": 0.0002829913848914876,
      "loss": 3.8684,
      "step": 75160
    },
    {
      "epoch": 0.15660416666666666,
      "grad_norm": 0.7000560164451599,
      "learning_rate": 0.0002829868248329625,
      "loss": 4.0183,
      "step": 75170
    },
    {
      "epoch": 0.156625,
      "grad_norm": 0.743086576461792,
      "learning_rate": 0.000282982264199987,
      "loss": 3.9112,
      "step": 75180
    },
    {
      "epoch": 0.15664583333333335,
      "grad_norm": 0.8093251585960388,
      "learning_rate": 0.0002829777029925807,
      "loss": 3.8349,
      "step": 75190
    },
    {
      "epoch": 0.15666666666666668,
      "grad_norm": 0.7323092222213745,
      "learning_rate": 0.0002829731412107634,
      "loss": 3.8805,
      "step": 75200
    },
    {
      "epoch": 0.1566875,
      "grad_norm": 0.884686291217804,
      "learning_rate": 0.0002829685788545547,
      "loss": 4.1359,
      "step": 75210
    },
    {
      "epoch": 0.15670833333333334,
      "grad_norm": 0.7528038620948792,
      "learning_rate": 0.0002829640159239744,
      "loss": 4.0419,
      "step": 75220
    },
    {
      "epoch": 0.15672916666666667,
      "grad_norm": 0.8092496395111084,
      "learning_rate": 0.0002829594524190422,
      "loss": 3.9373,
      "step": 75230
    },
    {
      "epoch": 0.15675,
      "grad_norm": 0.7876416444778442,
      "learning_rate": 0.0002829548883397778,
      "loss": 4.1648,
      "step": 75240
    },
    {
      "epoch": 0.15677083333333333,
      "grad_norm": 0.7210633158683777,
      "learning_rate": 0.0002829503236862009,
      "loss": 3.8416,
      "step": 75250
    },
    {
      "epoch": 0.15679166666666666,
      "grad_norm": 0.7232616543769836,
      "learning_rate": 0.00028294575845833124,
      "loss": 4.0833,
      "step": 75260
    },
    {
      "epoch": 0.1568125,
      "grad_norm": 0.7114320397377014,
      "learning_rate": 0.0002829411926561885,
      "loss": 3.8361,
      "step": 75270
    },
    {
      "epoch": 0.15683333333333332,
      "grad_norm": 0.7165527939796448,
      "learning_rate": 0.0002829366262797925,
      "loss": 3.832,
      "step": 75280
    },
    {
      "epoch": 0.15685416666666666,
      "grad_norm": 0.7345494627952576,
      "learning_rate": 0.0002829320593291628,
      "loss": 4.1464,
      "step": 75290
    },
    {
      "epoch": 0.156875,
      "grad_norm": 0.9463992714881897,
      "learning_rate": 0.00028292749180431926,
      "loss": 3.9632,
      "step": 75300
    },
    {
      "epoch": 0.15689583333333335,
      "grad_norm": 0.759655237197876,
      "learning_rate": 0.00028292292370528155,
      "loss": 4.0121,
      "step": 75310
    },
    {
      "epoch": 0.15691666666666668,
      "grad_norm": 0.7070793509483337,
      "learning_rate": 0.00028291835503206945,
      "loss": 3.8624,
      "step": 75320
    },
    {
      "epoch": 0.1569375,
      "grad_norm": 0.7248652577400208,
      "learning_rate": 0.00028291378578470264,
      "loss": 3.9107,
      "step": 75330
    },
    {
      "epoch": 0.15695833333333334,
      "grad_norm": 0.7431178092956543,
      "learning_rate": 0.00028290921596320096,
      "loss": 4.0116,
      "step": 75340
    },
    {
      "epoch": 0.15697916666666667,
      "grad_norm": 0.7796943187713623,
      "learning_rate": 0.000282904645567584,
      "loss": 3.925,
      "step": 75350
    },
    {
      "epoch": 0.157,
      "grad_norm": 0.7473316788673401,
      "learning_rate": 0.0002829000745978716,
      "loss": 3.9615,
      "step": 75360
    },
    {
      "epoch": 0.15702083333333333,
      "grad_norm": 0.8708781003952026,
      "learning_rate": 0.0002828955030540835,
      "loss": 4.0168,
      "step": 75370
    },
    {
      "epoch": 0.15704166666666666,
      "grad_norm": 0.7890445590019226,
      "learning_rate": 0.00028289093093623944,
      "loss": 3.8572,
      "step": 75380
    },
    {
      "epoch": 0.1570625,
      "grad_norm": 0.7362475991249084,
      "learning_rate": 0.00028288635824435913,
      "loss": 4.1805,
      "step": 75390
    },
    {
      "epoch": 0.15708333333333332,
      "grad_norm": 0.8462713956832886,
      "learning_rate": 0.00028288178497846235,
      "loss": 3.9365,
      "step": 75400
    },
    {
      "epoch": 0.15710416666666666,
      "grad_norm": 0.8394783139228821,
      "learning_rate": 0.0002828772111385689,
      "loss": 3.9892,
      "step": 75410
    },
    {
      "epoch": 0.157125,
      "grad_norm": 0.8036385774612427,
      "learning_rate": 0.00028287263672469845,
      "loss": 3.8587,
      "step": 75420
    },
    {
      "epoch": 0.15714583333333335,
      "grad_norm": 0.7561196088790894,
      "learning_rate": 0.0002828680617368708,
      "loss": 3.9055,
      "step": 75430
    },
    {
      "epoch": 0.15716666666666668,
      "grad_norm": 0.7310805320739746,
      "learning_rate": 0.0002828634861751057,
      "loss": 4.1096,
      "step": 75440
    },
    {
      "epoch": 0.1571875,
      "grad_norm": 0.8661282658576965,
      "learning_rate": 0.000282858910039423,
      "loss": 4.0184,
      "step": 75450
    },
    {
      "epoch": 0.15720833333333334,
      "grad_norm": 0.732476532459259,
      "learning_rate": 0.0002828543333298424,
      "loss": 3.892,
      "step": 75460
    },
    {
      "epoch": 0.15722916666666667,
      "grad_norm": 0.8299885988235474,
      "learning_rate": 0.0002828497560463836,
      "loss": 4.0139,
      "step": 75470
    },
    {
      "epoch": 0.15725,
      "grad_norm": 0.7175517082214355,
      "learning_rate": 0.00028284517818906647,
      "loss": 3.9803,
      "step": 75480
    },
    {
      "epoch": 0.15727083333333333,
      "grad_norm": 0.7774081230163574,
      "learning_rate": 0.00028284059975791073,
      "loss": 3.923,
      "step": 75490
    },
    {
      "epoch": 0.15729166666666666,
      "grad_norm": 0.7744555473327637,
      "learning_rate": 0.0002828360207529362,
      "loss": 3.987,
      "step": 75500
    },
    {
      "epoch": 0.1573125,
      "grad_norm": 0.8110352754592896,
      "learning_rate": 0.0002828314411741627,
      "loss": 4.0954,
      "step": 75510
    },
    {
      "epoch": 0.15733333333333333,
      "grad_norm": 0.7841536998748779,
      "learning_rate": 0.0002828268610216099,
      "loss": 4.0763,
      "step": 75520
    },
    {
      "epoch": 0.15735416666666666,
      "grad_norm": 0.7307306528091431,
      "learning_rate": 0.00028282228029529756,
      "loss": 4.0889,
      "step": 75530
    },
    {
      "epoch": 0.157375,
      "grad_norm": 0.7668660283088684,
      "learning_rate": 0.0002828176989952457,
      "loss": 3.8062,
      "step": 75540
    },
    {
      "epoch": 0.15739583333333335,
      "grad_norm": 1.111364483833313,
      "learning_rate": 0.0002828131171214738,
      "loss": 4.0511,
      "step": 75550
    },
    {
      "epoch": 0.15741666666666668,
      "grad_norm": 0.9632977843284607,
      "learning_rate": 0.0002828085346740019,
      "loss": 4.1244,
      "step": 75560
    },
    {
      "epoch": 0.1574375,
      "grad_norm": 0.7989946603775024,
      "learning_rate": 0.00028280395165284966,
      "loss": 3.9036,
      "step": 75570
    },
    {
      "epoch": 0.15745833333333334,
      "grad_norm": 0.863825261592865,
      "learning_rate": 0.00028279936805803693,
      "loss": 3.9993,
      "step": 75580
    },
    {
      "epoch": 0.15747916666666667,
      "grad_norm": 0.6984753012657166,
      "learning_rate": 0.00028279478388958346,
      "loss": 4.0045,
      "step": 75590
    },
    {
      "epoch": 0.1575,
      "grad_norm": 0.6629810333251953,
      "learning_rate": 0.00028279019914750913,
      "loss": 4.0051,
      "step": 75600
    },
    {
      "epoch": 0.15752083333333333,
      "grad_norm": 0.8555633425712585,
      "learning_rate": 0.00028278561383183375,
      "loss": 3.8364,
      "step": 75610
    },
    {
      "epoch": 0.15754166666666666,
      "grad_norm": 0.8599917888641357,
      "learning_rate": 0.000282781027942577,
      "loss": 3.9253,
      "step": 75620
    },
    {
      "epoch": 0.1575625,
      "grad_norm": 0.6819707155227661,
      "learning_rate": 0.0002827764414797588,
      "loss": 3.9887,
      "step": 75630
    },
    {
      "epoch": 0.15758333333333333,
      "grad_norm": 0.7660525441169739,
      "learning_rate": 0.0002827718544433989,
      "loss": 3.9117,
      "step": 75640
    },
    {
      "epoch": 0.15760416666666666,
      "grad_norm": 0.7988559603691101,
      "learning_rate": 0.0002827672668335172,
      "loss": 4.1743,
      "step": 75650
    },
    {
      "epoch": 0.157625,
      "grad_norm": 0.7464930415153503,
      "learning_rate": 0.0002827626786501334,
      "loss": 3.9746,
      "step": 75660
    },
    {
      "epoch": 0.15764583333333335,
      "grad_norm": 0.7660095691680908,
      "learning_rate": 0.00028275808989326745,
      "loss": 4.0881,
      "step": 75670
    },
    {
      "epoch": 0.15766666666666668,
      "grad_norm": 0.754641592502594,
      "learning_rate": 0.00028275350056293903,
      "loss": 3.9551,
      "step": 75680
    },
    {
      "epoch": 0.1576875,
      "grad_norm": 0.8997551202774048,
      "learning_rate": 0.00028274891065916807,
      "loss": 3.9043,
      "step": 75690
    },
    {
      "epoch": 0.15770833333333334,
      "grad_norm": 0.707555890083313,
      "learning_rate": 0.00028274432018197433,
      "loss": 3.9313,
      "step": 75700
    },
    {
      "epoch": 0.15772916666666667,
      "grad_norm": 0.6391733884811401,
      "learning_rate": 0.0002827397291313777,
      "loss": 4.0724,
      "step": 75710
    },
    {
      "epoch": 0.15775,
      "grad_norm": 0.7472472190856934,
      "learning_rate": 0.000282735137507398,
      "loss": 4.0522,
      "step": 75720
    },
    {
      "epoch": 0.15777083333333333,
      "grad_norm": 0.8960394859313965,
      "learning_rate": 0.000282730545310055,
      "loss": 3.9112,
      "step": 75730
    },
    {
      "epoch": 0.15779166666666666,
      "grad_norm": 0.7747138142585754,
      "learning_rate": 0.0002827259525393686,
      "loss": 4.1642,
      "step": 75740
    },
    {
      "epoch": 0.1578125,
      "grad_norm": 0.9636256098747253,
      "learning_rate": 0.0002827213591953586,
      "loss": 3.8899,
      "step": 75750
    },
    {
      "epoch": 0.15783333333333333,
      "grad_norm": 0.739754855632782,
      "learning_rate": 0.0002827167652780449,
      "loss": 3.9994,
      "step": 75760
    },
    {
      "epoch": 0.15785416666666666,
      "grad_norm": 0.7010102868080139,
      "learning_rate": 0.0002827121707874473,
      "loss": 3.9364,
      "step": 75770
    },
    {
      "epoch": 0.157875,
      "grad_norm": 0.717714250087738,
      "learning_rate": 0.00028270757572358566,
      "loss": 3.8546,
      "step": 75780
    },
    {
      "epoch": 0.15789583333333335,
      "grad_norm": 0.8208504915237427,
      "learning_rate": 0.0002827029800864798,
      "loss": 3.9711,
      "step": 75790
    },
    {
      "epoch": 0.15791666666666668,
      "grad_norm": 0.7008508443832397,
      "learning_rate": 0.00028269838387614963,
      "loss": 3.9697,
      "step": 75800
    },
    {
      "epoch": 0.1579375,
      "grad_norm": 0.8128792643547058,
      "learning_rate": 0.0002826937870926149,
      "loss": 4.0092,
      "step": 75810
    },
    {
      "epoch": 0.15795833333333334,
      "grad_norm": 0.7969948053359985,
      "learning_rate": 0.0002826891897358956,
      "loss": 4.0281,
      "step": 75820
    },
    {
      "epoch": 0.15797916666666667,
      "grad_norm": 0.8015409111976624,
      "learning_rate": 0.0002826845918060115,
      "loss": 4.0891,
      "step": 75830
    },
    {
      "epoch": 0.158,
      "grad_norm": 0.8711457848548889,
      "learning_rate": 0.0002826799933029825,
      "loss": 3.9759,
      "step": 75840
    },
    {
      "epoch": 0.15802083333333333,
      "grad_norm": 0.7980551719665527,
      "learning_rate": 0.00028267539422682845,
      "loss": 4.0469,
      "step": 75850
    },
    {
      "epoch": 0.15804166666666666,
      "grad_norm": 0.8307015299797058,
      "learning_rate": 0.00028267079457756916,
      "loss": 4.1748,
      "step": 75860
    },
    {
      "epoch": 0.1580625,
      "grad_norm": 0.7450071573257446,
      "learning_rate": 0.00028266619435522456,
      "loss": 3.8955,
      "step": 75870
    },
    {
      "epoch": 0.15808333333333333,
      "grad_norm": 0.8116423487663269,
      "learning_rate": 0.00028266159355981455,
      "loss": 4.0846,
      "step": 75880
    },
    {
      "epoch": 0.15810416666666666,
      "grad_norm": 0.7603946328163147,
      "learning_rate": 0.00028265699219135897,
      "loss": 3.9982,
      "step": 75890
    },
    {
      "epoch": 0.158125,
      "grad_norm": 1.1051918268203735,
      "learning_rate": 0.00028265239024987765,
      "loss": 3.8064,
      "step": 75900
    },
    {
      "epoch": 0.15814583333333335,
      "grad_norm": 0.8650094270706177,
      "learning_rate": 0.00028264778773539055,
      "loss": 3.8878,
      "step": 75910
    },
    {
      "epoch": 0.15816666666666668,
      "grad_norm": 0.6954330801963806,
      "learning_rate": 0.0002826431846479175,
      "loss": 3.9075,
      "step": 75920
    },
    {
      "epoch": 0.1581875,
      "grad_norm": 0.7248063087463379,
      "learning_rate": 0.0002826385809874784,
      "loss": 4.0262,
      "step": 75930
    },
    {
      "epoch": 0.15820833333333334,
      "grad_norm": 0.7589444518089294,
      "learning_rate": 0.0002826339767540931,
      "loss": 3.9346,
      "step": 75940
    },
    {
      "epoch": 0.15822916666666667,
      "grad_norm": 0.8581456542015076,
      "learning_rate": 0.0002826293719477816,
      "loss": 3.8324,
      "step": 75950
    },
    {
      "epoch": 0.15825,
      "grad_norm": 0.8212421536445618,
      "learning_rate": 0.00028262476656856365,
      "loss": 3.9996,
      "step": 75960
    },
    {
      "epoch": 0.15827083333333333,
      "grad_norm": 0.7714158892631531,
      "learning_rate": 0.00028262016061645923,
      "loss": 3.9726,
      "step": 75970
    },
    {
      "epoch": 0.15829166666666666,
      "grad_norm": 0.8194051384925842,
      "learning_rate": 0.0002826155540914882,
      "loss": 3.8854,
      "step": 75980
    },
    {
      "epoch": 0.1583125,
      "grad_norm": 0.7520144581794739,
      "learning_rate": 0.0002826109469936704,
      "loss": 3.9951,
      "step": 75990
    },
    {
      "epoch": 0.15833333333333333,
      "grad_norm": 0.7012163400650024,
      "learning_rate": 0.0002826063393230259,
      "loss": 3.9199,
      "step": 76000
    },
    {
      "epoch": 0.15833333333333333,
      "eval_loss": 4.272346496582031,
      "eval_runtime": 10.0944,
      "eval_samples_per_second": 0.991,
      "eval_steps_per_second": 0.297,
      "step": 76000
    },
    {
      "epoch": 0.15835416666666666,
      "grad_norm": 0.7953590750694275,
      "learning_rate": 0.00028260173107957454,
      "loss": 3.9434,
      "step": 76010
    },
    {
      "epoch": 0.158375,
      "grad_norm": 0.7307195663452148,
      "learning_rate": 0.00028259712226333606,
      "loss": 4.0165,
      "step": 76020
    },
    {
      "epoch": 0.15839583333333335,
      "grad_norm": 0.6790753602981567,
      "learning_rate": 0.0002825925128743306,
      "loss": 3.9749,
      "step": 76030
    },
    {
      "epoch": 0.15841666666666668,
      "grad_norm": 0.810470700263977,
      "learning_rate": 0.0002825879029125779,
      "loss": 3.861,
      "step": 76040
    },
    {
      "epoch": 0.1584375,
      "grad_norm": 0.7752151489257812,
      "learning_rate": 0.00028258329237809796,
      "loss": 3.8787,
      "step": 76050
    },
    {
      "epoch": 0.15845833333333334,
      "grad_norm": 0.7679166793823242,
      "learning_rate": 0.0002825786812709107,
      "loss": 3.9744,
      "step": 76060
    },
    {
      "epoch": 0.15847916666666667,
      "grad_norm": 0.71307373046875,
      "learning_rate": 0.000282574069591036,
      "loss": 4.014,
      "step": 76070
    },
    {
      "epoch": 0.1585,
      "grad_norm": 1.0094187259674072,
      "learning_rate": 0.0002825694573384938,
      "loss": 4.1499,
      "step": 76080
    },
    {
      "epoch": 0.15852083333333333,
      "grad_norm": 0.8448809385299683,
      "learning_rate": 0.00028256484451330403,
      "loss": 3.8072,
      "step": 76090
    },
    {
      "epoch": 0.15854166666666666,
      "grad_norm": 0.7933937311172485,
      "learning_rate": 0.00028256023111548656,
      "loss": 3.8486,
      "step": 76100
    },
    {
      "epoch": 0.1585625,
      "grad_norm": 0.9107272028923035,
      "learning_rate": 0.0002825556171450614,
      "loss": 4.1473,
      "step": 76110
    },
    {
      "epoch": 0.15858333333333333,
      "grad_norm": 0.7458012104034424,
      "learning_rate": 0.00028255100260204843,
      "loss": 3.9965,
      "step": 76120
    },
    {
      "epoch": 0.15860416666666666,
      "grad_norm": 0.9108791351318359,
      "learning_rate": 0.0002825463874864676,
      "loss": 4.1176,
      "step": 76130
    },
    {
      "epoch": 0.158625,
      "grad_norm": 0.7635220885276794,
      "learning_rate": 0.0002825417717983388,
      "loss": 3.8508,
      "step": 76140
    },
    {
      "epoch": 0.15864583333333335,
      "grad_norm": 0.7483041286468506,
      "learning_rate": 0.0002825371555376821,
      "loss": 3.8851,
      "step": 76150
    },
    {
      "epoch": 0.15866666666666668,
      "grad_norm": 0.7423616051673889,
      "learning_rate": 0.0002825325387045173,
      "loss": 4.0143,
      "step": 76160
    },
    {
      "epoch": 0.1586875,
      "grad_norm": 0.734764814376831,
      "learning_rate": 0.0002825279212988644,
      "loss": 3.9756,
      "step": 76170
    },
    {
      "epoch": 0.15870833333333334,
      "grad_norm": 0.6881306767463684,
      "learning_rate": 0.0002825233033207433,
      "loss": 3.8625,
      "step": 76180
    },
    {
      "epoch": 0.15872916666666667,
      "grad_norm": 0.7634227871894836,
      "learning_rate": 0.00028251868477017404,
      "loss": 4.0287,
      "step": 76190
    },
    {
      "epoch": 0.15875,
      "grad_norm": 0.9399139881134033,
      "learning_rate": 0.0002825140656471765,
      "loss": 4.0365,
      "step": 76200
    },
    {
      "epoch": 0.15877083333333333,
      "grad_norm": 0.7672933340072632,
      "learning_rate": 0.0002825094459517706,
      "loss": 3.8002,
      "step": 76210
    },
    {
      "epoch": 0.15879166666666666,
      "grad_norm": 0.8738235831260681,
      "learning_rate": 0.00028250482568397637,
      "loss": 3.9399,
      "step": 76220
    },
    {
      "epoch": 0.1588125,
      "grad_norm": 0.8719350099563599,
      "learning_rate": 0.0002825002048438138,
      "loss": 4.0996,
      "step": 76230
    },
    {
      "epoch": 0.15883333333333333,
      "grad_norm": 0.9176362156867981,
      "learning_rate": 0.00028249558343130274,
      "loss": 3.9686,
      "step": 76240
    },
    {
      "epoch": 0.15885416666666666,
      "grad_norm": 0.7847700715065002,
      "learning_rate": 0.00028249096144646323,
      "loss": 3.9953,
      "step": 76250
    },
    {
      "epoch": 0.158875,
      "grad_norm": 0.851382851600647,
      "learning_rate": 0.0002824863388893152,
      "loss": 3.9484,
      "step": 76260
    },
    {
      "epoch": 0.15889583333333332,
      "grad_norm": 0.9926491975784302,
      "learning_rate": 0.0002824817157598786,
      "loss": 3.9231,
      "step": 76270
    },
    {
      "epoch": 0.15891666666666668,
      "grad_norm": 0.7713356614112854,
      "learning_rate": 0.0002824770920581735,
      "loss": 3.9503,
      "step": 76280
    },
    {
      "epoch": 0.1589375,
      "grad_norm": 0.7865144610404968,
      "learning_rate": 0.00028247246778421975,
      "loss": 4.0258,
      "step": 76290
    },
    {
      "epoch": 0.15895833333333334,
      "grad_norm": 0.7672379016876221,
      "learning_rate": 0.00028246784293803736,
      "loss": 3.9187,
      "step": 76300
    },
    {
      "epoch": 0.15897916666666667,
      "grad_norm": 0.7569628953933716,
      "learning_rate": 0.00028246321751964633,
      "loss": 4.1577,
      "step": 76310
    },
    {
      "epoch": 0.159,
      "grad_norm": 0.8109440207481384,
      "learning_rate": 0.00028245859152906664,
      "loss": 3.9639,
      "step": 76320
    },
    {
      "epoch": 0.15902083333333333,
      "grad_norm": 0.7655479907989502,
      "learning_rate": 0.0002824539649663183,
      "loss": 4.0783,
      "step": 76330
    },
    {
      "epoch": 0.15904166666666666,
      "grad_norm": 0.7938690185546875,
      "learning_rate": 0.0002824493378314212,
      "loss": 4.0984,
      "step": 76340
    },
    {
      "epoch": 0.1590625,
      "grad_norm": 0.8598443865776062,
      "learning_rate": 0.0002824447101243954,
      "loss": 3.9626,
      "step": 76350
    },
    {
      "epoch": 0.15908333333333333,
      "grad_norm": 0.757732093334198,
      "learning_rate": 0.0002824400818452609,
      "loss": 4.1777,
      "step": 76360
    },
    {
      "epoch": 0.15910416666666666,
      "grad_norm": 0.7349156737327576,
      "learning_rate": 0.00028243545299403767,
      "loss": 3.7897,
      "step": 76370
    },
    {
      "epoch": 0.159125,
      "grad_norm": 0.7714874744415283,
      "learning_rate": 0.0002824308235707457,
      "loss": 3.9498,
      "step": 76380
    },
    {
      "epoch": 0.15914583333333332,
      "grad_norm": 0.8085525631904602,
      "learning_rate": 0.000282426193575405,
      "loss": 3.8451,
      "step": 76390
    },
    {
      "epoch": 0.15916666666666668,
      "grad_norm": 0.6810000538825989,
      "learning_rate": 0.0002824215630080356,
      "loss": 4.0197,
      "step": 76400
    },
    {
      "epoch": 0.1591875,
      "grad_norm": 0.8029125332832336,
      "learning_rate": 0.0002824169318686574,
      "loss": 4.1265,
      "step": 76410
    },
    {
      "epoch": 0.15920833333333334,
      "grad_norm": 0.7993583679199219,
      "learning_rate": 0.00028241230015729047,
      "loss": 3.9688,
      "step": 76420
    },
    {
      "epoch": 0.15922916666666667,
      "grad_norm": 0.8246841430664062,
      "learning_rate": 0.00028240766787395485,
      "loss": 4.0704,
      "step": 76430
    },
    {
      "epoch": 0.15925,
      "grad_norm": 1.060900330543518,
      "learning_rate": 0.0002824030350186705,
      "loss": 4.1199,
      "step": 76440
    },
    {
      "epoch": 0.15927083333333333,
      "grad_norm": 0.8627856969833374,
      "learning_rate": 0.0002823984015914574,
      "loss": 3.9793,
      "step": 76450
    },
    {
      "epoch": 0.15929166666666666,
      "grad_norm": 0.7318389415740967,
      "learning_rate": 0.0002823937675923357,
      "loss": 3.8164,
      "step": 76460
    },
    {
      "epoch": 0.1593125,
      "grad_norm": 1.0034836530685425,
      "learning_rate": 0.00028238913302132526,
      "loss": 3.9914,
      "step": 76470
    },
    {
      "epoch": 0.15933333333333333,
      "grad_norm": 0.9493329524993896,
      "learning_rate": 0.0002823844978784462,
      "loss": 4.0402,
      "step": 76480
    },
    {
      "epoch": 0.15935416666666666,
      "grad_norm": 0.9153264760971069,
      "learning_rate": 0.0002823798621637185,
      "loss": 4.0026,
      "step": 76490
    },
    {
      "epoch": 0.159375,
      "grad_norm": 0.7304118871688843,
      "learning_rate": 0.0002823752258771622,
      "loss": 3.9285,
      "step": 76500
    },
    {
      "epoch": 0.15939583333333332,
      "grad_norm": 0.6958821415901184,
      "learning_rate": 0.00028237058901879733,
      "loss": 3.8933,
      "step": 76510
    },
    {
      "epoch": 0.15941666666666668,
      "grad_norm": 0.84634929895401,
      "learning_rate": 0.0002823659515886439,
      "loss": 3.9329,
      "step": 76520
    },
    {
      "epoch": 0.1594375,
      "grad_norm": 0.7458611726760864,
      "learning_rate": 0.0002823613135867219,
      "loss": 4.0467,
      "step": 76530
    },
    {
      "epoch": 0.15945833333333334,
      "grad_norm": 0.9980223774909973,
      "learning_rate": 0.0002823566750130515,
      "loss": 3.9446,
      "step": 76540
    },
    {
      "epoch": 0.15947916666666667,
      "grad_norm": 0.770721435546875,
      "learning_rate": 0.00028235203586765263,
      "loss": 3.8964,
      "step": 76550
    },
    {
      "epoch": 0.1595,
      "grad_norm": 0.7319120764732361,
      "learning_rate": 0.0002823473961505454,
      "loss": 3.8982,
      "step": 76560
    },
    {
      "epoch": 0.15952083333333333,
      "grad_norm": 0.7265445590019226,
      "learning_rate": 0.00028234275586174975,
      "loss": 3.9067,
      "step": 76570
    },
    {
      "epoch": 0.15954166666666666,
      "grad_norm": 0.7723459005355835,
      "learning_rate": 0.00028233811500128576,
      "loss": 4.0191,
      "step": 76580
    },
    {
      "epoch": 0.1595625,
      "grad_norm": 0.792067289352417,
      "learning_rate": 0.0002823334735691736,
      "loss": 3.8823,
      "step": 76590
    },
    {
      "epoch": 0.15958333333333333,
      "grad_norm": 1.020997405052185,
      "learning_rate": 0.0002823288315654331,
      "loss": 4.0901,
      "step": 76600
    },
    {
      "epoch": 0.15960416666666666,
      "grad_norm": 0.7044355869293213,
      "learning_rate": 0.0002823241889900844,
      "loss": 3.9314,
      "step": 76610
    },
    {
      "epoch": 0.159625,
      "grad_norm": 0.7365557551383972,
      "learning_rate": 0.00028231954584314765,
      "loss": 3.9013,
      "step": 76620
    },
    {
      "epoch": 0.15964583333333332,
      "grad_norm": 0.8813196420669556,
      "learning_rate": 0.00028231490212464287,
      "loss": 3.8871,
      "step": 76630
    },
    {
      "epoch": 0.15966666666666668,
      "grad_norm": 0.8245474100112915,
      "learning_rate": 0.0002823102578345901,
      "loss": 4.1159,
      "step": 76640
    },
    {
      "epoch": 0.1596875,
      "grad_norm": 0.7396581172943115,
      "learning_rate": 0.0002823056129730093,
      "loss": 3.9981,
      "step": 76650
    },
    {
      "epoch": 0.15970833333333334,
      "grad_norm": 0.7071628570556641,
      "learning_rate": 0.00028230096753992066,
      "loss": 3.9196,
      "step": 76660
    },
    {
      "epoch": 0.15972916666666667,
      "grad_norm": 0.7886711359024048,
      "learning_rate": 0.00028229632153534416,
      "loss": 3.8484,
      "step": 76670
    },
    {
      "epoch": 0.15975,
      "grad_norm": 0.7425145506858826,
      "learning_rate": 0.0002822916749593,
      "loss": 4.0454,
      "step": 76680
    },
    {
      "epoch": 0.15977083333333333,
      "grad_norm": 0.8378704786300659,
      "learning_rate": 0.0002822870278118082,
      "loss": 3.9837,
      "step": 76690
    },
    {
      "epoch": 0.15979166666666667,
      "grad_norm": 0.8082764744758606,
      "learning_rate": 0.0002822823800928887,
      "loss": 4.0394,
      "step": 76700
    },
    {
      "epoch": 0.1598125,
      "grad_norm": 0.7006628513336182,
      "learning_rate": 0.0002822777318025617,
      "loss": 3.8999,
      "step": 76710
    },
    {
      "epoch": 0.15983333333333333,
      "grad_norm": 0.7836378216743469,
      "learning_rate": 0.00028227308294084726,
      "loss": 3.8537,
      "step": 76720
    },
    {
      "epoch": 0.15985416666666666,
      "grad_norm": 0.7611981630325317,
      "learning_rate": 0.0002822684335077655,
      "loss": 3.9553,
      "step": 76730
    },
    {
      "epoch": 0.159875,
      "grad_norm": 0.8038240075111389,
      "learning_rate": 0.0002822637835033364,
      "loss": 3.8048,
      "step": 76740
    },
    {
      "epoch": 0.15989583333333332,
      "grad_norm": 0.6807552576065063,
      "learning_rate": 0.0002822591329275802,
      "loss": 4.0335,
      "step": 76750
    },
    {
      "epoch": 0.15991666666666668,
      "grad_norm": 0.9691339731216431,
      "learning_rate": 0.00028225448178051686,
      "loss": 3.9505,
      "step": 76760
    },
    {
      "epoch": 0.1599375,
      "grad_norm": 0.7016648650169373,
      "learning_rate": 0.00028224983006216645,
      "loss": 3.8443,
      "step": 76770
    },
    {
      "epoch": 0.15995833333333334,
      "grad_norm": 0.7145435810089111,
      "learning_rate": 0.00028224517777254916,
      "loss": 3.8608,
      "step": 76780
    },
    {
      "epoch": 0.15997916666666667,
      "grad_norm": 0.9416621923446655,
      "learning_rate": 0.00028224052491168504,
      "loss": 3.9035,
      "step": 76790
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7591504454612732,
      "learning_rate": 0.00028223587147959426,
      "loss": 3.8585,
      "step": 76800
    },
    {
      "epoch": 0.16002083333333333,
      "grad_norm": 0.711595356464386,
      "learning_rate": 0.00028223121747629677,
      "loss": 3.9054,
      "step": 76810
    },
    {
      "epoch": 0.16004166666666667,
      "grad_norm": 0.9354443550109863,
      "learning_rate": 0.0002822265629018128,
      "loss": 4.204,
      "step": 76820
    },
    {
      "epoch": 0.1600625,
      "grad_norm": 0.8565996885299683,
      "learning_rate": 0.00028222190775616243,
      "loss": 3.923,
      "step": 76830
    },
    {
      "epoch": 0.16008333333333333,
      "grad_norm": 0.7267017960548401,
      "learning_rate": 0.00028221725203936575,
      "loss": 4.0982,
      "step": 76840
    },
    {
      "epoch": 0.16010416666666666,
      "grad_norm": 0.7077228426933289,
      "learning_rate": 0.00028221259575144286,
      "loss": 3.9528,
      "step": 76850
    },
    {
      "epoch": 0.160125,
      "grad_norm": 0.82989102602005,
      "learning_rate": 0.0002822079388924139,
      "loss": 3.991,
      "step": 76860
    },
    {
      "epoch": 0.16014583333333332,
      "grad_norm": 0.863614559173584,
      "learning_rate": 0.00028220328146229897,
      "loss": 3.7618,
      "step": 76870
    },
    {
      "epoch": 0.16016666666666668,
      "grad_norm": 0.8223214745521545,
      "learning_rate": 0.0002821986234611182,
      "loss": 3.8776,
      "step": 76880
    },
    {
      "epoch": 0.1601875,
      "grad_norm": 0.784129798412323,
      "learning_rate": 0.0002821939648888917,
      "loss": 3.961,
      "step": 76890
    },
    {
      "epoch": 0.16020833333333334,
      "grad_norm": 0.9202289581298828,
      "learning_rate": 0.0002821893057456396,
      "loss": 4.0354,
      "step": 76900
    },
    {
      "epoch": 0.16022916666666667,
      "grad_norm": 0.8466525077819824,
      "learning_rate": 0.00028218464603138203,
      "loss": 3.8609,
      "step": 76910
    },
    {
      "epoch": 0.16025,
      "grad_norm": 0.7251555323600769,
      "learning_rate": 0.0002821799857461391,
      "loss": 3.8541,
      "step": 76920
    },
    {
      "epoch": 0.16027083333333333,
      "grad_norm": 0.8714814782142639,
      "learning_rate": 0.00028217532488993095,
      "loss": 3.9944,
      "step": 76930
    },
    {
      "epoch": 0.16029166666666667,
      "grad_norm": 0.8698439598083496,
      "learning_rate": 0.0002821706634627777,
      "loss": 3.8205,
      "step": 76940
    },
    {
      "epoch": 0.1603125,
      "grad_norm": 0.7079991698265076,
      "learning_rate": 0.00028216600146469955,
      "loss": 4.0399,
      "step": 76950
    },
    {
      "epoch": 0.16033333333333333,
      "grad_norm": 0.8054331541061401,
      "learning_rate": 0.00028216133889571657,
      "loss": 3.9445,
      "step": 76960
    },
    {
      "epoch": 0.16035416666666666,
      "grad_norm": 0.9675517678260803,
      "learning_rate": 0.0002821566757558489,
      "loss": 3.9687,
      "step": 76970
    },
    {
      "epoch": 0.160375,
      "grad_norm": 0.9152339100837708,
      "learning_rate": 0.00028215201204511667,
      "loss": 3.9525,
      "step": 76980
    },
    {
      "epoch": 0.16039583333333332,
      "grad_norm": 0.8617864847183228,
      "learning_rate": 0.00028214734776354014,
      "loss": 3.9535,
      "step": 76990
    },
    {
      "epoch": 0.16041666666666668,
      "grad_norm": 0.7914890646934509,
      "learning_rate": 0.00028214268291113935,
      "loss": 3.9125,
      "step": 77000
    },
    {
      "epoch": 0.16041666666666668,
      "eval_loss": 4.286554336547852,
      "eval_runtime": 9.1004,
      "eval_samples_per_second": 1.099,
      "eval_steps_per_second": 0.33,
      "step": 77000
    },
    {
      "epoch": 0.1604375,
      "grad_norm": 0.7892403602600098,
      "learning_rate": 0.0002821380174879344,
      "loss": 3.8947,
      "step": 77010
    },
    {
      "epoch": 0.16045833333333334,
      "grad_norm": 0.734053373336792,
      "learning_rate": 0.0002821333514939456,
      "loss": 3.7525,
      "step": 77020
    },
    {
      "epoch": 0.16047916666666667,
      "grad_norm": 0.9047618508338928,
      "learning_rate": 0.00028212868492919304,
      "loss": 4.0585,
      "step": 77030
    },
    {
      "epoch": 0.1605,
      "grad_norm": 0.8187105655670166,
      "learning_rate": 0.0002821240177936968,
      "loss": 3.8896,
      "step": 77040
    },
    {
      "epoch": 0.16052083333333333,
      "grad_norm": 0.764279842376709,
      "learning_rate": 0.00028211935008747713,
      "loss": 3.9885,
      "step": 77050
    },
    {
      "epoch": 0.16054166666666667,
      "grad_norm": 0.8400261402130127,
      "learning_rate": 0.00028211468181055417,
      "loss": 4.0983,
      "step": 77060
    },
    {
      "epoch": 0.1605625,
      "grad_norm": 0.8541538715362549,
      "learning_rate": 0.00028211001296294806,
      "loss": 3.8116,
      "step": 77070
    },
    {
      "epoch": 0.16058333333333333,
      "grad_norm": 0.7912912368774414,
      "learning_rate": 0.000282105343544679,
      "loss": 3.937,
      "step": 77080
    },
    {
      "epoch": 0.16060416666666666,
      "grad_norm": 0.8191346526145935,
      "learning_rate": 0.0002821006735557671,
      "loss": 4.0099,
      "step": 77090
    },
    {
      "epoch": 0.160625,
      "grad_norm": 0.6960261464118958,
      "learning_rate": 0.0002820960029962327,
      "loss": 3.8428,
      "step": 77100
    },
    {
      "epoch": 0.16064583333333332,
      "grad_norm": 0.8192920088768005,
      "learning_rate": 0.00028209133186609574,
      "loss": 3.8466,
      "step": 77110
    },
    {
      "epoch": 0.16066666666666668,
      "grad_norm": 0.7489382028579712,
      "learning_rate": 0.00028208666016537654,
      "loss": 4.1436,
      "step": 77120
    },
    {
      "epoch": 0.1606875,
      "grad_norm": 0.8770329356193542,
      "learning_rate": 0.00028208198789409525,
      "loss": 3.9381,
      "step": 77130
    },
    {
      "epoch": 0.16070833333333334,
      "grad_norm": 0.7646051645278931,
      "learning_rate": 0.0002820773150522721,
      "loss": 3.8024,
      "step": 77140
    },
    {
      "epoch": 0.16072916666666667,
      "grad_norm": 0.8767563700675964,
      "learning_rate": 0.00028207264163992714,
      "loss": 4.1352,
      "step": 77150
    },
    {
      "epoch": 0.16075,
      "grad_norm": 0.7900148630142212,
      "learning_rate": 0.0002820679676570807,
      "loss": 3.6969,
      "step": 77160
    },
    {
      "epoch": 0.16077083333333334,
      "grad_norm": 0.6644408106803894,
      "learning_rate": 0.0002820632931037529,
      "loss": 4.0676,
      "step": 77170
    },
    {
      "epoch": 0.16079166666666667,
      "grad_norm": 0.9282814264297485,
      "learning_rate": 0.000282058617979964,
      "loss": 4.0554,
      "step": 77180
    },
    {
      "epoch": 0.1608125,
      "grad_norm": 0.6623526215553284,
      "learning_rate": 0.0002820539422857341,
      "loss": 4.1582,
      "step": 77190
    },
    {
      "epoch": 0.16083333333333333,
      "grad_norm": 0.7399011850357056,
      "learning_rate": 0.00028204926602108345,
      "loss": 4.1355,
      "step": 77200
    },
    {
      "epoch": 0.16085416666666666,
      "grad_norm": 0.7266656756401062,
      "learning_rate": 0.0002820445891860322,
      "loss": 3.9737,
      "step": 77210
    },
    {
      "epoch": 0.160875,
      "grad_norm": 0.9031581282615662,
      "learning_rate": 0.00028203991178060066,
      "loss": 3.8918,
      "step": 77220
    },
    {
      "epoch": 0.16089583333333332,
      "grad_norm": 0.9557989239692688,
      "learning_rate": 0.0002820352338048089,
      "loss": 3.8668,
      "step": 77230
    },
    {
      "epoch": 0.16091666666666668,
      "grad_norm": 0.8384221792221069,
      "learning_rate": 0.0002820305552586772,
      "loss": 3.9748,
      "step": 77240
    },
    {
      "epoch": 0.1609375,
      "grad_norm": 0.8813395500183105,
      "learning_rate": 0.0002820258761422258,
      "loss": 3.9288,
      "step": 77250
    },
    {
      "epoch": 0.16095833333333334,
      "grad_norm": 0.672451376914978,
      "learning_rate": 0.00028202119645547486,
      "loss": 3.9323,
      "step": 77260
    },
    {
      "epoch": 0.16097916666666667,
      "grad_norm": 0.7794919013977051,
      "learning_rate": 0.0002820165161984446,
      "loss": 3.9331,
      "step": 77270
    },
    {
      "epoch": 0.161,
      "grad_norm": 0.8153266906738281,
      "learning_rate": 0.00028201183537115526,
      "loss": 3.8777,
      "step": 77280
    },
    {
      "epoch": 0.16102083333333334,
      "grad_norm": 0.7694487571716309,
      "learning_rate": 0.00028200715397362706,
      "loss": 4.0199,
      "step": 77290
    },
    {
      "epoch": 0.16104166666666667,
      "grad_norm": 0.8496760129928589,
      "learning_rate": 0.0002820024720058802,
      "loss": 4.0325,
      "step": 77300
    },
    {
      "epoch": 0.1610625,
      "grad_norm": 0.8208592534065247,
      "learning_rate": 0.0002819977894679349,
      "loss": 3.9597,
      "step": 77310
    },
    {
      "epoch": 0.16108333333333333,
      "grad_norm": 0.7540953755378723,
      "learning_rate": 0.0002819931063598114,
      "loss": 3.8749,
      "step": 77320
    },
    {
      "epoch": 0.16110416666666666,
      "grad_norm": 0.7308695316314697,
      "learning_rate": 0.0002819884226815299,
      "loss": 3.969,
      "step": 77330
    },
    {
      "epoch": 0.161125,
      "grad_norm": 0.7791615724563599,
      "learning_rate": 0.0002819837384331107,
      "loss": 3.8187,
      "step": 77340
    },
    {
      "epoch": 0.16114583333333332,
      "grad_norm": 0.8104141354560852,
      "learning_rate": 0.00028197905361457395,
      "loss": 3.8937,
      "step": 77350
    },
    {
      "epoch": 0.16116666666666668,
      "grad_norm": 0.886809766292572,
      "learning_rate": 0.00028197436822593997,
      "loss": 4.0958,
      "step": 77360
    },
    {
      "epoch": 0.1611875,
      "grad_norm": 0.7157000303268433,
      "learning_rate": 0.00028196968226722896,
      "loss": 4.1509,
      "step": 77370
    },
    {
      "epoch": 0.16120833333333334,
      "grad_norm": 0.7488293051719666,
      "learning_rate": 0.00028196499573846114,
      "loss": 4.0335,
      "step": 77380
    },
    {
      "epoch": 0.16122916666666667,
      "grad_norm": 0.8180192112922668,
      "learning_rate": 0.00028196030863965674,
      "loss": 3.9454,
      "step": 77390
    },
    {
      "epoch": 0.16125,
      "grad_norm": 0.7691861987113953,
      "learning_rate": 0.0002819556209708361,
      "loss": 3.8645,
      "step": 77400
    },
    {
      "epoch": 0.16127083333333334,
      "grad_norm": 0.8262279629707336,
      "learning_rate": 0.0002819509327320194,
      "loss": 3.867,
      "step": 77410
    },
    {
      "epoch": 0.16129166666666667,
      "grad_norm": 0.6430023312568665,
      "learning_rate": 0.0002819462439232269,
      "loss": 4.0146,
      "step": 77420
    },
    {
      "epoch": 0.1613125,
      "grad_norm": 0.8910223841667175,
      "learning_rate": 0.0002819415545444788,
      "loss": 3.9812,
      "step": 77430
    },
    {
      "epoch": 0.16133333333333333,
      "grad_norm": 0.8111413717269897,
      "learning_rate": 0.00028193686459579545,
      "loss": 3.9185,
      "step": 77440
    },
    {
      "epoch": 0.16135416666666666,
      "grad_norm": 0.9452483057975769,
      "learning_rate": 0.0002819321740771971,
      "loss": 3.8944,
      "step": 77450
    },
    {
      "epoch": 0.161375,
      "grad_norm": 0.7182883024215698,
      "learning_rate": 0.0002819274829887039,
      "loss": 4.0136,
      "step": 77460
    },
    {
      "epoch": 0.16139583333333332,
      "grad_norm": 0.797468364238739,
      "learning_rate": 0.00028192279133033626,
      "loss": 4.1404,
      "step": 77470
    },
    {
      "epoch": 0.16141666666666668,
      "grad_norm": 0.7380503416061401,
      "learning_rate": 0.0002819180991021144,
      "loss": 3.9204,
      "step": 77480
    },
    {
      "epoch": 0.1614375,
      "grad_norm": 0.7636228799819946,
      "learning_rate": 0.0002819134063040585,
      "loss": 3.8477,
      "step": 77490
    },
    {
      "epoch": 0.16145833333333334,
      "grad_norm": 0.8906237483024597,
      "learning_rate": 0.00028190871293618896,
      "loss": 4.0253,
      "step": 77500
    },
    {
      "epoch": 0.16147916666666667,
      "grad_norm": 0.7980161309242249,
      "learning_rate": 0.00028190401899852593,
      "loss": 3.8547,
      "step": 77510
    },
    {
      "epoch": 0.1615,
      "grad_norm": 0.8454574942588806,
      "learning_rate": 0.0002818993244910898,
      "loss": 3.9795,
      "step": 77520
    },
    {
      "epoch": 0.16152083333333334,
      "grad_norm": 0.730657696723938,
      "learning_rate": 0.0002818946294139008,
      "loss": 3.972,
      "step": 77530
    },
    {
      "epoch": 0.16154166666666667,
      "grad_norm": 0.8677017688751221,
      "learning_rate": 0.00028188993376697917,
      "loss": 3.7749,
      "step": 77540
    },
    {
      "epoch": 0.1615625,
      "grad_norm": 0.6724606156349182,
      "learning_rate": 0.0002818852375503453,
      "loss": 3.8625,
      "step": 77550
    },
    {
      "epoch": 0.16158333333333333,
      "grad_norm": 0.7731778621673584,
      "learning_rate": 0.0002818805407640193,
      "loss": 4.029,
      "step": 77560
    },
    {
      "epoch": 0.16160416666666666,
      "grad_norm": 1.7634775638580322,
      "learning_rate": 0.00028187584340802165,
      "loss": 4.0182,
      "step": 77570
    },
    {
      "epoch": 0.161625,
      "grad_norm": 0.7673264741897583,
      "learning_rate": 0.0002818711454823725,
      "loss": 4.1467,
      "step": 77580
    },
    {
      "epoch": 0.16164583333333332,
      "grad_norm": 0.7856615781784058,
      "learning_rate": 0.0002818664469870923,
      "loss": 4.0113,
      "step": 77590
    },
    {
      "epoch": 0.16166666666666665,
      "grad_norm": 0.8648219704627991,
      "learning_rate": 0.00028186174792220117,
      "loss": 3.8751,
      "step": 77600
    },
    {
      "epoch": 0.1616875,
      "grad_norm": 0.9800983667373657,
      "learning_rate": 0.00028185704828771947,
      "loss": 3.8381,
      "step": 77610
    },
    {
      "epoch": 0.16170833333333334,
      "grad_norm": 0.7651121616363525,
      "learning_rate": 0.00028185234808366755,
      "loss": 3.935,
      "step": 77620
    },
    {
      "epoch": 0.16172916666666667,
      "grad_norm": 0.7131847739219666,
      "learning_rate": 0.00028184764731006563,
      "loss": 4.004,
      "step": 77630
    },
    {
      "epoch": 0.16175,
      "grad_norm": 0.7412257194519043,
      "learning_rate": 0.0002818429459669341,
      "loss": 4.1018,
      "step": 77640
    },
    {
      "epoch": 0.16177083333333334,
      "grad_norm": 0.8267483115196228,
      "learning_rate": 0.00028183824405429323,
      "loss": 4.1076,
      "step": 77650
    },
    {
      "epoch": 0.16179166666666667,
      "grad_norm": 0.7998443245887756,
      "learning_rate": 0.00028183354157216336,
      "loss": 3.9117,
      "step": 77660
    },
    {
      "epoch": 0.1618125,
      "grad_norm": 0.7442651391029358,
      "learning_rate": 0.0002818288385205647,
      "loss": 3.9858,
      "step": 77670
    },
    {
      "epoch": 0.16183333333333333,
      "grad_norm": 0.7578204274177551,
      "learning_rate": 0.0002818241348995177,
      "loss": 3.8649,
      "step": 77680
    },
    {
      "epoch": 0.16185416666666666,
      "grad_norm": 0.8133706450462341,
      "learning_rate": 0.0002818194307090426,
      "loss": 4.0649,
      "step": 77690
    },
    {
      "epoch": 0.161875,
      "grad_norm": 0.8488492965698242,
      "learning_rate": 0.00028181472594915975,
      "loss": 3.9993,
      "step": 77700
    },
    {
      "epoch": 0.16189583333333332,
      "grad_norm": 0.7341908812522888,
      "learning_rate": 0.00028181002061988944,
      "loss": 3.7736,
      "step": 77710
    },
    {
      "epoch": 0.16191666666666665,
      "grad_norm": 0.7555025815963745,
      "learning_rate": 0.00028180531472125203,
      "loss": 4.1005,
      "step": 77720
    },
    {
      "epoch": 0.1619375,
      "grad_norm": 0.767153799533844,
      "learning_rate": 0.0002818006082532678,
      "loss": 3.9736,
      "step": 77730
    },
    {
      "epoch": 0.16195833333333334,
      "grad_norm": 1.1169534921646118,
      "learning_rate": 0.00028179590121595716,
      "loss": 3.9937,
      "step": 77740
    },
    {
      "epoch": 0.16197916666666667,
      "grad_norm": 0.7159667611122131,
      "learning_rate": 0.00028179119360934035,
      "loss": 4.0599,
      "step": 77750
    },
    {
      "epoch": 0.162,
      "grad_norm": 0.8237123489379883,
      "learning_rate": 0.0002817864854334377,
      "loss": 3.9879,
      "step": 77760
    },
    {
      "epoch": 0.16202083333333334,
      "grad_norm": 1.3349041938781738,
      "learning_rate": 0.00028178177668826973,
      "loss": 4.0342,
      "step": 77770
    },
    {
      "epoch": 0.16204166666666667,
      "grad_norm": 0.7448614239692688,
      "learning_rate": 0.0002817770673738566,
      "loss": 3.9247,
      "step": 77780
    },
    {
      "epoch": 0.1620625,
      "grad_norm": 0.7991165518760681,
      "learning_rate": 0.00028177235749021865,
      "loss": 3.9533,
      "step": 77790
    },
    {
      "epoch": 0.16208333333333333,
      "grad_norm": 0.9273947477340698,
      "learning_rate": 0.0002817676470373763,
      "loss": 3.93,
      "step": 77800
    },
    {
      "epoch": 0.16210416666666666,
      "grad_norm": 0.8635169863700867,
      "learning_rate": 0.0002817629360153499,
      "loss": 3.9622,
      "step": 77810
    },
    {
      "epoch": 0.162125,
      "grad_norm": 0.6890774965286255,
      "learning_rate": 0.00028175822442415977,
      "loss": 3.9941,
      "step": 77820
    },
    {
      "epoch": 0.16214583333333332,
      "grad_norm": 0.7350051403045654,
      "learning_rate": 0.00028175351226382623,
      "loss": 3.9935,
      "step": 77830
    },
    {
      "epoch": 0.16216666666666665,
      "grad_norm": 0.7805533409118652,
      "learning_rate": 0.00028174879953436966,
      "loss": 3.979,
      "step": 77840
    },
    {
      "epoch": 0.1621875,
      "grad_norm": 0.8718862533569336,
      "learning_rate": 0.0002817440862358105,
      "loss": 3.8394,
      "step": 77850
    },
    {
      "epoch": 0.16220833333333334,
      "grad_norm": 0.6990556120872498,
      "learning_rate": 0.00028173937236816894,
      "loss": 3.9407,
      "step": 77860
    },
    {
      "epoch": 0.16222916666666667,
      "grad_norm": 0.760137677192688,
      "learning_rate": 0.0002817346579314655,
      "loss": 3.9406,
      "step": 77870
    },
    {
      "epoch": 0.16225,
      "grad_norm": 0.7366822957992554,
      "learning_rate": 0.0002817299429257205,
      "loss": 3.9827,
      "step": 77880
    },
    {
      "epoch": 0.16227083333333334,
      "grad_norm": 0.8118230104446411,
      "learning_rate": 0.00028172522735095423,
      "loss": 4.0764,
      "step": 77890
    },
    {
      "epoch": 0.16229166666666667,
      "grad_norm": 0.8695641160011292,
      "learning_rate": 0.00028172051120718716,
      "loss": 3.9189,
      "step": 77900
    },
    {
      "epoch": 0.1623125,
      "grad_norm": 0.8390635848045349,
      "learning_rate": 0.0002817157944944396,
      "loss": 4.0012,
      "step": 77910
    },
    {
      "epoch": 0.16233333333333333,
      "grad_norm": 0.7313005924224854,
      "learning_rate": 0.00028171107721273195,
      "loss": 4.0439,
      "step": 77920
    },
    {
      "epoch": 0.16235416666666666,
      "grad_norm": 0.8917751908302307,
      "learning_rate": 0.0002817063593620846,
      "loss": 4.03,
      "step": 77930
    },
    {
      "epoch": 0.162375,
      "grad_norm": 0.7846434116363525,
      "learning_rate": 0.00028170164094251784,
      "loss": 3.9948,
      "step": 77940
    },
    {
      "epoch": 0.16239583333333332,
      "grad_norm": 0.7751554846763611,
      "learning_rate": 0.00028169692195405217,
      "loss": 4.0489,
      "step": 77950
    },
    {
      "epoch": 0.16241666666666665,
      "grad_norm": 0.7526265382766724,
      "learning_rate": 0.00028169220239670795,
      "loss": 3.8384,
      "step": 77960
    },
    {
      "epoch": 0.1624375,
      "grad_norm": 0.9873279929161072,
      "learning_rate": 0.0002816874822705055,
      "loss": 4.0048,
      "step": 77970
    },
    {
      "epoch": 0.16245833333333334,
      "grad_norm": 0.8661308288574219,
      "learning_rate": 0.0002816827615754653,
      "loss": 3.9992,
      "step": 77980
    },
    {
      "epoch": 0.16247916666666667,
      "grad_norm": 0.7955375909805298,
      "learning_rate": 0.0002816780403116076,
      "loss": 3.7947,
      "step": 77990
    },
    {
      "epoch": 0.1625,
      "grad_norm": 0.7976799607276917,
      "learning_rate": 0.00028167331847895303,
      "loss": 3.7808,
      "step": 78000
    },
    {
      "epoch": 0.1625,
      "eval_loss": 4.262619495391846,
      "eval_runtime": 11.6365,
      "eval_samples_per_second": 0.859,
      "eval_steps_per_second": 0.258,
      "step": 78000
    },
    {
      "epoch": 0.16252083333333334,
      "grad_norm": 0.7579058408737183,
      "learning_rate": 0.0002816685960775217,
      "loss": 3.9662,
      "step": 78010
    },
    {
      "epoch": 0.16254166666666667,
      "grad_norm": 0.7158679962158203,
      "learning_rate": 0.00028166387310733424,
      "loss": 3.9153,
      "step": 78020
    },
    {
      "epoch": 0.1625625,
      "grad_norm": 0.7831252813339233,
      "learning_rate": 0.00028165914956841096,
      "loss": 3.9714,
      "step": 78030
    },
    {
      "epoch": 0.16258333333333333,
      "grad_norm": 0.8030210137367249,
      "learning_rate": 0.0002816544254607723,
      "loss": 4.0806,
      "step": 78040
    },
    {
      "epoch": 0.16260416666666666,
      "grad_norm": 0.7371701002120972,
      "learning_rate": 0.00028164970078443854,
      "loss": 3.8811,
      "step": 78050
    },
    {
      "epoch": 0.162625,
      "grad_norm": 0.7931488156318665,
      "learning_rate": 0.00028164497553943027,
      "loss": 4.0098,
      "step": 78060
    },
    {
      "epoch": 0.16264583333333332,
      "grad_norm": 1.0503406524658203,
      "learning_rate": 0.00028164024972576773,
      "loss": 3.9831,
      "step": 78070
    },
    {
      "epoch": 0.16266666666666665,
      "grad_norm": 0.8392672538757324,
      "learning_rate": 0.0002816355233434715,
      "loss": 3.8326,
      "step": 78080
    },
    {
      "epoch": 0.1626875,
      "grad_norm": 0.6595149040222168,
      "learning_rate": 0.00028163079639256187,
      "loss": 4.1154,
      "step": 78090
    },
    {
      "epoch": 0.16270833333333334,
      "grad_norm": 1.0223652124404907,
      "learning_rate": 0.0002816260688730593,
      "loss": 3.9909,
      "step": 78100
    },
    {
      "epoch": 0.16272916666666667,
      "grad_norm": 0.8171764016151428,
      "learning_rate": 0.00028162134078498424,
      "loss": 4.0057,
      "step": 78110
    },
    {
      "epoch": 0.16275,
      "grad_norm": 0.8894515037536621,
      "learning_rate": 0.00028161661212835706,
      "loss": 3.9079,
      "step": 78120
    },
    {
      "epoch": 0.16277083333333334,
      "grad_norm": 0.7435217499732971,
      "learning_rate": 0.0002816118829031982,
      "loss": 3.8378,
      "step": 78130
    },
    {
      "epoch": 0.16279166666666667,
      "grad_norm": 0.8137401342391968,
      "learning_rate": 0.00028160715310952816,
      "loss": 3.8413,
      "step": 78140
    },
    {
      "epoch": 0.1628125,
      "grad_norm": 0.8337034583091736,
      "learning_rate": 0.00028160242274736727,
      "loss": 4.0542,
      "step": 78150
    },
    {
      "epoch": 0.16283333333333333,
      "grad_norm": 0.8717995285987854,
      "learning_rate": 0.000281597691816736,
      "loss": 3.9369,
      "step": 78160
    },
    {
      "epoch": 0.16285416666666666,
      "grad_norm": 0.7795739769935608,
      "learning_rate": 0.0002815929603176548,
      "loss": 3.9666,
      "step": 78170
    },
    {
      "epoch": 0.162875,
      "grad_norm": 0.7289012670516968,
      "learning_rate": 0.0002815882282501441,
      "loss": 3.8687,
      "step": 78180
    },
    {
      "epoch": 0.16289583333333332,
      "grad_norm": 0.7760468125343323,
      "learning_rate": 0.0002815834956142244,
      "loss": 3.9681,
      "step": 78190
    },
    {
      "epoch": 0.16291666666666665,
      "grad_norm": 0.8668152093887329,
      "learning_rate": 0.000281578762409916,
      "loss": 3.9822,
      "step": 78200
    },
    {
      "epoch": 0.1629375,
      "grad_norm": 0.7797251343727112,
      "learning_rate": 0.0002815740286372395,
      "loss": 3.9824,
      "step": 78210
    },
    {
      "epoch": 0.16295833333333334,
      "grad_norm": 0.6885705590248108,
      "learning_rate": 0.0002815692942962152,
      "loss": 3.84,
      "step": 78220
    },
    {
      "epoch": 0.16297916666666667,
      "grad_norm": 1.1185550689697266,
      "learning_rate": 0.00028156455938686364,
      "loss": 3.907,
      "step": 78230
    },
    {
      "epoch": 0.163,
      "grad_norm": 0.7284876108169556,
      "learning_rate": 0.0002815598239092053,
      "loss": 3.9425,
      "step": 78240
    },
    {
      "epoch": 0.16302083333333334,
      "grad_norm": 0.6862362027168274,
      "learning_rate": 0.00028155508786326057,
      "loss": 3.9263,
      "step": 78250
    },
    {
      "epoch": 0.16304166666666667,
      "grad_norm": 0.7383018136024475,
      "learning_rate": 0.00028155035124904996,
      "loss": 3.9824,
      "step": 78260
    },
    {
      "epoch": 0.1630625,
      "grad_norm": 0.8319690823554993,
      "learning_rate": 0.00028154561406659387,
      "loss": 4.0939,
      "step": 78270
    },
    {
      "epoch": 0.16308333333333333,
      "grad_norm": 0.7824859619140625,
      "learning_rate": 0.00028154087631591284,
      "loss": 4.1139,
      "step": 78280
    },
    {
      "epoch": 0.16310416666666666,
      "grad_norm": 0.7834299802780151,
      "learning_rate": 0.00028153613799702725,
      "loss": 3.9378,
      "step": 78290
    },
    {
      "epoch": 0.163125,
      "grad_norm": 0.7087684273719788,
      "learning_rate": 0.00028153139910995766,
      "loss": 3.9882,
      "step": 78300
    },
    {
      "epoch": 0.16314583333333332,
      "grad_norm": 0.8483211994171143,
      "learning_rate": 0.0002815266596547244,
      "loss": 3.8009,
      "step": 78310
    },
    {
      "epoch": 0.16316666666666665,
      "grad_norm": 0.8948817253112793,
      "learning_rate": 0.0002815219196313481,
      "loss": 3.9416,
      "step": 78320
    },
    {
      "epoch": 0.1631875,
      "grad_norm": 0.7180911898612976,
      "learning_rate": 0.00028151717903984914,
      "loss": 3.919,
      "step": 78330
    },
    {
      "epoch": 0.16320833333333334,
      "grad_norm": 0.8306449055671692,
      "learning_rate": 0.000281512437880248,
      "loss": 4.0358,
      "step": 78340
    },
    {
      "epoch": 0.16322916666666668,
      "grad_norm": 0.7555968761444092,
      "learning_rate": 0.00028150769615256524,
      "loss": 3.916,
      "step": 78350
    },
    {
      "epoch": 0.16325,
      "grad_norm": 0.7461714148521423,
      "learning_rate": 0.00028150295385682126,
      "loss": 4.011,
      "step": 78360
    },
    {
      "epoch": 0.16327083333333334,
      "grad_norm": 0.8704186081886292,
      "learning_rate": 0.0002814982109930366,
      "loss": 3.9772,
      "step": 78370
    },
    {
      "epoch": 0.16329166666666667,
      "grad_norm": 0.8055309653282166,
      "learning_rate": 0.0002814934675612317,
      "loss": 3.8095,
      "step": 78380
    },
    {
      "epoch": 0.1633125,
      "grad_norm": 0.8662627339363098,
      "learning_rate": 0.00028148872356142707,
      "loss": 3.9857,
      "step": 78390
    },
    {
      "epoch": 0.16333333333333333,
      "grad_norm": 0.8140546083450317,
      "learning_rate": 0.00028148397899364317,
      "loss": 3.792,
      "step": 78400
    },
    {
      "epoch": 0.16335416666666666,
      "grad_norm": 0.6865202188491821,
      "learning_rate": 0.0002814792338579006,
      "loss": 3.9134,
      "step": 78410
    },
    {
      "epoch": 0.163375,
      "grad_norm": 0.7429100275039673,
      "learning_rate": 0.0002814744881542198,
      "loss": 4.079,
      "step": 78420
    },
    {
      "epoch": 0.16339583333333332,
      "grad_norm": 0.7780461311340332,
      "learning_rate": 0.00028146974188262116,
      "loss": 3.8791,
      "step": 78430
    },
    {
      "epoch": 0.16341666666666665,
      "grad_norm": 0.7875534296035767,
      "learning_rate": 0.00028146499504312525,
      "loss": 3.9419,
      "step": 78440
    },
    {
      "epoch": 0.1634375,
      "grad_norm": 1.051367998123169,
      "learning_rate": 0.00028146024763575265,
      "loss": 3.8882,
      "step": 78450
    },
    {
      "epoch": 0.16345833333333334,
      "grad_norm": 0.7486383318901062,
      "learning_rate": 0.00028145549966052385,
      "loss": 3.9927,
      "step": 78460
    },
    {
      "epoch": 0.16347916666666668,
      "grad_norm": 0.778175950050354,
      "learning_rate": 0.0002814507511174593,
      "loss": 3.7165,
      "step": 78470
    },
    {
      "epoch": 0.1635,
      "grad_norm": 0.7930928468704224,
      "learning_rate": 0.0002814460020065795,
      "loss": 3.9428,
      "step": 78480
    },
    {
      "epoch": 0.16352083333333334,
      "grad_norm": 0.8237566947937012,
      "learning_rate": 0.00028144125232790505,
      "loss": 3.934,
      "step": 78490
    },
    {
      "epoch": 0.16354166666666667,
      "grad_norm": 0.9469968676567078,
      "learning_rate": 0.0002814365020814564,
      "loss": 4.0879,
      "step": 78500
    },
    {
      "epoch": 0.1635625,
      "grad_norm": 0.797243595123291,
      "learning_rate": 0.0002814317512672541,
      "loss": 3.9702,
      "step": 78510
    },
    {
      "epoch": 0.16358333333333333,
      "grad_norm": 0.7317516207695007,
      "learning_rate": 0.0002814269998853186,
      "loss": 3.9352,
      "step": 78520
    },
    {
      "epoch": 0.16360416666666666,
      "grad_norm": 0.8259995579719543,
      "learning_rate": 0.00028142224793567056,
      "loss": 3.8832,
      "step": 78530
    },
    {
      "epoch": 0.163625,
      "grad_norm": 0.8196825981140137,
      "learning_rate": 0.0002814174954183304,
      "loss": 3.9699,
      "step": 78540
    },
    {
      "epoch": 0.16364583333333332,
      "grad_norm": 0.7598574757575989,
      "learning_rate": 0.0002814127423333187,
      "loss": 4.1293,
      "step": 78550
    },
    {
      "epoch": 0.16366666666666665,
      "grad_norm": 0.759049654006958,
      "learning_rate": 0.00028140798868065596,
      "loss": 4.0397,
      "step": 78560
    },
    {
      "epoch": 0.1636875,
      "grad_norm": 0.710602879524231,
      "learning_rate": 0.0002814032344603627,
      "loss": 3.7885,
      "step": 78570
    },
    {
      "epoch": 0.16370833333333334,
      "grad_norm": 0.74116051197052,
      "learning_rate": 0.00028139847967245945,
      "loss": 3.9658,
      "step": 78580
    },
    {
      "epoch": 0.16372916666666668,
      "grad_norm": 0.7533986568450928,
      "learning_rate": 0.00028139372431696687,
      "loss": 3.8657,
      "step": 78590
    },
    {
      "epoch": 0.16375,
      "grad_norm": 1.1377589702606201,
      "learning_rate": 0.00028138896839390536,
      "loss": 3.9384,
      "step": 78600
    },
    {
      "epoch": 0.16377083333333334,
      "grad_norm": 0.6965270042419434,
      "learning_rate": 0.0002813842119032955,
      "loss": 4.0344,
      "step": 78610
    },
    {
      "epoch": 0.16379166666666667,
      "grad_norm": 0.7911800146102905,
      "learning_rate": 0.00028137945484515785,
      "loss": 3.8957,
      "step": 78620
    },
    {
      "epoch": 0.1638125,
      "grad_norm": 0.8753644227981567,
      "learning_rate": 0.00028137469721951295,
      "loss": 3.9026,
      "step": 78630
    },
    {
      "epoch": 0.16383333333333333,
      "grad_norm": 0.639029860496521,
      "learning_rate": 0.0002813699390263814,
      "loss": 4.1008,
      "step": 78640
    },
    {
      "epoch": 0.16385416666666666,
      "grad_norm": 0.8278228044509888,
      "learning_rate": 0.0002813651802657837,
      "loss": 3.8747,
      "step": 78650
    },
    {
      "epoch": 0.163875,
      "grad_norm": 0.7701707482337952,
      "learning_rate": 0.0002813604209377404,
      "loss": 4.0514,
      "step": 78660
    },
    {
      "epoch": 0.16389583333333332,
      "grad_norm": 0.7326090931892395,
      "learning_rate": 0.00028135566104227214,
      "loss": 3.9016,
      "step": 78670
    },
    {
      "epoch": 0.16391666666666665,
      "grad_norm": 0.7848449945449829,
      "learning_rate": 0.00028135090057939934,
      "loss": 4.0841,
      "step": 78680
    },
    {
      "epoch": 0.1639375,
      "grad_norm": 0.9120119214057922,
      "learning_rate": 0.00028134613954914267,
      "loss": 3.7416,
      "step": 78690
    },
    {
      "epoch": 0.16395833333333334,
      "grad_norm": 0.7111124992370605,
      "learning_rate": 0.0002813413779515227,
      "loss": 3.9341,
      "step": 78700
    },
    {
      "epoch": 0.16397916666666668,
      "grad_norm": 0.7646217942237854,
      "learning_rate": 0.0002813366157865599,
      "loss": 4.0073,
      "step": 78710
    },
    {
      "epoch": 0.164,
      "grad_norm": 0.9693976640701294,
      "learning_rate": 0.00028133185305427496,
      "loss": 4.006,
      "step": 78720
    },
    {
      "epoch": 0.16402083333333334,
      "grad_norm": 0.7938714623451233,
      "learning_rate": 0.0002813270897546884,
      "loss": 3.8783,
      "step": 78730
    },
    {
      "epoch": 0.16404166666666667,
      "grad_norm": 0.7984306216239929,
      "learning_rate": 0.00028132232588782077,
      "loss": 3.7759,
      "step": 78740
    },
    {
      "epoch": 0.1640625,
      "grad_norm": 0.8953321576118469,
      "learning_rate": 0.0002813175614536927,
      "loss": 4.0683,
      "step": 78750
    },
    {
      "epoch": 0.16408333333333333,
      "grad_norm": 0.6818082928657532,
      "learning_rate": 0.0002813127964523247,
      "loss": 3.9356,
      "step": 78760
    },
    {
      "epoch": 0.16410416666666666,
      "grad_norm": 0.8062520027160645,
      "learning_rate": 0.0002813080308837374,
      "loss": 3.9032,
      "step": 78770
    },
    {
      "epoch": 0.164125,
      "grad_norm": 0.7801048755645752,
      "learning_rate": 0.0002813032647479514,
      "loss": 4.067,
      "step": 78780
    },
    {
      "epoch": 0.16414583333333332,
      "grad_norm": 0.8505407571792603,
      "learning_rate": 0.0002812984980449873,
      "loss": 3.9753,
      "step": 78790
    },
    {
      "epoch": 0.16416666666666666,
      "grad_norm": 0.7905470132827759,
      "learning_rate": 0.0002812937307748656,
      "loss": 4.0678,
      "step": 78800
    },
    {
      "epoch": 0.1641875,
      "grad_norm": 0.6858739256858826,
      "learning_rate": 0.000281288962937607,
      "loss": 3.8236,
      "step": 78810
    },
    {
      "epoch": 0.16420833333333335,
      "grad_norm": 0.7694026827812195,
      "learning_rate": 0.00028128419453323205,
      "loss": 4.0352,
      "step": 78820
    },
    {
      "epoch": 0.16422916666666668,
      "grad_norm": 0.7331535816192627,
      "learning_rate": 0.00028127942556176134,
      "loss": 4.0846,
      "step": 78830
    },
    {
      "epoch": 0.16425,
      "grad_norm": 0.7223294973373413,
      "learning_rate": 0.00028127465602321544,
      "loss": 3.9307,
      "step": 78840
    },
    {
      "epoch": 0.16427083333333334,
      "grad_norm": 0.7279050946235657,
      "learning_rate": 0.000281269885917615,
      "loss": 4.1205,
      "step": 78850
    },
    {
      "epoch": 0.16429166666666667,
      "grad_norm": 0.6930234432220459,
      "learning_rate": 0.00028126511524498066,
      "loss": 4.0908,
      "step": 78860
    },
    {
      "epoch": 0.1643125,
      "grad_norm": 0.8562779426574707,
      "learning_rate": 0.00028126034400533293,
      "loss": 3.9442,
      "step": 78870
    },
    {
      "epoch": 0.16433333333333333,
      "grad_norm": 0.9261311292648315,
      "learning_rate": 0.0002812555721986925,
      "loss": 4.1227,
      "step": 78880
    },
    {
      "epoch": 0.16435416666666666,
      "grad_norm": 0.7066105008125305,
      "learning_rate": 0.00028125079982507995,
      "loss": 4.1251,
      "step": 78890
    },
    {
      "epoch": 0.164375,
      "grad_norm": 0.825730562210083,
      "learning_rate": 0.00028124602688451585,
      "loss": 3.8554,
      "step": 78900
    },
    {
      "epoch": 0.16439583333333332,
      "grad_norm": 0.6633230447769165,
      "learning_rate": 0.0002812412533770209,
      "loss": 3.9867,
      "step": 78910
    },
    {
      "epoch": 0.16441666666666666,
      "grad_norm": 0.726375937461853,
      "learning_rate": 0.0002812364793026157,
      "loss": 3.7262,
      "step": 78920
    },
    {
      "epoch": 0.1644375,
      "grad_norm": 0.8670837879180908,
      "learning_rate": 0.00028123170466132084,
      "loss": 4.0819,
      "step": 78930
    },
    {
      "epoch": 0.16445833333333335,
      "grad_norm": 0.7781756520271301,
      "learning_rate": 0.00028122692945315694,
      "loss": 3.9881,
      "step": 78940
    },
    {
      "epoch": 0.16447916666666668,
      "grad_norm": 0.7366481423377991,
      "learning_rate": 0.00028122215367814467,
      "loss": 3.9541,
      "step": 78950
    },
    {
      "epoch": 0.1645,
      "grad_norm": 0.7142907381057739,
      "learning_rate": 0.0002812173773363047,
      "loss": 3.9786,
      "step": 78960
    },
    {
      "epoch": 0.16452083333333334,
      "grad_norm": 0.7798681855201721,
      "learning_rate": 0.0002812126004276575,
      "loss": 3.7906,
      "step": 78970
    },
    {
      "epoch": 0.16454166666666667,
      "grad_norm": 0.7758227586746216,
      "learning_rate": 0.00028120782295222384,
      "loss": 3.8771,
      "step": 78980
    },
    {
      "epoch": 0.1645625,
      "grad_norm": 0.79195636510849,
      "learning_rate": 0.0002812030449100243,
      "loss": 3.8738,
      "step": 78990
    },
    {
      "epoch": 0.16458333333333333,
      "grad_norm": 0.836733877658844,
      "learning_rate": 0.0002811982663010796,
      "loss": 3.9531,
      "step": 79000
    },
    {
      "epoch": 0.16458333333333333,
      "eval_loss": 4.274040699005127,
      "eval_runtime": 10.5566,
      "eval_samples_per_second": 0.947,
      "eval_steps_per_second": 0.284,
      "step": 79000
    },
    {
      "epoch": 0.16460416666666666,
      "grad_norm": 0.7327297329902649,
      "learning_rate": 0.00028119348712541027,
      "loss": 4.0301,
      "step": 79010
    },
    {
      "epoch": 0.164625,
      "grad_norm": 0.7065144777297974,
      "learning_rate": 0.000281188707383037,
      "loss": 4.0149,
      "step": 79020
    },
    {
      "epoch": 0.16464583333333332,
      "grad_norm": 0.7505620718002319,
      "learning_rate": 0.00028118392707398047,
      "loss": 4.2055,
      "step": 79030
    },
    {
      "epoch": 0.16466666666666666,
      "grad_norm": 0.7665283679962158,
      "learning_rate": 0.0002811791461982613,
      "loss": 4.085,
      "step": 79040
    },
    {
      "epoch": 0.1646875,
      "grad_norm": 0.7255980968475342,
      "learning_rate": 0.0002811743647559001,
      "loss": 3.9971,
      "step": 79050
    },
    {
      "epoch": 0.16470833333333335,
      "grad_norm": 0.7955706119537354,
      "learning_rate": 0.0002811695827469176,
      "loss": 4.0807,
      "step": 79060
    },
    {
      "epoch": 0.16472916666666668,
      "grad_norm": 0.6661986112594604,
      "learning_rate": 0.00028116480017133445,
      "loss": 4.0839,
      "step": 79070
    },
    {
      "epoch": 0.16475,
      "grad_norm": 0.7678513526916504,
      "learning_rate": 0.0002811600170291713,
      "loss": 4.0343,
      "step": 79080
    },
    {
      "epoch": 0.16477083333333334,
      "grad_norm": 0.7826816439628601,
      "learning_rate": 0.00028115523332044874,
      "loss": 4.0307,
      "step": 79090
    },
    {
      "epoch": 0.16479166666666667,
      "grad_norm": 0.7666749954223633,
      "learning_rate": 0.0002811504490451875,
      "loss": 3.8973,
      "step": 79100
    },
    {
      "epoch": 0.1648125,
      "grad_norm": 0.7267382740974426,
      "learning_rate": 0.0002811456642034082,
      "loss": 4.0905,
      "step": 79110
    },
    {
      "epoch": 0.16483333333333333,
      "grad_norm": 0.7018510699272156,
      "learning_rate": 0.0002811408787951316,
      "loss": 4.3171,
      "step": 79120
    },
    {
      "epoch": 0.16485416666666666,
      "grad_norm": 0.8804318308830261,
      "learning_rate": 0.00028113609282037826,
      "loss": 3.9313,
      "step": 79130
    },
    {
      "epoch": 0.164875,
      "grad_norm": 0.7506440281867981,
      "learning_rate": 0.0002811313062791689,
      "loss": 3.8905,
      "step": 79140
    },
    {
      "epoch": 0.16489583333333332,
      "grad_norm": 0.7500459551811218,
      "learning_rate": 0.00028112651917152427,
      "loss": 3.985,
      "step": 79150
    },
    {
      "epoch": 0.16491666666666666,
      "grad_norm": 0.8562813997268677,
      "learning_rate": 0.00028112173149746493,
      "loss": 3.8087,
      "step": 79160
    },
    {
      "epoch": 0.1649375,
      "grad_norm": 0.7789769768714905,
      "learning_rate": 0.0002811169432570116,
      "loss": 3.8242,
      "step": 79170
    },
    {
      "epoch": 0.16495833333333335,
      "grad_norm": 0.7035313844680786,
      "learning_rate": 0.00028111215445018504,
      "loss": 4.0342,
      "step": 79180
    },
    {
      "epoch": 0.16497916666666668,
      "grad_norm": 0.7942529916763306,
      "learning_rate": 0.0002811073650770058,
      "loss": 3.8708,
      "step": 79190
    },
    {
      "epoch": 0.165,
      "grad_norm": 0.697306215763092,
      "learning_rate": 0.0002811025751374947,
      "loss": 4.047,
      "step": 79200
    },
    {
      "epoch": 0.16502083333333334,
      "grad_norm": 0.8313982486724854,
      "learning_rate": 0.00028109778463167236,
      "loss": 3.9808,
      "step": 79210
    },
    {
      "epoch": 0.16504166666666667,
      "grad_norm": 0.799018383026123,
      "learning_rate": 0.0002810929935595594,
      "loss": 3.9431,
      "step": 79220
    },
    {
      "epoch": 0.1650625,
      "grad_norm": 0.8817393779754639,
      "learning_rate": 0.0002810882019211767,
      "loss": 3.943,
      "step": 79230
    },
    {
      "epoch": 0.16508333333333333,
      "grad_norm": 0.7654802203178406,
      "learning_rate": 0.00028108340971654477,
      "loss": 4.0624,
      "step": 79240
    },
    {
      "epoch": 0.16510416666666666,
      "grad_norm": 0.7417361736297607,
      "learning_rate": 0.00028107861694568446,
      "loss": 4.0455,
      "step": 79250
    },
    {
      "epoch": 0.165125,
      "grad_norm": 0.7481659650802612,
      "learning_rate": 0.0002810738236086164,
      "loss": 3.9971,
      "step": 79260
    },
    {
      "epoch": 0.16514583333333333,
      "grad_norm": 0.6726270318031311,
      "learning_rate": 0.0002810690297053613,
      "loss": 4.1322,
      "step": 79270
    },
    {
      "epoch": 0.16516666666666666,
      "grad_norm": 0.734876275062561,
      "learning_rate": 0.00028106423523593986,
      "loss": 3.9241,
      "step": 79280
    },
    {
      "epoch": 0.1651875,
      "grad_norm": 0.7638274431228638,
      "learning_rate": 0.0002810594402003728,
      "loss": 4.192,
      "step": 79290
    },
    {
      "epoch": 0.16520833333333335,
      "grad_norm": 0.8016508221626282,
      "learning_rate": 0.00028105464459868084,
      "loss": 4.1062,
      "step": 79300
    },
    {
      "epoch": 0.16522916666666668,
      "grad_norm": 0.9594808220863342,
      "learning_rate": 0.0002810498484308847,
      "loss": 3.9626,
      "step": 79310
    },
    {
      "epoch": 0.16525,
      "grad_norm": 0.7960378527641296,
      "learning_rate": 0.00028104505169700513,
      "loss": 3.8336,
      "step": 79320
    },
    {
      "epoch": 0.16527083333333334,
      "grad_norm": 0.7224286794662476,
      "learning_rate": 0.00028104025439706275,
      "loss": 3.8021,
      "step": 79330
    },
    {
      "epoch": 0.16529166666666667,
      "grad_norm": 0.7468209862709045,
      "learning_rate": 0.0002810354565310783,
      "loss": 3.9629,
      "step": 79340
    },
    {
      "epoch": 0.1653125,
      "grad_norm": 0.7305186986923218,
      "learning_rate": 0.0002810306580990726,
      "loss": 3.9092,
      "step": 79350
    },
    {
      "epoch": 0.16533333333333333,
      "grad_norm": 0.9614372253417969,
      "learning_rate": 0.00028102585910106634,
      "loss": 3.95,
      "step": 79360
    },
    {
      "epoch": 0.16535416666666666,
      "grad_norm": 1.5901360511779785,
      "learning_rate": 0.0002810210595370802,
      "loss": 4.1231,
      "step": 79370
    },
    {
      "epoch": 0.165375,
      "grad_norm": 0.7954540848731995,
      "learning_rate": 0.00028101625940713497,
      "loss": 4.2821,
      "step": 79380
    },
    {
      "epoch": 0.16539583333333333,
      "grad_norm": 0.7796814441680908,
      "learning_rate": 0.00028101145871125134,
      "loss": 4.0236,
      "step": 79390
    },
    {
      "epoch": 0.16541666666666666,
      "grad_norm": 0.7338184714317322,
      "learning_rate": 0.00028100665744945006,
      "loss": 3.9432,
      "step": 79400
    },
    {
      "epoch": 0.1654375,
      "grad_norm": 0.7124261260032654,
      "learning_rate": 0.0002810018556217519,
      "loss": 3.8748,
      "step": 79410
    },
    {
      "epoch": 0.16545833333333335,
      "grad_norm": 0.8054860234260559,
      "learning_rate": 0.00028099705322817757,
      "loss": 3.8258,
      "step": 79420
    },
    {
      "epoch": 0.16547916666666668,
      "grad_norm": 0.7687973380088806,
      "learning_rate": 0.0002809922502687478,
      "loss": 4.0275,
      "step": 79430
    },
    {
      "epoch": 0.1655,
      "grad_norm": 0.7981812357902527,
      "learning_rate": 0.00028098744674348336,
      "loss": 4.0861,
      "step": 79440
    },
    {
      "epoch": 0.16552083333333334,
      "grad_norm": 0.6536878943443298,
      "learning_rate": 0.000280982642652405,
      "loss": 3.8323,
      "step": 79450
    },
    {
      "epoch": 0.16554166666666667,
      "grad_norm": 0.7830265164375305,
      "learning_rate": 0.00028097783799553355,
      "loss": 3.8333,
      "step": 79460
    },
    {
      "epoch": 0.1655625,
      "grad_norm": 0.7079572081565857,
      "learning_rate": 0.0002809730327728896,
      "loss": 4.0455,
      "step": 79470
    },
    {
      "epoch": 0.16558333333333333,
      "grad_norm": 0.7992717027664185,
      "learning_rate": 0.000280968226984494,
      "loss": 3.968,
      "step": 79480
    },
    {
      "epoch": 0.16560416666666666,
      "grad_norm": 0.8496853709220886,
      "learning_rate": 0.0002809634206303675,
      "loss": 3.8516,
      "step": 79490
    },
    {
      "epoch": 0.165625,
      "grad_norm": 0.9133227467536926,
      "learning_rate": 0.0002809586137105309,
      "loss": 3.9876,
      "step": 79500
    },
    {
      "epoch": 0.16564583333333333,
      "grad_norm": 0.7644991278648376,
      "learning_rate": 0.0002809538062250049,
      "loss": 4.1199,
      "step": 79510
    },
    {
      "epoch": 0.16566666666666666,
      "grad_norm": 0.7046902775764465,
      "learning_rate": 0.0002809489981738103,
      "loss": 3.983,
      "step": 79520
    },
    {
      "epoch": 0.1656875,
      "grad_norm": 0.8305380344390869,
      "learning_rate": 0.00028094418955696787,
      "loss": 3.8723,
      "step": 79530
    },
    {
      "epoch": 0.16570833333333335,
      "grad_norm": 0.7289179563522339,
      "learning_rate": 0.00028093938037449835,
      "loss": 4.0626,
      "step": 79540
    },
    {
      "epoch": 0.16572916666666668,
      "grad_norm": 0.7896987199783325,
      "learning_rate": 0.0002809345706264225,
      "loss": 3.9664,
      "step": 79550
    },
    {
      "epoch": 0.16575,
      "grad_norm": 0.8748692870140076,
      "learning_rate": 0.00028092976031276123,
      "loss": 3.8873,
      "step": 79560
    },
    {
      "epoch": 0.16577083333333334,
      "grad_norm": 0.763181209564209,
      "learning_rate": 0.00028092494943353515,
      "loss": 4.1144,
      "step": 79570
    },
    {
      "epoch": 0.16579166666666667,
      "grad_norm": 0.7084277868270874,
      "learning_rate": 0.0002809201379887651,
      "loss": 3.9035,
      "step": 79580
    },
    {
      "epoch": 0.1658125,
      "grad_norm": 0.7882450819015503,
      "learning_rate": 0.00028091532597847193,
      "loss": 4.0627,
      "step": 79590
    },
    {
      "epoch": 0.16583333333333333,
      "grad_norm": 0.7391655445098877,
      "learning_rate": 0.0002809105134026763,
      "loss": 3.9874,
      "step": 79600
    },
    {
      "epoch": 0.16585416666666666,
      "grad_norm": 0.6247223615646362,
      "learning_rate": 0.00028090570026139913,
      "loss": 3.8176,
      "step": 79610
    },
    {
      "epoch": 0.165875,
      "grad_norm": 0.7402728796005249,
      "learning_rate": 0.00028090088655466117,
      "loss": 3.9619,
      "step": 79620
    },
    {
      "epoch": 0.16589583333333333,
      "grad_norm": 0.7551479935646057,
      "learning_rate": 0.0002808960722824831,
      "loss": 3.979,
      "step": 79630
    },
    {
      "epoch": 0.16591666666666666,
      "grad_norm": 0.8004513382911682,
      "learning_rate": 0.0002808912574448859,
      "loss": 3.9965,
      "step": 79640
    },
    {
      "epoch": 0.1659375,
      "grad_norm": 0.7752111554145813,
      "learning_rate": 0.00028088644204189023,
      "loss": 4.0278,
      "step": 79650
    },
    {
      "epoch": 0.16595833333333335,
      "grad_norm": 0.6938941478729248,
      "learning_rate": 0.000280881626073517,
      "loss": 4.0134,
      "step": 79660
    },
    {
      "epoch": 0.16597916666666668,
      "grad_norm": 0.7550760507583618,
      "learning_rate": 0.0002808768095397869,
      "loss": 3.9678,
      "step": 79670
    },
    {
      "epoch": 0.166,
      "grad_norm": 0.7024582624435425,
      "learning_rate": 0.0002808719924407208,
      "loss": 4.1876,
      "step": 79680
    },
    {
      "epoch": 0.16602083333333334,
      "grad_norm": 0.7355544567108154,
      "learning_rate": 0.00028086717477633947,
      "loss": 3.8906,
      "step": 79690
    },
    {
      "epoch": 0.16604166666666667,
      "grad_norm": 0.7261409759521484,
      "learning_rate": 0.00028086235654666377,
      "loss": 3.8891,
      "step": 79700
    },
    {
      "epoch": 0.1660625,
      "grad_norm": 0.7331125736236572,
      "learning_rate": 0.0002808575377517145,
      "loss": 3.8622,
      "step": 79710
    },
    {
      "epoch": 0.16608333333333333,
      "grad_norm": 0.6785262823104858,
      "learning_rate": 0.00028085271839151246,
      "loss": 3.8791,
      "step": 79720
    },
    {
      "epoch": 0.16610416666666666,
      "grad_norm": 0.7882601022720337,
      "learning_rate": 0.0002808478984660785,
      "loss": 3.9126,
      "step": 79730
    },
    {
      "epoch": 0.166125,
      "grad_norm": 0.8628820180892944,
      "learning_rate": 0.0002808430779754333,
      "loss": 3.8392,
      "step": 79740
    },
    {
      "epoch": 0.16614583333333333,
      "grad_norm": 0.7681230306625366,
      "learning_rate": 0.00028083825691959784,
      "loss": 4.0293,
      "step": 79750
    },
    {
      "epoch": 0.16616666666666666,
      "grad_norm": 0.7893106937408447,
      "learning_rate": 0.000280833435298593,
      "loss": 3.9894,
      "step": 79760
    },
    {
      "epoch": 0.1661875,
      "grad_norm": 1.605272650718689,
      "learning_rate": 0.0002808286131124394,
      "loss": 3.9703,
      "step": 79770
    },
    {
      "epoch": 0.16620833333333335,
      "grad_norm": 0.8590608835220337,
      "learning_rate": 0.000280823790361158,
      "loss": 3.9137,
      "step": 79780
    },
    {
      "epoch": 0.16622916666666668,
      "grad_norm": 0.7291718125343323,
      "learning_rate": 0.00028081896704476963,
      "loss": 3.972,
      "step": 79790
    },
    {
      "epoch": 0.16625,
      "grad_norm": 0.7869355082511902,
      "learning_rate": 0.00028081414316329513,
      "loss": 4.0359,
      "step": 79800
    },
    {
      "epoch": 0.16627083333333334,
      "grad_norm": 0.8046999573707581,
      "learning_rate": 0.00028080931871675527,
      "loss": 4.0786,
      "step": 79810
    },
    {
      "epoch": 0.16629166666666667,
      "grad_norm": 0.7285691499710083,
      "learning_rate": 0.00028080449370517093,
      "loss": 4.1393,
      "step": 79820
    },
    {
      "epoch": 0.1663125,
      "grad_norm": 0.8584742546081543,
      "learning_rate": 0.000280799668128563,
      "loss": 4.04,
      "step": 79830
    },
    {
      "epoch": 0.16633333333333333,
      "grad_norm": 0.7154002785682678,
      "learning_rate": 0.0002807948419869522,
      "loss": 3.9499,
      "step": 79840
    },
    {
      "epoch": 0.16635416666666666,
      "grad_norm": 0.7684343457221985,
      "learning_rate": 0.0002807900152803595,
      "loss": 3.9646,
      "step": 79850
    },
    {
      "epoch": 0.166375,
      "grad_norm": 0.7506988644599915,
      "learning_rate": 0.00028078518800880566,
      "loss": 3.9211,
      "step": 79860
    },
    {
      "epoch": 0.16639583333333333,
      "grad_norm": 0.7584805488586426,
      "learning_rate": 0.0002807803601723116,
      "loss": 4.0662,
      "step": 79870
    },
    {
      "epoch": 0.16641666666666666,
      "grad_norm": 0.8655499219894409,
      "learning_rate": 0.0002807755317708982,
      "loss": 3.8505,
      "step": 79880
    },
    {
      "epoch": 0.1664375,
      "grad_norm": 0.7434529662132263,
      "learning_rate": 0.00028077070280458624,
      "loss": 4.0159,
      "step": 79890
    },
    {
      "epoch": 0.16645833333333335,
      "grad_norm": 0.9914050698280334,
      "learning_rate": 0.0002807658732733966,
      "loss": 4.0689,
      "step": 79900
    },
    {
      "epoch": 0.16647916666666668,
      "grad_norm": 0.8440589904785156,
      "learning_rate": 0.00028076104317735013,
      "loss": 3.9918,
      "step": 79910
    },
    {
      "epoch": 0.1665,
      "grad_norm": 0.7226964235305786,
      "learning_rate": 0.0002807562125164677,
      "loss": 3.9756,
      "step": 79920
    },
    {
      "epoch": 0.16652083333333334,
      "grad_norm": 0.8264700174331665,
      "learning_rate": 0.00028075138129077026,
      "loss": 3.7759,
      "step": 79930
    },
    {
      "epoch": 0.16654166666666667,
      "grad_norm": 0.7220835089683533,
      "learning_rate": 0.00028074654950027857,
      "loss": 3.9762,
      "step": 79940
    },
    {
      "epoch": 0.1665625,
      "grad_norm": 0.7459014058113098,
      "learning_rate": 0.0002807417171450135,
      "loss": 3.7879,
      "step": 79950
    },
    {
      "epoch": 0.16658333333333333,
      "grad_norm": 0.8057001829147339,
      "learning_rate": 0.000280736884224996,
      "loss": 3.936,
      "step": 79960
    },
    {
      "epoch": 0.16660416666666666,
      "grad_norm": 0.7922872304916382,
      "learning_rate": 0.0002807320507402469,
      "loss": 3.9335,
      "step": 79970
    },
    {
      "epoch": 0.166625,
      "grad_norm": 0.8780884146690369,
      "learning_rate": 0.00028072721669078715,
      "loss": 3.9507,
      "step": 79980
    },
    {
      "epoch": 0.16664583333333333,
      "grad_norm": 0.8475663065910339,
      "learning_rate": 0.0002807223820766375,
      "loss": 3.7474,
      "step": 79990
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 1.1149990558624268,
      "learning_rate": 0.0002807175468978189,
      "loss": 3.8218,
      "step": 80000
    },
    {
      "epoch": 0.16666666666666666,
      "eval_loss": 4.279177665710449,
      "eval_runtime": 13.5557,
      "eval_samples_per_second": 0.738,
      "eval_steps_per_second": 0.221,
      "step": 80000
    },
    {
      "epoch": 0.1666875,
      "grad_norm": 0.8452630639076233,
      "learning_rate": 0.0002807127111543523,
      "loss": 3.9662,
      "step": 80010
    },
    {
      "epoch": 0.16670833333333332,
      "grad_norm": 0.8235986828804016,
      "learning_rate": 0.0002807078748462584,
      "loss": 3.7763,
      "step": 80020
    },
    {
      "epoch": 0.16672916666666668,
      "grad_norm": 1.0518958568572998,
      "learning_rate": 0.0002807030379735583,
      "loss": 3.9067,
      "step": 80030
    },
    {
      "epoch": 0.16675,
      "grad_norm": 0.9278172254562378,
      "learning_rate": 0.0002806982005362728,
      "loss": 3.7963,
      "step": 80040
    },
    {
      "epoch": 0.16677083333333334,
      "grad_norm": 0.7798091173171997,
      "learning_rate": 0.0002806933625344229,
      "loss": 4.0174,
      "step": 80050
    },
    {
      "epoch": 0.16679166666666667,
      "grad_norm": 0.8742340207099915,
      "learning_rate": 0.0002806885239680293,
      "loss": 3.9202,
      "step": 80060
    },
    {
      "epoch": 0.1668125,
      "grad_norm": 0.9284462928771973,
      "learning_rate": 0.000280683684837113,
      "loss": 3.7859,
      "step": 80070
    },
    {
      "epoch": 0.16683333333333333,
      "grad_norm": 0.8931137323379517,
      "learning_rate": 0.000280678845141695,
      "loss": 3.7204,
      "step": 80080
    },
    {
      "epoch": 0.16685416666666666,
      "grad_norm": 0.7700774073600769,
      "learning_rate": 0.00028067400488179605,
      "loss": 4.0482,
      "step": 80090
    },
    {
      "epoch": 0.166875,
      "grad_norm": 0.7893162965774536,
      "learning_rate": 0.0002806691640574371,
      "loss": 3.8758,
      "step": 80100
    },
    {
      "epoch": 0.16689583333333333,
      "grad_norm": 0.8157781958580017,
      "learning_rate": 0.0002806643226686391,
      "loss": 4.164,
      "step": 80110
    },
    {
      "epoch": 0.16691666666666666,
      "grad_norm": 0.7681192755699158,
      "learning_rate": 0.000280659480715423,
      "loss": 3.8519,
      "step": 80120
    },
    {
      "epoch": 0.1669375,
      "grad_norm": 0.8873482942581177,
      "learning_rate": 0.0002806546381978096,
      "loss": 4.0934,
      "step": 80130
    },
    {
      "epoch": 0.16695833333333332,
      "grad_norm": 0.8485541939735413,
      "learning_rate": 0.00028064979511581987,
      "loss": 3.8956,
      "step": 80140
    },
    {
      "epoch": 0.16697916666666668,
      "grad_norm": 0.8873647451400757,
      "learning_rate": 0.0002806449514694748,
      "loss": 4.0133,
      "step": 80150
    },
    {
      "epoch": 0.167,
      "grad_norm": 1.0057164430618286,
      "learning_rate": 0.00028064010725879524,
      "loss": 3.923,
      "step": 80160
    },
    {
      "epoch": 0.16702083333333334,
      "grad_norm": 0.6553002595901489,
      "learning_rate": 0.0002806352624838021,
      "loss": 4.0175,
      "step": 80170
    },
    {
      "epoch": 0.16704166666666667,
      "grad_norm": 0.811758279800415,
      "learning_rate": 0.0002806304171445164,
      "loss": 3.8816,
      "step": 80180
    },
    {
      "epoch": 0.1670625,
      "grad_norm": 0.7502511143684387,
      "learning_rate": 0.0002806255712409589,
      "loss": 3.997,
      "step": 80190
    },
    {
      "epoch": 0.16708333333333333,
      "grad_norm": 0.7627707719802856,
      "learning_rate": 0.0002806207247731507,
      "loss": 4.0348,
      "step": 80200
    },
    {
      "epoch": 0.16710416666666666,
      "grad_norm": 0.7465724349021912,
      "learning_rate": 0.00028061587774111266,
      "loss": 3.9098,
      "step": 80210
    },
    {
      "epoch": 0.167125,
      "grad_norm": 0.733873724937439,
      "learning_rate": 0.0002806110301448657,
      "loss": 3.9728,
      "step": 80220
    },
    {
      "epoch": 0.16714583333333333,
      "grad_norm": 0.8118357062339783,
      "learning_rate": 0.00028060618198443086,
      "loss": 3.8905,
      "step": 80230
    },
    {
      "epoch": 0.16716666666666666,
      "grad_norm": 0.6868577003479004,
      "learning_rate": 0.00028060133325982897,
      "loss": 3.9723,
      "step": 80240
    },
    {
      "epoch": 0.1671875,
      "grad_norm": 0.9205425381660461,
      "learning_rate": 0.000280596483971081,
      "loss": 4.0445,
      "step": 80250
    },
    {
      "epoch": 0.16720833333333332,
      "grad_norm": 0.8666914701461792,
      "learning_rate": 0.000280591634118208,
      "loss": 3.9385,
      "step": 80260
    },
    {
      "epoch": 0.16722916666666668,
      "grad_norm": 0.7166321873664856,
      "learning_rate": 0.00028058678370123074,
      "loss": 3.6853,
      "step": 80270
    },
    {
      "epoch": 0.16725,
      "grad_norm": 0.9137424230575562,
      "learning_rate": 0.00028058193272017027,
      "loss": 3.9477,
      "step": 80280
    },
    {
      "epoch": 0.16727083333333334,
      "grad_norm": 0.7676709294319153,
      "learning_rate": 0.0002805770811750476,
      "loss": 4.1922,
      "step": 80290
    },
    {
      "epoch": 0.16729166666666667,
      "grad_norm": 0.7563128471374512,
      "learning_rate": 0.00028057222906588354,
      "loss": 3.933,
      "step": 80300
    },
    {
      "epoch": 0.1673125,
      "grad_norm": 0.9271994233131409,
      "learning_rate": 0.0002805673763926992,
      "loss": 3.9907,
      "step": 80310
    },
    {
      "epoch": 0.16733333333333333,
      "grad_norm": 0.7976372241973877,
      "learning_rate": 0.0002805625231555154,
      "loss": 3.9676,
      "step": 80320
    },
    {
      "epoch": 0.16735416666666666,
      "grad_norm": 0.901520848274231,
      "learning_rate": 0.00028055766935435327,
      "loss": 3.8295,
      "step": 80330
    },
    {
      "epoch": 0.167375,
      "grad_norm": 0.7262623310089111,
      "learning_rate": 0.00028055281498923364,
      "loss": 3.8379,
      "step": 80340
    },
    {
      "epoch": 0.16739583333333333,
      "grad_norm": 0.9015292525291443,
      "learning_rate": 0.00028054796006017754,
      "loss": 3.8567,
      "step": 80350
    },
    {
      "epoch": 0.16741666666666666,
      "grad_norm": 0.7392222285270691,
      "learning_rate": 0.00028054310456720593,
      "loss": 4.064,
      "step": 80360
    },
    {
      "epoch": 0.1674375,
      "grad_norm": 0.9553157687187195,
      "learning_rate": 0.0002805382485103398,
      "loss": 3.9364,
      "step": 80370
    },
    {
      "epoch": 0.16745833333333332,
      "grad_norm": 0.712239146232605,
      "learning_rate": 0.00028053339188960005,
      "loss": 4.0212,
      "step": 80380
    },
    {
      "epoch": 0.16747916666666668,
      "grad_norm": 0.761043131351471,
      "learning_rate": 0.00028052853470500775,
      "loss": 3.9499,
      "step": 80390
    },
    {
      "epoch": 0.1675,
      "grad_norm": 0.8301210403442383,
      "learning_rate": 0.00028052367695658386,
      "loss": 3.9665,
      "step": 80400
    },
    {
      "epoch": 0.16752083333333334,
      "grad_norm": 0.9389559030532837,
      "learning_rate": 0.0002805188186443493,
      "loss": 3.9139,
      "step": 80410
    },
    {
      "epoch": 0.16754166666666667,
      "grad_norm": 0.7564241290092468,
      "learning_rate": 0.0002805139597683252,
      "loss": 4.0067,
      "step": 80420
    },
    {
      "epoch": 0.1675625,
      "grad_norm": 0.6750020980834961,
      "learning_rate": 0.00028050910032853234,
      "loss": 3.921,
      "step": 80430
    },
    {
      "epoch": 0.16758333333333333,
      "grad_norm": 0.7333940863609314,
      "learning_rate": 0.0002805042403249919,
      "loss": 3.8761,
      "step": 80440
    },
    {
      "epoch": 0.16760416666666667,
      "grad_norm": 0.7410913705825806,
      "learning_rate": 0.0002804993797577248,
      "loss": 3.865,
      "step": 80450
    },
    {
      "epoch": 0.167625,
      "grad_norm": 0.7607890963554382,
      "learning_rate": 0.000280494518626752,
      "loss": 3.9806,
      "step": 80460
    },
    {
      "epoch": 0.16764583333333333,
      "grad_norm": 0.7862135171890259,
      "learning_rate": 0.00028048965693209453,
      "loss": 3.9377,
      "step": 80470
    },
    {
      "epoch": 0.16766666666666666,
      "grad_norm": 0.8229547142982483,
      "learning_rate": 0.0002804847946737734,
      "loss": 3.9907,
      "step": 80480
    },
    {
      "epoch": 0.1676875,
      "grad_norm": 0.8241860866546631,
      "learning_rate": 0.0002804799318518096,
      "loss": 3.8821,
      "step": 80490
    },
    {
      "epoch": 0.16770833333333332,
      "grad_norm": 0.843778133392334,
      "learning_rate": 0.0002804750684662242,
      "loss": 3.89,
      "step": 80500
    },
    {
      "epoch": 0.16772916666666668,
      "grad_norm": 0.7160305976867676,
      "learning_rate": 0.0002804702045170381,
      "loss": 4.1016,
      "step": 80510
    },
    {
      "epoch": 0.16775,
      "grad_norm": 0.7118239402770996,
      "learning_rate": 0.0002804653400042724,
      "loss": 3.9687,
      "step": 80520
    },
    {
      "epoch": 0.16777083333333334,
      "grad_norm": 0.7526283860206604,
      "learning_rate": 0.00028046047492794805,
      "loss": 4.0954,
      "step": 80530
    },
    {
      "epoch": 0.16779166666666667,
      "grad_norm": 0.7911638021469116,
      "learning_rate": 0.00028045560928808606,
      "loss": 3.9884,
      "step": 80540
    },
    {
      "epoch": 0.1678125,
      "grad_norm": 0.7980467677116394,
      "learning_rate": 0.0002804507430847075,
      "loss": 3.8179,
      "step": 80550
    },
    {
      "epoch": 0.16783333333333333,
      "grad_norm": 0.7775265574455261,
      "learning_rate": 0.00028044587631783334,
      "loss": 3.9125,
      "step": 80560
    },
    {
      "epoch": 0.16785416666666667,
      "grad_norm": 0.6612196564674377,
      "learning_rate": 0.0002804410089874846,
      "loss": 3.9613,
      "step": 80570
    },
    {
      "epoch": 0.167875,
      "grad_norm": 0.7300620675086975,
      "learning_rate": 0.00028043614109368243,
      "loss": 3.9923,
      "step": 80580
    },
    {
      "epoch": 0.16789583333333333,
      "grad_norm": 0.7935642004013062,
      "learning_rate": 0.00028043127263644775,
      "loss": 4.0617,
      "step": 80590
    },
    {
      "epoch": 0.16791666666666666,
      "grad_norm": 0.8007091879844666,
      "learning_rate": 0.00028042640361580155,
      "loss": 3.8146,
      "step": 80600
    },
    {
      "epoch": 0.1679375,
      "grad_norm": 0.7504349946975708,
      "learning_rate": 0.0002804215340317649,
      "loss": 3.8772,
      "step": 80610
    },
    {
      "epoch": 0.16795833333333332,
      "grad_norm": 0.6971269845962524,
      "learning_rate": 0.00028041666388435886,
      "loss": 3.8208,
      "step": 80620
    },
    {
      "epoch": 0.16797916666666668,
      "grad_norm": 0.7043132185935974,
      "learning_rate": 0.0002804117931736045,
      "loss": 3.8472,
      "step": 80630
    },
    {
      "epoch": 0.168,
      "grad_norm": 0.8482775688171387,
      "learning_rate": 0.0002804069218995228,
      "loss": 3.8935,
      "step": 80640
    },
    {
      "epoch": 0.16802083333333334,
      "grad_norm": 0.7840139269828796,
      "learning_rate": 0.0002804020500621348,
      "loss": 3.888,
      "step": 80650
    },
    {
      "epoch": 0.16804166666666667,
      "grad_norm": 0.7546809911727905,
      "learning_rate": 0.00028039717766146154,
      "loss": 3.8702,
      "step": 80660
    },
    {
      "epoch": 0.1680625,
      "grad_norm": 0.8147913813591003,
      "learning_rate": 0.00028039230469752407,
      "loss": 4.02,
      "step": 80670
    },
    {
      "epoch": 0.16808333333333333,
      "grad_norm": 0.8539531230926514,
      "learning_rate": 0.00028038743117034357,
      "loss": 3.943,
      "step": 80680
    },
    {
      "epoch": 0.16810416666666667,
      "grad_norm": 0.8945760726928711,
      "learning_rate": 0.00028038255707994085,
      "loss": 4.0914,
      "step": 80690
    },
    {
      "epoch": 0.168125,
      "grad_norm": 0.8220838904380798,
      "learning_rate": 0.0002803776824263372,
      "loss": 3.9033,
      "step": 80700
    },
    {
      "epoch": 0.16814583333333333,
      "grad_norm": 0.6471647024154663,
      "learning_rate": 0.00028037280720955346,
      "loss": 3.7948,
      "step": 80710
    },
    {
      "epoch": 0.16816666666666666,
      "grad_norm": 0.9927796125411987,
      "learning_rate": 0.00028036793142961086,
      "loss": 3.9242,
      "step": 80720
    },
    {
      "epoch": 0.1681875,
      "grad_norm": 0.7403928637504578,
      "learning_rate": 0.0002803630550865304,
      "loss": 3.9476,
      "step": 80730
    },
    {
      "epoch": 0.16820833333333332,
      "grad_norm": 1.2569527626037598,
      "learning_rate": 0.00028035817818033315,
      "loss": 4.079,
      "step": 80740
    },
    {
      "epoch": 0.16822916666666668,
      "grad_norm": 0.7572879195213318,
      "learning_rate": 0.0002803533007110401,
      "loss": 3.9825,
      "step": 80750
    },
    {
      "epoch": 0.16825,
      "grad_norm": 0.84687739610672,
      "learning_rate": 0.0002803484226786725,
      "loss": 4.0196,
      "step": 80760
    },
    {
      "epoch": 0.16827083333333334,
      "grad_norm": 0.764293372631073,
      "learning_rate": 0.0002803435440832512,
      "loss": 3.83,
      "step": 80770
    },
    {
      "epoch": 0.16829166666666667,
      "grad_norm": 0.8155115246772766,
      "learning_rate": 0.0002803386649247975,
      "loss": 4.1501,
      "step": 80780
    },
    {
      "epoch": 0.1683125,
      "grad_norm": 0.9214715957641602,
      "learning_rate": 0.0002803337852033323,
      "loss": 3.9874,
      "step": 80790
    },
    {
      "epoch": 0.16833333333333333,
      "grad_norm": 0.806868314743042,
      "learning_rate": 0.0002803289049188767,
      "loss": 4.077,
      "step": 80800
    },
    {
      "epoch": 0.16835416666666667,
      "grad_norm": 0.8796967267990112,
      "learning_rate": 0.00028032402407145184,
      "loss": 4.1104,
      "step": 80810
    },
    {
      "epoch": 0.168375,
      "grad_norm": 0.789475679397583,
      "learning_rate": 0.00028031914266107876,
      "loss": 4.1166,
      "step": 80820
    },
    {
      "epoch": 0.16839583333333333,
      "grad_norm": 0.6871716976165771,
      "learning_rate": 0.00028031426068777864,
      "loss": 4.0947,
      "step": 80830
    },
    {
      "epoch": 0.16841666666666666,
      "grad_norm": 0.7051374912261963,
      "learning_rate": 0.00028030937815157246,
      "loss": 3.9045,
      "step": 80840
    },
    {
      "epoch": 0.1684375,
      "grad_norm": 0.809330403804779,
      "learning_rate": 0.0002803044950524813,
      "loss": 3.9822,
      "step": 80850
    },
    {
      "epoch": 0.16845833333333332,
      "grad_norm": 0.9692503213882446,
      "learning_rate": 0.0002802996113905264,
      "loss": 3.9517,
      "step": 80860
    },
    {
      "epoch": 0.16847916666666668,
      "grad_norm": 0.8738134503364563,
      "learning_rate": 0.00028029472716572867,
      "loss": 3.7231,
      "step": 80870
    },
    {
      "epoch": 0.1685,
      "grad_norm": 0.7911787033081055,
      "learning_rate": 0.0002802898423781093,
      "loss": 3.6726,
      "step": 80880
    },
    {
      "epoch": 0.16852083333333334,
      "grad_norm": 0.7951427698135376,
      "learning_rate": 0.0002802849570276894,
      "loss": 4.0394,
      "step": 80890
    },
    {
      "epoch": 0.16854166666666667,
      "grad_norm": 0.810341477394104,
      "learning_rate": 0.0002802800711144901,
      "loss": 3.7436,
      "step": 80900
    },
    {
      "epoch": 0.1685625,
      "grad_norm": 0.9517556428909302,
      "learning_rate": 0.0002802751846385324,
      "loss": 3.8068,
      "step": 80910
    },
    {
      "epoch": 0.16858333333333334,
      "grad_norm": 0.8446322083473206,
      "learning_rate": 0.00028027029759983746,
      "loss": 3.9325,
      "step": 80920
    },
    {
      "epoch": 0.16860416666666667,
      "grad_norm": 0.7706509232521057,
      "learning_rate": 0.00028026540999842646,
      "loss": 3.9307,
      "step": 80930
    },
    {
      "epoch": 0.168625,
      "grad_norm": 0.8258076310157776,
      "learning_rate": 0.0002802605218343204,
      "loss": 4.0252,
      "step": 80940
    },
    {
      "epoch": 0.16864583333333333,
      "grad_norm": 0.87649005651474,
      "learning_rate": 0.0002802556331075405,
      "loss": 3.9053,
      "step": 80950
    },
    {
      "epoch": 0.16866666666666666,
      "grad_norm": 0.8166248798370361,
      "learning_rate": 0.00028025074381810776,
      "loss": 3.9387,
      "step": 80960
    },
    {
      "epoch": 0.1686875,
      "grad_norm": 0.710884153842926,
      "learning_rate": 0.0002802458539660434,
      "loss": 3.8249,
      "step": 80970
    },
    {
      "epoch": 0.16870833333333332,
      "grad_norm": 0.7656628489494324,
      "learning_rate": 0.00028024096355136854,
      "loss": 3.9008,
      "step": 80980
    },
    {
      "epoch": 0.16872916666666668,
      "grad_norm": 0.8113968968391418,
      "learning_rate": 0.0002802360725741042,
      "loss": 3.8273,
      "step": 80990
    },
    {
      "epoch": 0.16875,
      "grad_norm": 0.7586864829063416,
      "learning_rate": 0.0002802311810342716,
      "loss": 3.9225,
      "step": 81000
    },
    {
      "epoch": 0.16875,
      "eval_loss": 4.2763352394104,
      "eval_runtime": 10.2697,
      "eval_samples_per_second": 0.974,
      "eval_steps_per_second": 0.292,
      "step": 81000
    },
    {
      "epoch": 0.16877083333333334,
      "grad_norm": 0.9365801215171814,
      "learning_rate": 0.0002802262889318918,
      "loss": 4.0601,
      "step": 81010
    },
    {
      "epoch": 0.16879166666666667,
      "grad_norm": 0.8260058760643005,
      "learning_rate": 0.00028022139626698606,
      "loss": 3.9112,
      "step": 81020
    },
    {
      "epoch": 0.1688125,
      "grad_norm": 0.8280866146087646,
      "learning_rate": 0.00028021650303957545,
      "loss": 4.0152,
      "step": 81030
    },
    {
      "epoch": 0.16883333333333334,
      "grad_norm": 1.4335800409317017,
      "learning_rate": 0.000280211609249681,
      "loss": 3.9492,
      "step": 81040
    },
    {
      "epoch": 0.16885416666666667,
      "grad_norm": 0.7633799314498901,
      "learning_rate": 0.000280206714897324,
      "loss": 3.8855,
      "step": 81050
    },
    {
      "epoch": 0.168875,
      "grad_norm": 0.6972874402999878,
      "learning_rate": 0.0002802018199825255,
      "loss": 3.8978,
      "step": 81060
    },
    {
      "epoch": 0.16889583333333333,
      "grad_norm": 0.7478734850883484,
      "learning_rate": 0.0002801969245053067,
      "loss": 3.8746,
      "step": 81070
    },
    {
      "epoch": 0.16891666666666666,
      "grad_norm": 0.8007070422172546,
      "learning_rate": 0.0002801920284656887,
      "loss": 3.9347,
      "step": 81080
    },
    {
      "epoch": 0.1689375,
      "grad_norm": 0.7030515670776367,
      "learning_rate": 0.0002801871318636927,
      "loss": 3.8915,
      "step": 81090
    },
    {
      "epoch": 0.16895833333333332,
      "grad_norm": 0.7649484872817993,
      "learning_rate": 0.0002801822346993398,
      "loss": 4.0601,
      "step": 81100
    },
    {
      "epoch": 0.16897916666666668,
      "grad_norm": 0.8628623485565186,
      "learning_rate": 0.00028017733697265117,
      "loss": 3.9757,
      "step": 81110
    },
    {
      "epoch": 0.169,
      "grad_norm": 0.8294559717178345,
      "learning_rate": 0.000280172438683648,
      "loss": 3.8758,
      "step": 81120
    },
    {
      "epoch": 0.16902083333333334,
      "grad_norm": 0.8107723593711853,
      "learning_rate": 0.0002801675398323514,
      "loss": 3.7453,
      "step": 81130
    },
    {
      "epoch": 0.16904166666666667,
      "grad_norm": 0.795534074306488,
      "learning_rate": 0.0002801626404187826,
      "loss": 4.1106,
      "step": 81140
    },
    {
      "epoch": 0.1690625,
      "grad_norm": 0.7420551776885986,
      "learning_rate": 0.0002801577404429626,
      "loss": 4.0992,
      "step": 81150
    },
    {
      "epoch": 0.16908333333333334,
      "grad_norm": 0.8054308891296387,
      "learning_rate": 0.0002801528399049128,
      "loss": 4.01,
      "step": 81160
    },
    {
      "epoch": 0.16910416666666667,
      "grad_norm": 0.8937034010887146,
      "learning_rate": 0.0002801479388046542,
      "loss": 3.9965,
      "step": 81170
    },
    {
      "epoch": 0.169125,
      "grad_norm": 0.7872990965843201,
      "learning_rate": 0.00028014303714220804,
      "loss": 3.9223,
      "step": 81180
    },
    {
      "epoch": 0.16914583333333333,
      "grad_norm": 0.731533944606781,
      "learning_rate": 0.00028013813491759547,
      "loss": 3.929,
      "step": 81190
    },
    {
      "epoch": 0.16916666666666666,
      "grad_norm": 0.7908456921577454,
      "learning_rate": 0.0002801332321308376,
      "loss": 3.8914,
      "step": 81200
    },
    {
      "epoch": 0.1691875,
      "grad_norm": 0.7911894917488098,
      "learning_rate": 0.00028012832878195575,
      "loss": 4.056,
      "step": 81210
    },
    {
      "epoch": 0.16920833333333332,
      "grad_norm": 0.770489513874054,
      "learning_rate": 0.000280123424870971,
      "loss": 3.8683,
      "step": 81220
    },
    {
      "epoch": 0.16922916666666668,
      "grad_norm": 0.7589853405952454,
      "learning_rate": 0.0002801185203979046,
      "loss": 3.8689,
      "step": 81230
    },
    {
      "epoch": 0.16925,
      "grad_norm": 0.8417106866836548,
      "learning_rate": 0.0002801136153627777,
      "loss": 3.9292,
      "step": 81240
    },
    {
      "epoch": 0.16927083333333334,
      "grad_norm": 0.7086093425750732,
      "learning_rate": 0.0002801087097656114,
      "loss": 4.0074,
      "step": 81250
    },
    {
      "epoch": 0.16929166666666667,
      "grad_norm": 0.7774686217308044,
      "learning_rate": 0.00028010380360642703,
      "loss": 3.9733,
      "step": 81260
    },
    {
      "epoch": 0.1693125,
      "grad_norm": 0.8424275517463684,
      "learning_rate": 0.0002800988968852457,
      "loss": 3.9729,
      "step": 81270
    },
    {
      "epoch": 0.16933333333333334,
      "grad_norm": 0.7502890825271606,
      "learning_rate": 0.0002800939896020887,
      "loss": 3.8806,
      "step": 81280
    },
    {
      "epoch": 0.16935416666666667,
      "grad_norm": 0.8206419944763184,
      "learning_rate": 0.0002800890817569771,
      "loss": 4.0774,
      "step": 81290
    },
    {
      "epoch": 0.169375,
      "grad_norm": 0.8923568725585938,
      "learning_rate": 0.00028008417334993217,
      "loss": 3.8803,
      "step": 81300
    },
    {
      "epoch": 0.16939583333333333,
      "grad_norm": 0.7966017723083496,
      "learning_rate": 0.0002800792643809751,
      "loss": 3.9408,
      "step": 81310
    },
    {
      "epoch": 0.16941666666666666,
      "grad_norm": 0.8400110006332397,
      "learning_rate": 0.0002800743548501271,
      "loss": 4.0116,
      "step": 81320
    },
    {
      "epoch": 0.1694375,
      "grad_norm": 0.9517616033554077,
      "learning_rate": 0.00028006944475740943,
      "loss": 3.9417,
      "step": 81330
    },
    {
      "epoch": 0.16945833333333332,
      "grad_norm": 0.8916136026382446,
      "learning_rate": 0.0002800645341028432,
      "loss": 3.9859,
      "step": 81340
    },
    {
      "epoch": 0.16947916666666665,
      "grad_norm": 0.8174871802330017,
      "learning_rate": 0.0002800596228864496,
      "loss": 3.9851,
      "step": 81350
    },
    {
      "epoch": 0.1695,
      "grad_norm": 0.8414157032966614,
      "learning_rate": 0.00028005471110825,
      "loss": 4.0557,
      "step": 81360
    },
    {
      "epoch": 0.16952083333333334,
      "grad_norm": 0.8971309065818787,
      "learning_rate": 0.00028004979876826544,
      "loss": 3.8875,
      "step": 81370
    },
    {
      "epoch": 0.16954166666666667,
      "grad_norm": 0.7312085628509521,
      "learning_rate": 0.00028004488586651737,
      "loss": 3.9962,
      "step": 81380
    },
    {
      "epoch": 0.1695625,
      "grad_norm": 0.7814056277275085,
      "learning_rate": 0.00028003997240302675,
      "loss": 4.0662,
      "step": 81390
    },
    {
      "epoch": 0.16958333333333334,
      "grad_norm": 0.7489016652107239,
      "learning_rate": 0.00028003505837781494,
      "loss": 4.0411,
      "step": 81400
    },
    {
      "epoch": 0.16960416666666667,
      "grad_norm": 0.7263377904891968,
      "learning_rate": 0.00028003014379090314,
      "loss": 3.6851,
      "step": 81410
    },
    {
      "epoch": 0.169625,
      "grad_norm": 0.7704399824142456,
      "learning_rate": 0.00028002522864231265,
      "loss": 4.059,
      "step": 81420
    },
    {
      "epoch": 0.16964583333333333,
      "grad_norm": 0.8734249472618103,
      "learning_rate": 0.00028002031293206456,
      "loss": 3.9703,
      "step": 81430
    },
    {
      "epoch": 0.16966666666666666,
      "grad_norm": 0.8154728412628174,
      "learning_rate": 0.00028001539666018023,
      "loss": 3.912,
      "step": 81440
    },
    {
      "epoch": 0.1696875,
      "grad_norm": 0.7092462778091431,
      "learning_rate": 0.00028001047982668085,
      "loss": 4.0379,
      "step": 81450
    },
    {
      "epoch": 0.16970833333333332,
      "grad_norm": 0.7194523215293884,
      "learning_rate": 0.00028000556243158763,
      "loss": 3.9872,
      "step": 81460
    },
    {
      "epoch": 0.16972916666666665,
      "grad_norm": 0.7849944829940796,
      "learning_rate": 0.00028000064447492186,
      "loss": 3.8286,
      "step": 81470
    },
    {
      "epoch": 0.16975,
      "grad_norm": 0.9588846564292908,
      "learning_rate": 0.0002799957259567048,
      "loss": 4.0981,
      "step": 81480
    },
    {
      "epoch": 0.16977083333333334,
      "grad_norm": 0.8593902587890625,
      "learning_rate": 0.00027999080687695764,
      "loss": 3.9407,
      "step": 81490
    },
    {
      "epoch": 0.16979166666666667,
      "grad_norm": 0.7419275641441345,
      "learning_rate": 0.00027998588723570164,
      "loss": 3.9196,
      "step": 81500
    },
    {
      "epoch": 0.1698125,
      "grad_norm": 0.7268814444541931,
      "learning_rate": 0.00027998096703295804,
      "loss": 3.8543,
      "step": 81510
    },
    {
      "epoch": 0.16983333333333334,
      "grad_norm": 0.8479039072990417,
      "learning_rate": 0.00027997604626874814,
      "loss": 3.8584,
      "step": 81520
    },
    {
      "epoch": 0.16985416666666667,
      "grad_norm": 0.7454650402069092,
      "learning_rate": 0.00027997112494309315,
      "loss": 3.8629,
      "step": 81530
    },
    {
      "epoch": 0.169875,
      "grad_norm": 0.7754976749420166,
      "learning_rate": 0.00027996620305601437,
      "loss": 3.9413,
      "step": 81540
    },
    {
      "epoch": 0.16989583333333333,
      "grad_norm": 0.7925341129302979,
      "learning_rate": 0.000279961280607533,
      "loss": 3.9988,
      "step": 81550
    },
    {
      "epoch": 0.16991666666666666,
      "grad_norm": 0.6735754013061523,
      "learning_rate": 0.0002799563575976704,
      "loss": 3.6264,
      "step": 81560
    },
    {
      "epoch": 0.1699375,
      "grad_norm": 0.7044580578804016,
      "learning_rate": 0.00027995143402644767,
      "loss": 3.8438,
      "step": 81570
    },
    {
      "epoch": 0.16995833333333332,
      "grad_norm": 0.7400422096252441,
      "learning_rate": 0.0002799465098938863,
      "loss": 3.7251,
      "step": 81580
    },
    {
      "epoch": 0.16997916666666665,
      "grad_norm": 0.6878264546394348,
      "learning_rate": 0.00027994158520000734,
      "loss": 3.9619,
      "step": 81590
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8356401324272156,
      "learning_rate": 0.00027993665994483223,
      "loss": 4.0376,
      "step": 81600
    },
    {
      "epoch": 0.17002083333333334,
      "grad_norm": 0.747235119342804,
      "learning_rate": 0.00027993173412838214,
      "loss": 3.7897,
      "step": 81610
    },
    {
      "epoch": 0.17004166666666667,
      "grad_norm": 0.7572356462478638,
      "learning_rate": 0.0002799268077506784,
      "loss": 3.9198,
      "step": 81620
    },
    {
      "epoch": 0.1700625,
      "grad_norm": 0.8312356472015381,
      "learning_rate": 0.0002799218808117423,
      "loss": 3.8251,
      "step": 81630
    },
    {
      "epoch": 0.17008333333333334,
      "grad_norm": 0.7768791913986206,
      "learning_rate": 0.00027991695331159515,
      "loss": 4.0483,
      "step": 81640
    },
    {
      "epoch": 0.17010416666666667,
      "grad_norm": 0.7399845719337463,
      "learning_rate": 0.0002799120252502581,
      "loss": 3.8332,
      "step": 81650
    },
    {
      "epoch": 0.170125,
      "grad_norm": 0.8403314352035522,
      "learning_rate": 0.0002799070966277526,
      "loss": 3.7749,
      "step": 81660
    },
    {
      "epoch": 0.17014583333333333,
      "grad_norm": 0.8226832151412964,
      "learning_rate": 0.00027990216744409977,
      "loss": 3.8442,
      "step": 81670
    },
    {
      "epoch": 0.17016666666666666,
      "grad_norm": 0.8040117025375366,
      "learning_rate": 0.0002798972376993211,
      "loss": 3.857,
      "step": 81680
    },
    {
      "epoch": 0.1701875,
      "grad_norm": 0.7344703674316406,
      "learning_rate": 0.0002798923073934377,
      "loss": 3.8561,
      "step": 81690
    },
    {
      "epoch": 0.17020833333333332,
      "grad_norm": 0.7911918759346008,
      "learning_rate": 0.00027988737652647096,
      "loss": 3.7935,
      "step": 81700
    },
    {
      "epoch": 0.17022916666666665,
      "grad_norm": 0.9366786479949951,
      "learning_rate": 0.0002798824450984422,
      "loss": 3.921,
      "step": 81710
    },
    {
      "epoch": 0.17025,
      "grad_norm": 0.7270379662513733,
      "learning_rate": 0.0002798775131093727,
      "loss": 3.9251,
      "step": 81720
    },
    {
      "epoch": 0.17027083333333334,
      "grad_norm": 0.8347195386886597,
      "learning_rate": 0.0002798725805592837,
      "loss": 3.9917,
      "step": 81730
    },
    {
      "epoch": 0.17029166666666667,
      "grad_norm": 0.9000596404075623,
      "learning_rate": 0.00027986764744819656,
      "loss": 3.9198,
      "step": 81740
    },
    {
      "epoch": 0.1703125,
      "grad_norm": 0.8652284741401672,
      "learning_rate": 0.0002798627137761326,
      "loss": 3.9431,
      "step": 81750
    },
    {
      "epoch": 0.17033333333333334,
      "grad_norm": 0.8584786057472229,
      "learning_rate": 0.00027985777954311317,
      "loss": 4.0206,
      "step": 81760
    },
    {
      "epoch": 0.17035416666666667,
      "grad_norm": 0.7957494854927063,
      "learning_rate": 0.0002798528447491595,
      "loss": 3.8217,
      "step": 81770
    },
    {
      "epoch": 0.170375,
      "grad_norm": 0.7840234041213989,
      "learning_rate": 0.0002798479093942929,
      "loss": 3.8107,
      "step": 81780
    },
    {
      "epoch": 0.17039583333333333,
      "grad_norm": 0.753703773021698,
      "learning_rate": 0.00027984297347853474,
      "loss": 3.979,
      "step": 81790
    },
    {
      "epoch": 0.17041666666666666,
      "grad_norm": 0.7476680874824524,
      "learning_rate": 0.0002798380370019064,
      "loss": 3.9949,
      "step": 81800
    },
    {
      "epoch": 0.1704375,
      "grad_norm": 0.76930832862854,
      "learning_rate": 0.0002798330999644291,
      "loss": 3.8382,
      "step": 81810
    },
    {
      "epoch": 0.17045833333333332,
      "grad_norm": 0.8193716406822205,
      "learning_rate": 0.0002798281623661241,
      "loss": 4.0202,
      "step": 81820
    },
    {
      "epoch": 0.17047916666666665,
      "grad_norm": 0.8611440062522888,
      "learning_rate": 0.000279823224207013,
      "loss": 3.949,
      "step": 81830
    },
    {
      "epoch": 0.1705,
      "grad_norm": 0.7474245429039001,
      "learning_rate": 0.00027981828548711684,
      "loss": 3.8777,
      "step": 81840
    },
    {
      "epoch": 0.17052083333333334,
      "grad_norm": 0.9600389003753662,
      "learning_rate": 0.0002798133462064571,
      "loss": 3.8844,
      "step": 81850
    },
    {
      "epoch": 0.17054166666666667,
      "grad_norm": 0.8112174868583679,
      "learning_rate": 0.0002798084063650551,
      "loss": 4.0268,
      "step": 81860
    },
    {
      "epoch": 0.1705625,
      "grad_norm": 0.8159454464912415,
      "learning_rate": 0.0002798034659629321,
      "loss": 4.1248,
      "step": 81870
    },
    {
      "epoch": 0.17058333333333334,
      "grad_norm": 0.7615405321121216,
      "learning_rate": 0.0002797985250001096,
      "loss": 3.8783,
      "step": 81880
    },
    {
      "epoch": 0.17060416666666667,
      "grad_norm": 0.7259865999221802,
      "learning_rate": 0.0002797935834766088,
      "loss": 3.9543,
      "step": 81890
    },
    {
      "epoch": 0.170625,
      "grad_norm": 0.8303022980690002,
      "learning_rate": 0.00027978864139245114,
      "loss": 3.7657,
      "step": 81900
    },
    {
      "epoch": 0.17064583333333333,
      "grad_norm": 0.8027812242507935,
      "learning_rate": 0.0002797836987476579,
      "loss": 3.6884,
      "step": 81910
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 0.7016518712043762,
      "learning_rate": 0.0002797787555422504,
      "loss": 3.9281,
      "step": 81920
    },
    {
      "epoch": 0.1706875,
      "grad_norm": 0.8657918572425842,
      "learning_rate": 0.0002797738117762501,
      "loss": 3.9241,
      "step": 81930
    },
    {
      "epoch": 0.17070833333333332,
      "grad_norm": 0.9392837882041931,
      "learning_rate": 0.00027976886744967834,
      "loss": 3.8857,
      "step": 81940
    },
    {
      "epoch": 0.17072916666666665,
      "grad_norm": 0.8146774172782898,
      "learning_rate": 0.0002797639225625564,
      "loss": 4.0934,
      "step": 81950
    },
    {
      "epoch": 0.17075,
      "grad_norm": 0.8431332111358643,
      "learning_rate": 0.00027975897711490566,
      "loss": 3.8374,
      "step": 81960
    },
    {
      "epoch": 0.17077083333333334,
      "grad_norm": 1.1008341312408447,
      "learning_rate": 0.0002797540311067475,
      "loss": 3.8019,
      "step": 81970
    },
    {
      "epoch": 0.17079166666666667,
      "grad_norm": 0.830689013004303,
      "learning_rate": 0.00027974908453810333,
      "loss": 4.0135,
      "step": 81980
    },
    {
      "epoch": 0.1708125,
      "grad_norm": 0.7396224141120911,
      "learning_rate": 0.0002797441374089944,
      "loss": 3.9514,
      "step": 81990
    },
    {
      "epoch": 0.17083333333333334,
      "grad_norm": 0.8435444831848145,
      "learning_rate": 0.00027973918971944224,
      "loss": 3.9183,
      "step": 82000
    },
    {
      "epoch": 0.17083333333333334,
      "eval_loss": 4.26815128326416,
      "eval_runtime": 10.2732,
      "eval_samples_per_second": 0.973,
      "eval_steps_per_second": 0.292,
      "step": 82000
    },
    {
      "epoch": 0.17085416666666667,
      "grad_norm": 0.8723925352096558,
      "learning_rate": 0.0002797342414694681,
      "loss": 3.7764,
      "step": 82010
    },
    {
      "epoch": 0.170875,
      "grad_norm": 0.7729418277740479,
      "learning_rate": 0.00027972929265909335,
      "loss": 3.9798,
      "step": 82020
    },
    {
      "epoch": 0.17089583333333333,
      "grad_norm": 0.8588160872459412,
      "learning_rate": 0.0002797243432883394,
      "loss": 3.9554,
      "step": 82030
    },
    {
      "epoch": 0.17091666666666666,
      "grad_norm": 0.9018920660018921,
      "learning_rate": 0.00027971939335722765,
      "loss": 3.9377,
      "step": 82040
    },
    {
      "epoch": 0.1709375,
      "grad_norm": 0.7072643637657166,
      "learning_rate": 0.0002797144428657795,
      "loss": 3.9855,
      "step": 82050
    },
    {
      "epoch": 0.17095833333333332,
      "grad_norm": 0.749917209148407,
      "learning_rate": 0.0002797094918140163,
      "loss": 4.0305,
      "step": 82060
    },
    {
      "epoch": 0.17097916666666665,
      "grad_norm": 0.8828359842300415,
      "learning_rate": 0.0002797045402019594,
      "loss": 3.9135,
      "step": 82070
    },
    {
      "epoch": 0.171,
      "grad_norm": 0.7662261128425598,
      "learning_rate": 0.00027969958802963026,
      "loss": 4.0648,
      "step": 82080
    },
    {
      "epoch": 0.17102083333333334,
      "grad_norm": 0.703414797782898,
      "learning_rate": 0.0002796946352970503,
      "loss": 3.957,
      "step": 82090
    },
    {
      "epoch": 0.17104166666666668,
      "grad_norm": 0.9364521503448486,
      "learning_rate": 0.00027968968200424075,
      "loss": 3.7102,
      "step": 82100
    },
    {
      "epoch": 0.1710625,
      "grad_norm": 0.7424483895301819,
      "learning_rate": 0.0002796847281512231,
      "loss": 3.8925,
      "step": 82110
    },
    {
      "epoch": 0.17108333333333334,
      "grad_norm": 0.7583352327346802,
      "learning_rate": 0.0002796797737380188,
      "loss": 3.9531,
      "step": 82120
    },
    {
      "epoch": 0.17110416666666667,
      "grad_norm": 0.7863916754722595,
      "learning_rate": 0.0002796748187646493,
      "loss": 3.9408,
      "step": 82130
    },
    {
      "epoch": 0.171125,
      "grad_norm": 0.7670108675956726,
      "learning_rate": 0.00027966986323113574,
      "loss": 4.0234,
      "step": 82140
    },
    {
      "epoch": 0.17114583333333333,
      "grad_norm": 0.7925761342048645,
      "learning_rate": 0.00027966490713749977,
      "loss": 3.9344,
      "step": 82150
    },
    {
      "epoch": 0.17116666666666666,
      "grad_norm": 0.764907717704773,
      "learning_rate": 0.0002796599504837628,
      "loss": 3.7791,
      "step": 82160
    },
    {
      "epoch": 0.1711875,
      "grad_norm": 0.7642652988433838,
      "learning_rate": 0.00027965499326994606,
      "loss": 3.8308,
      "step": 82170
    },
    {
      "epoch": 0.17120833333333332,
      "grad_norm": 0.7129635214805603,
      "learning_rate": 0.0002796500354960711,
      "loss": 3.9067,
      "step": 82180
    },
    {
      "epoch": 0.17122916666666665,
      "grad_norm": 0.9131090044975281,
      "learning_rate": 0.00027964507716215934,
      "loss": 3.9552,
      "step": 82190
    },
    {
      "epoch": 0.17125,
      "grad_norm": 0.705577552318573,
      "learning_rate": 0.0002796401182682321,
      "loss": 3.9065,
      "step": 82200
    },
    {
      "epoch": 0.17127083333333334,
      "grad_norm": 0.7409008145332336,
      "learning_rate": 0.0002796351588143109,
      "loss": 3.8939,
      "step": 82210
    },
    {
      "epoch": 0.17129166666666668,
      "grad_norm": 0.7977017164230347,
      "learning_rate": 0.00027963019880041716,
      "loss": 3.8995,
      "step": 82220
    },
    {
      "epoch": 0.1713125,
      "grad_norm": 0.6938869953155518,
      "learning_rate": 0.00027962523822657224,
      "loss": 4.0384,
      "step": 82230
    },
    {
      "epoch": 0.17133333333333334,
      "grad_norm": 0.7133720517158508,
      "learning_rate": 0.0002796202770927976,
      "loss": 3.8602,
      "step": 82240
    },
    {
      "epoch": 0.17135416666666667,
      "grad_norm": 0.83607017993927,
      "learning_rate": 0.0002796153153991147,
      "loss": 3.9322,
      "step": 82250
    },
    {
      "epoch": 0.171375,
      "grad_norm": 0.9939205050468445,
      "learning_rate": 0.0002796103531455449,
      "loss": 4.0756,
      "step": 82260
    },
    {
      "epoch": 0.17139583333333333,
      "grad_norm": 0.7288772463798523,
      "learning_rate": 0.00027960539033210967,
      "loss": 3.8335,
      "step": 82270
    },
    {
      "epoch": 0.17141666666666666,
      "grad_norm": 0.7894585728645325,
      "learning_rate": 0.0002796004269588305,
      "loss": 3.8929,
      "step": 82280
    },
    {
      "epoch": 0.1714375,
      "grad_norm": 0.8381339907646179,
      "learning_rate": 0.00027959546302572876,
      "loss": 4.0059,
      "step": 82290
    },
    {
      "epoch": 0.17145833333333332,
      "grad_norm": 0.7478272914886475,
      "learning_rate": 0.0002795904985328259,
      "loss": 4.1365,
      "step": 82300
    },
    {
      "epoch": 0.17147916666666665,
      "grad_norm": 0.7611980438232422,
      "learning_rate": 0.0002795855334801434,
      "loss": 3.9234,
      "step": 82310
    },
    {
      "epoch": 0.1715,
      "grad_norm": 0.7398145198822021,
      "learning_rate": 0.0002795805678677027,
      "loss": 3.9236,
      "step": 82320
    },
    {
      "epoch": 0.17152083333333334,
      "grad_norm": 0.8846268653869629,
      "learning_rate": 0.0002795756016955252,
      "loss": 3.7493,
      "step": 82330
    },
    {
      "epoch": 0.17154166666666668,
      "grad_norm": 0.7877893447875977,
      "learning_rate": 0.00027957063496363244,
      "loss": 3.9624,
      "step": 82340
    },
    {
      "epoch": 0.1715625,
      "grad_norm": 0.7485454082489014,
      "learning_rate": 0.00027956566767204586,
      "loss": 3.8892,
      "step": 82350
    },
    {
      "epoch": 0.17158333333333334,
      "grad_norm": 0.9533061981201172,
      "learning_rate": 0.00027956069982078676,
      "loss": 3.8027,
      "step": 82360
    },
    {
      "epoch": 0.17160416666666667,
      "grad_norm": 0.7603659629821777,
      "learning_rate": 0.00027955573140987685,
      "loss": 3.8284,
      "step": 82370
    },
    {
      "epoch": 0.171625,
      "grad_norm": 0.724149763584137,
      "learning_rate": 0.00027955076243933735,
      "loss": 3.8199,
      "step": 82380
    },
    {
      "epoch": 0.17164583333333333,
      "grad_norm": 0.773857831954956,
      "learning_rate": 0.0002795457929091899,
      "loss": 4.1184,
      "step": 82390
    },
    {
      "epoch": 0.17166666666666666,
      "grad_norm": 0.9327843189239502,
      "learning_rate": 0.00027954082281945585,
      "loss": 3.9101,
      "step": 82400
    },
    {
      "epoch": 0.1716875,
      "grad_norm": 0.7958089113235474,
      "learning_rate": 0.0002795358521701568,
      "loss": 3.7669,
      "step": 82410
    },
    {
      "epoch": 0.17170833333333332,
      "grad_norm": 0.9422511458396912,
      "learning_rate": 0.00027953088096131415,
      "loss": 3.8839,
      "step": 82420
    },
    {
      "epoch": 0.17172916666666665,
      "grad_norm": 0.775775134563446,
      "learning_rate": 0.00027952590919294926,
      "loss": 4.0133,
      "step": 82430
    },
    {
      "epoch": 0.17175,
      "grad_norm": 0.8461121320724487,
      "learning_rate": 0.0002795209368650838,
      "loss": 3.9321,
      "step": 82440
    },
    {
      "epoch": 0.17177083333333334,
      "grad_norm": 0.7532004714012146,
      "learning_rate": 0.0002795159639777391,
      "loss": 3.807,
      "step": 82450
    },
    {
      "epoch": 0.17179166666666668,
      "grad_norm": 0.7881927490234375,
      "learning_rate": 0.0002795109905309367,
      "loss": 3.8442,
      "step": 82460
    },
    {
      "epoch": 0.1718125,
      "grad_norm": 0.8583217859268188,
      "learning_rate": 0.00027950601652469817,
      "loss": 3.9713,
      "step": 82470
    },
    {
      "epoch": 0.17183333333333334,
      "grad_norm": 0.915955126285553,
      "learning_rate": 0.00027950104195904483,
      "loss": 4.1005,
      "step": 82480
    },
    {
      "epoch": 0.17185416666666667,
      "grad_norm": 0.75468909740448,
      "learning_rate": 0.00027949606683399825,
      "loss": 3.8659,
      "step": 82490
    },
    {
      "epoch": 0.171875,
      "grad_norm": 0.793210506439209,
      "learning_rate": 0.00027949109114958,
      "loss": 3.8902,
      "step": 82500
    },
    {
      "epoch": 0.17189583333333333,
      "grad_norm": 0.8105276226997375,
      "learning_rate": 0.0002794861149058114,
      "loss": 4.0892,
      "step": 82510
    },
    {
      "epoch": 0.17191666666666666,
      "grad_norm": 0.8544229865074158,
      "learning_rate": 0.0002794811381027141,
      "loss": 3.9561,
      "step": 82520
    },
    {
      "epoch": 0.1719375,
      "grad_norm": 0.747715413570404,
      "learning_rate": 0.0002794761607403095,
      "loss": 3.7651,
      "step": 82530
    },
    {
      "epoch": 0.17195833333333332,
      "grad_norm": 0.8120355606079102,
      "learning_rate": 0.0002794711828186192,
      "loss": 4.0433,
      "step": 82540
    },
    {
      "epoch": 0.17197916666666666,
      "grad_norm": 0.7175119519233704,
      "learning_rate": 0.00027946620433766454,
      "loss": 4.1538,
      "step": 82550
    },
    {
      "epoch": 0.172,
      "grad_norm": 0.8877245783805847,
      "learning_rate": 0.00027946122529746715,
      "loss": 3.8631,
      "step": 82560
    },
    {
      "epoch": 0.17202083333333335,
      "grad_norm": 0.7743420004844666,
      "learning_rate": 0.0002794562456980486,
      "loss": 3.9706,
      "step": 82570
    },
    {
      "epoch": 0.17204166666666668,
      "grad_norm": 0.835727870464325,
      "learning_rate": 0.0002794512655394302,
      "loss": 3.7865,
      "step": 82580
    },
    {
      "epoch": 0.1720625,
      "grad_norm": 0.7515754699707031,
      "learning_rate": 0.0002794462848216336,
      "loss": 3.8611,
      "step": 82590
    },
    {
      "epoch": 0.17208333333333334,
      "grad_norm": 0.6909577250480652,
      "learning_rate": 0.0002794413035446803,
      "loss": 3.8673,
      "step": 82600
    },
    {
      "epoch": 0.17210416666666667,
      "grad_norm": 0.91279536485672,
      "learning_rate": 0.0002794363217085918,
      "loss": 3.8781,
      "step": 82610
    },
    {
      "epoch": 0.172125,
      "grad_norm": 0.7650876045227051,
      "learning_rate": 0.00027943133931338963,
      "loss": 3.9332,
      "step": 82620
    },
    {
      "epoch": 0.17214583333333333,
      "grad_norm": 0.8592379093170166,
      "learning_rate": 0.0002794263563590953,
      "loss": 3.8654,
      "step": 82630
    },
    {
      "epoch": 0.17216666666666666,
      "grad_norm": 0.7955253720283508,
      "learning_rate": 0.0002794213728457304,
      "loss": 4.1012,
      "step": 82640
    },
    {
      "epoch": 0.1721875,
      "grad_norm": 0.7046810388565063,
      "learning_rate": 0.0002794163887733163,
      "loss": 3.9431,
      "step": 82650
    },
    {
      "epoch": 0.17220833333333332,
      "grad_norm": 0.7281967997550964,
      "learning_rate": 0.00027941140414187467,
      "loss": 4.0753,
      "step": 82660
    },
    {
      "epoch": 0.17222916666666666,
      "grad_norm": 0.694696843624115,
      "learning_rate": 0.00027940641895142705,
      "loss": 3.9286,
      "step": 82670
    },
    {
      "epoch": 0.17225,
      "grad_norm": 0.7811099290847778,
      "learning_rate": 0.00027940143320199487,
      "loss": 3.8833,
      "step": 82680
    },
    {
      "epoch": 0.17227083333333335,
      "grad_norm": 0.7503398656845093,
      "learning_rate": 0.00027939644689359966,
      "loss": 3.8663,
      "step": 82690
    },
    {
      "epoch": 0.17229166666666668,
      "grad_norm": 0.706331729888916,
      "learning_rate": 0.00027939146002626316,
      "loss": 3.8451,
      "step": 82700
    },
    {
      "epoch": 0.1723125,
      "grad_norm": 0.7729867100715637,
      "learning_rate": 0.00027938647260000667,
      "loss": 3.8102,
      "step": 82710
    },
    {
      "epoch": 0.17233333333333334,
      "grad_norm": 1.0609384775161743,
      "learning_rate": 0.0002793814846148518,
      "loss": 3.8313,
      "step": 82720
    },
    {
      "epoch": 0.17235416666666667,
      "grad_norm": 0.8088382482528687,
      "learning_rate": 0.00027937649607082023,
      "loss": 3.8395,
      "step": 82730
    },
    {
      "epoch": 0.172375,
      "grad_norm": 0.8328053951263428,
      "learning_rate": 0.00027937150696793334,
      "loss": 4.2109,
      "step": 82740
    },
    {
      "epoch": 0.17239583333333333,
      "grad_norm": 0.8300962448120117,
      "learning_rate": 0.0002793665173062128,
      "loss": 3.9447,
      "step": 82750
    },
    {
      "epoch": 0.17241666666666666,
      "grad_norm": 0.7691106796264648,
      "learning_rate": 0.0002793615270856801,
      "loss": 3.8908,
      "step": 82760
    },
    {
      "epoch": 0.1724375,
      "grad_norm": 0.7667624950408936,
      "learning_rate": 0.0002793565363063568,
      "loss": 4.0487,
      "step": 82770
    },
    {
      "epoch": 0.17245833333333332,
      "grad_norm": 0.9151173830032349,
      "learning_rate": 0.0002793515449682644,
      "loss": 3.9439,
      "step": 82780
    },
    {
      "epoch": 0.17247916666666666,
      "grad_norm": 0.7841822504997253,
      "learning_rate": 0.00027934655307142463,
      "loss": 3.9952,
      "step": 82790
    },
    {
      "epoch": 0.1725,
      "grad_norm": 0.837735116481781,
      "learning_rate": 0.0002793415606158589,
      "loss": 3.9066,
      "step": 82800
    },
    {
      "epoch": 0.17252083333333335,
      "grad_norm": 0.8930957913398743,
      "learning_rate": 0.0002793365676015888,
      "loss": 3.9237,
      "step": 82810
    },
    {
      "epoch": 0.17254166666666668,
      "grad_norm": 0.9070920348167419,
      "learning_rate": 0.00027933157402863594,
      "loss": 3.882,
      "step": 82820
    },
    {
      "epoch": 0.1725625,
      "grad_norm": 0.8518992066383362,
      "learning_rate": 0.0002793265798970219,
      "loss": 3.7784,
      "step": 82830
    },
    {
      "epoch": 0.17258333333333334,
      "grad_norm": 0.7043384313583374,
      "learning_rate": 0.00027932158520676826,
      "loss": 3.9598,
      "step": 82840
    },
    {
      "epoch": 0.17260416666666667,
      "grad_norm": 0.6790194511413574,
      "learning_rate": 0.00027931658995789644,
      "loss": 4.0165,
      "step": 82850
    },
    {
      "epoch": 0.172625,
      "grad_norm": 0.761138916015625,
      "learning_rate": 0.00027931159415042826,
      "loss": 4.0759,
      "step": 82860
    },
    {
      "epoch": 0.17264583333333333,
      "grad_norm": 0.7683952450752258,
      "learning_rate": 0.00027930659778438514,
      "loss": 3.9473,
      "step": 82870
    },
    {
      "epoch": 0.17266666666666666,
      "grad_norm": 0.7209596633911133,
      "learning_rate": 0.00027930160085978866,
      "loss": 4.0018,
      "step": 82880
    },
    {
      "epoch": 0.1726875,
      "grad_norm": 0.7475635409355164,
      "learning_rate": 0.0002792966033766605,
      "loss": 3.8332,
      "step": 82890
    },
    {
      "epoch": 0.17270833333333332,
      "grad_norm": 0.7854220867156982,
      "learning_rate": 0.00027929160533502216,
      "loss": 3.9524,
      "step": 82900
    },
    {
      "epoch": 0.17272916666666666,
      "grad_norm": 0.692072868347168,
      "learning_rate": 0.00027928660673489524,
      "loss": 3.8658,
      "step": 82910
    },
    {
      "epoch": 0.17275,
      "grad_norm": 0.7875910997390747,
      "learning_rate": 0.00027928160757630143,
      "loss": 3.6999,
      "step": 82920
    },
    {
      "epoch": 0.17277083333333335,
      "grad_norm": 0.7357484698295593,
      "learning_rate": 0.0002792766078592622,
      "loss": 3.9245,
      "step": 82930
    },
    {
      "epoch": 0.17279166666666668,
      "grad_norm": 1.0390961170196533,
      "learning_rate": 0.0002792716075837991,
      "loss": 3.9285,
      "step": 82940
    },
    {
      "epoch": 0.1728125,
      "grad_norm": 0.7477717995643616,
      "learning_rate": 0.000279266606749934,
      "loss": 3.8242,
      "step": 82950
    },
    {
      "epoch": 0.17283333333333334,
      "grad_norm": 1.090368390083313,
      "learning_rate": 0.00027926160535768823,
      "loss": 3.9609,
      "step": 82960
    },
    {
      "epoch": 0.17285416666666667,
      "grad_norm": 0.8361069560050964,
      "learning_rate": 0.00027925660340708355,
      "loss": 3.9787,
      "step": 82970
    },
    {
      "epoch": 0.172875,
      "grad_norm": 0.8020942807197571,
      "learning_rate": 0.00027925160089814147,
      "loss": 3.9363,
      "step": 82980
    },
    {
      "epoch": 0.17289583333333333,
      "grad_norm": 0.8105101585388184,
      "learning_rate": 0.00027924659783088357,
      "loss": 3.9739,
      "step": 82990
    },
    {
      "epoch": 0.17291666666666666,
      "grad_norm": 0.882025420665741,
      "learning_rate": 0.0002792415942053316,
      "loss": 3.9687,
      "step": 83000
    },
    {
      "epoch": 0.17291666666666666,
      "eval_loss": 4.272902488708496,
      "eval_runtime": 9.5537,
      "eval_samples_per_second": 1.047,
      "eval_steps_per_second": 0.314,
      "step": 83000
    },
    {
      "epoch": 0.1729375,
      "grad_norm": 0.8533254265785217,
      "learning_rate": 0.0002792365900215071,
      "loss": 3.9896,
      "step": 83010
    },
    {
      "epoch": 0.17295833333333333,
      "grad_norm": 0.7569591999053955,
      "learning_rate": 0.00027923158527943165,
      "loss": 3.8812,
      "step": 83020
    },
    {
      "epoch": 0.17297916666666666,
      "grad_norm": 0.8822370171546936,
      "learning_rate": 0.00027922657997912694,
      "loss": 3.9943,
      "step": 83030
    },
    {
      "epoch": 0.173,
      "grad_norm": 0.8018847703933716,
      "learning_rate": 0.0002792215741206145,
      "loss": 3.8851,
      "step": 83040
    },
    {
      "epoch": 0.17302083333333335,
      "grad_norm": 0.7244037389755249,
      "learning_rate": 0.0002792165677039161,
      "loss": 3.8483,
      "step": 83050
    },
    {
      "epoch": 0.17304166666666668,
      "grad_norm": 0.8080905079841614,
      "learning_rate": 0.0002792115607290532,
      "loss": 3.9106,
      "step": 83060
    },
    {
      "epoch": 0.1730625,
      "grad_norm": 0.7445307374000549,
      "learning_rate": 0.00027920655319604756,
      "loss": 4.0644,
      "step": 83070
    },
    {
      "epoch": 0.17308333333333334,
      "grad_norm": 0.8013049960136414,
      "learning_rate": 0.00027920154510492075,
      "loss": 3.8509,
      "step": 83080
    },
    {
      "epoch": 0.17310416666666667,
      "grad_norm": 0.94022136926651,
      "learning_rate": 0.0002791965364556944,
      "loss": 3.721,
      "step": 83090
    },
    {
      "epoch": 0.173125,
      "grad_norm": 0.7792418599128723,
      "learning_rate": 0.0002791915272483901,
      "loss": 3.9518,
      "step": 83100
    },
    {
      "epoch": 0.17314583333333333,
      "grad_norm": 0.9220630526542664,
      "learning_rate": 0.0002791865174830295,
      "loss": 3.9117,
      "step": 83110
    },
    {
      "epoch": 0.17316666666666666,
      "grad_norm": 0.7423521280288696,
      "learning_rate": 0.0002791815071596344,
      "loss": 3.945,
      "step": 83120
    },
    {
      "epoch": 0.1731875,
      "grad_norm": 0.8135824203491211,
      "learning_rate": 0.0002791764962782263,
      "loss": 3.9741,
      "step": 83130
    },
    {
      "epoch": 0.17320833333333333,
      "grad_norm": 0.7727681994438171,
      "learning_rate": 0.00027917148483882684,
      "loss": 3.9885,
      "step": 83140
    },
    {
      "epoch": 0.17322916666666666,
      "grad_norm": 0.7588158845901489,
      "learning_rate": 0.0002791664728414577,
      "loss": 3.9875,
      "step": 83150
    },
    {
      "epoch": 0.17325,
      "grad_norm": 0.7090577483177185,
      "learning_rate": 0.0002791614602861405,
      "loss": 3.8236,
      "step": 83160
    },
    {
      "epoch": 0.17327083333333335,
      "grad_norm": 0.8372524380683899,
      "learning_rate": 0.00027915644717289693,
      "loss": 4.0665,
      "step": 83170
    },
    {
      "epoch": 0.17329166666666668,
      "grad_norm": 0.8240408301353455,
      "learning_rate": 0.00027915143350174866,
      "loss": 4.1229,
      "step": 83180
    },
    {
      "epoch": 0.1733125,
      "grad_norm": 0.9586848020553589,
      "learning_rate": 0.0002791464192727173,
      "loss": 3.8209,
      "step": 83190
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 0.7382382750511169,
      "learning_rate": 0.00027914140448582456,
      "loss": 3.7402,
      "step": 83200
    },
    {
      "epoch": 0.17335416666666667,
      "grad_norm": 0.7101136445999146,
      "learning_rate": 0.00027913638914109205,
      "loss": 3.8666,
      "step": 83210
    },
    {
      "epoch": 0.173375,
      "grad_norm": 1.1487118005752563,
      "learning_rate": 0.0002791313732385414,
      "loss": 3.8669,
      "step": 83220
    },
    {
      "epoch": 0.17339583333333333,
      "grad_norm": 0.8260146975517273,
      "learning_rate": 0.0002791263567781944,
      "loss": 3.9754,
      "step": 83230
    },
    {
      "epoch": 0.17341666666666666,
      "grad_norm": 0.8953239917755127,
      "learning_rate": 0.00027912133976007263,
      "loss": 3.7477,
      "step": 83240
    },
    {
      "epoch": 0.1734375,
      "grad_norm": 0.8289538621902466,
      "learning_rate": 0.00027911632218419777,
      "loss": 3.9531,
      "step": 83250
    },
    {
      "epoch": 0.17345833333333333,
      "grad_norm": 0.7979103326797485,
      "learning_rate": 0.0002791113040505915,
      "loss": 3.765,
      "step": 83260
    },
    {
      "epoch": 0.17347916666666666,
      "grad_norm": 0.717477023601532,
      "learning_rate": 0.00027910628535927554,
      "loss": 4.0737,
      "step": 83270
    },
    {
      "epoch": 0.1735,
      "grad_norm": 0.9137436747550964,
      "learning_rate": 0.0002791012661102715,
      "loss": 3.937,
      "step": 83280
    },
    {
      "epoch": 0.17352083333333335,
      "grad_norm": 0.7149949669837952,
      "learning_rate": 0.0002790962463036011,
      "loss": 3.7489,
      "step": 83290
    },
    {
      "epoch": 0.17354166666666668,
      "grad_norm": 0.8130715489387512,
      "learning_rate": 0.000279091225939286,
      "loss": 4.0589,
      "step": 83300
    },
    {
      "epoch": 0.1735625,
      "grad_norm": 0.7162622213363647,
      "learning_rate": 0.00027908620501734794,
      "loss": 3.8716,
      "step": 83310
    },
    {
      "epoch": 0.17358333333333334,
      "grad_norm": 0.7668971419334412,
      "learning_rate": 0.0002790811835378086,
      "loss": 3.7252,
      "step": 83320
    },
    {
      "epoch": 0.17360416666666667,
      "grad_norm": 0.8151586651802063,
      "learning_rate": 0.00027907616150068957,
      "loss": 3.9827,
      "step": 83330
    },
    {
      "epoch": 0.173625,
      "grad_norm": 0.7293826341629028,
      "learning_rate": 0.0002790711389060126,
      "loss": 3.8151,
      "step": 83340
    },
    {
      "epoch": 0.17364583333333333,
      "grad_norm": 0.7464020252227783,
      "learning_rate": 0.00027906611575379946,
      "loss": 3.9739,
      "step": 83350
    },
    {
      "epoch": 0.17366666666666666,
      "grad_norm": 0.843887209892273,
      "learning_rate": 0.00027906109204407174,
      "loss": 3.9953,
      "step": 83360
    },
    {
      "epoch": 0.1736875,
      "grad_norm": 0.7944560050964355,
      "learning_rate": 0.0002790560677768512,
      "loss": 3.9836,
      "step": 83370
    },
    {
      "epoch": 0.17370833333333333,
      "grad_norm": 0.8276804089546204,
      "learning_rate": 0.00027905104295215957,
      "loss": 4.032,
      "step": 83380
    },
    {
      "epoch": 0.17372916666666666,
      "grad_norm": 0.7507016658782959,
      "learning_rate": 0.0002790460175700185,
      "loss": 3.8706,
      "step": 83390
    },
    {
      "epoch": 0.17375,
      "grad_norm": 0.8533852100372314,
      "learning_rate": 0.00027904099163044967,
      "loss": 3.9115,
      "step": 83400
    },
    {
      "epoch": 0.17377083333333335,
      "grad_norm": 0.7546963691711426,
      "learning_rate": 0.00027903596513347484,
      "loss": 3.7678,
      "step": 83410
    },
    {
      "epoch": 0.17379166666666668,
      "grad_norm": 0.7139222621917725,
      "learning_rate": 0.0002790309380791158,
      "loss": 3.7841,
      "step": 83420
    },
    {
      "epoch": 0.1738125,
      "grad_norm": 0.9563751816749573,
      "learning_rate": 0.0002790259104673941,
      "loss": 3.9172,
      "step": 83430
    },
    {
      "epoch": 0.17383333333333334,
      "grad_norm": 0.7217628359794617,
      "learning_rate": 0.00027902088229833156,
      "loss": 3.8092,
      "step": 83440
    },
    {
      "epoch": 0.17385416666666667,
      "grad_norm": 0.7462176084518433,
      "learning_rate": 0.00027901585357194985,
      "loss": 4.0672,
      "step": 83450
    },
    {
      "epoch": 0.173875,
      "grad_norm": 0.7656264305114746,
      "learning_rate": 0.0002790108242882708,
      "loss": 3.9212,
      "step": 83460
    },
    {
      "epoch": 0.17389583333333333,
      "grad_norm": 0.8661513328552246,
      "learning_rate": 0.000279005794447316,
      "loss": 3.805,
      "step": 83470
    },
    {
      "epoch": 0.17391666666666666,
      "grad_norm": 1.272226095199585,
      "learning_rate": 0.0002790007640491072,
      "loss": 3.8231,
      "step": 83480
    },
    {
      "epoch": 0.1739375,
      "grad_norm": 0.743241012096405,
      "learning_rate": 0.0002789957330936662,
      "loss": 3.825,
      "step": 83490
    },
    {
      "epoch": 0.17395833333333333,
      "grad_norm": 0.7819918394088745,
      "learning_rate": 0.0002789907015810147,
      "loss": 3.9584,
      "step": 83500
    },
    {
      "epoch": 0.17397916666666666,
      "grad_norm": 0.7459301352500916,
      "learning_rate": 0.0002789856695111744,
      "loss": 3.9387,
      "step": 83510
    },
    {
      "epoch": 0.174,
      "grad_norm": 0.8506456613540649,
      "learning_rate": 0.0002789806368841671,
      "loss": 4.1381,
      "step": 83520
    },
    {
      "epoch": 0.17402083333333335,
      "grad_norm": 0.7319548726081848,
      "learning_rate": 0.0002789756037000145,
      "loss": 3.8308,
      "step": 83530
    },
    {
      "epoch": 0.17404166666666668,
      "grad_norm": 0.7397971153259277,
      "learning_rate": 0.0002789705699587384,
      "loss": 3.761,
      "step": 83540
    },
    {
      "epoch": 0.1740625,
      "grad_norm": 0.9753512144088745,
      "learning_rate": 0.00027896553566036036,
      "loss": 3.9403,
      "step": 83550
    },
    {
      "epoch": 0.17408333333333334,
      "grad_norm": 1.173198938369751,
      "learning_rate": 0.0002789605008049023,
      "loss": 3.9649,
      "step": 83560
    },
    {
      "epoch": 0.17410416666666667,
      "grad_norm": 0.7332453727722168,
      "learning_rate": 0.000278955465392386,
      "loss": 4.0967,
      "step": 83570
    },
    {
      "epoch": 0.174125,
      "grad_norm": 0.7541020512580872,
      "learning_rate": 0.00027895042942283304,
      "loss": 3.6973,
      "step": 83580
    },
    {
      "epoch": 0.17414583333333333,
      "grad_norm": 0.8193091154098511,
      "learning_rate": 0.0002789453928962653,
      "loss": 3.8671,
      "step": 83590
    },
    {
      "epoch": 0.17416666666666666,
      "grad_norm": 0.8626209497451782,
      "learning_rate": 0.0002789403558127045,
      "loss": 3.8905,
      "step": 83600
    },
    {
      "epoch": 0.1741875,
      "grad_norm": 0.7703706622123718,
      "learning_rate": 0.00027893531817217243,
      "loss": 3.9341,
      "step": 83610
    },
    {
      "epoch": 0.17420833333333333,
      "grad_norm": 0.7932949662208557,
      "learning_rate": 0.0002789302799746907,
      "loss": 3.895,
      "step": 83620
    },
    {
      "epoch": 0.17422916666666666,
      "grad_norm": 0.7442330718040466,
      "learning_rate": 0.00027892524122028134,
      "loss": 3.8809,
      "step": 83630
    },
    {
      "epoch": 0.17425,
      "grad_norm": 0.7691386938095093,
      "learning_rate": 0.00027892020190896594,
      "loss": 3.8624,
      "step": 83640
    },
    {
      "epoch": 0.17427083333333335,
      "grad_norm": 0.7295940518379211,
      "learning_rate": 0.00027891516204076624,
      "loss": 3.7934,
      "step": 83650
    },
    {
      "epoch": 0.17429166666666668,
      "grad_norm": 0.7997854351997375,
      "learning_rate": 0.0002789101216157041,
      "loss": 4.009,
      "step": 83660
    },
    {
      "epoch": 0.1743125,
      "grad_norm": 0.876325249671936,
      "learning_rate": 0.00027890508063380126,
      "loss": 3.8933,
      "step": 83670
    },
    {
      "epoch": 0.17433333333333334,
      "grad_norm": 0.763355553150177,
      "learning_rate": 0.0002789000390950795,
      "loss": 3.931,
      "step": 83680
    },
    {
      "epoch": 0.17435416666666667,
      "grad_norm": 0.7472951412200928,
      "learning_rate": 0.0002788949969995606,
      "loss": 3.906,
      "step": 83690
    },
    {
      "epoch": 0.174375,
      "grad_norm": 0.806398868560791,
      "learning_rate": 0.0002788899543472663,
      "loss": 3.963,
      "step": 83700
    },
    {
      "epoch": 0.17439583333333333,
      "grad_norm": 0.7695059776306152,
      "learning_rate": 0.00027888491113821844,
      "loss": 3.8885,
      "step": 83710
    },
    {
      "epoch": 0.17441666666666666,
      "grad_norm": 0.7828018665313721,
      "learning_rate": 0.00027887986737243884,
      "loss": 3.9112,
      "step": 83720
    },
    {
      "epoch": 0.1744375,
      "grad_norm": 0.7775977253913879,
      "learning_rate": 0.00027887482304994913,
      "loss": 3.8477,
      "step": 83730
    },
    {
      "epoch": 0.17445833333333333,
      "grad_norm": 0.7511841058731079,
      "learning_rate": 0.00027886977817077126,
      "loss": 3.8066,
      "step": 83740
    },
    {
      "epoch": 0.17447916666666666,
      "grad_norm": 0.7984781861305237,
      "learning_rate": 0.0002788647327349269,
      "loss": 3.7472,
      "step": 83750
    },
    {
      "epoch": 0.1745,
      "grad_norm": 0.8926426768302917,
      "learning_rate": 0.00027885968674243794,
      "loss": 3.9356,
      "step": 83760
    },
    {
      "epoch": 0.17452083333333332,
      "grad_norm": 0.8819180130958557,
      "learning_rate": 0.0002788546401933262,
      "loss": 4.0745,
      "step": 83770
    },
    {
      "epoch": 0.17454166666666668,
      "grad_norm": 0.9382777214050293,
      "learning_rate": 0.0002788495930876133,
      "loss": 3.9779,
      "step": 83780
    },
    {
      "epoch": 0.1745625,
      "grad_norm": 0.8852372169494629,
      "learning_rate": 0.0002788445454253212,
      "loss": 3.9087,
      "step": 83790
    },
    {
      "epoch": 0.17458333333333334,
      "grad_norm": 0.7182701230049133,
      "learning_rate": 0.0002788394972064717,
      "loss": 3.9228,
      "step": 83800
    },
    {
      "epoch": 0.17460416666666667,
      "grad_norm": 0.7979435920715332,
      "learning_rate": 0.00027883444843108653,
      "loss": 3.8826,
      "step": 83810
    },
    {
      "epoch": 0.174625,
      "grad_norm": 0.7061285376548767,
      "learning_rate": 0.0002788293990991876,
      "loss": 4.1161,
      "step": 83820
    },
    {
      "epoch": 0.17464583333333333,
      "grad_norm": 0.7648921012878418,
      "learning_rate": 0.0002788243492107966,
      "loss": 3.8746,
      "step": 83830
    },
    {
      "epoch": 0.17466666666666666,
      "grad_norm": 0.754672110080719,
      "learning_rate": 0.0002788192987659354,
      "loss": 3.9068,
      "step": 83840
    },
    {
      "epoch": 0.1746875,
      "grad_norm": 0.8157461881637573,
      "learning_rate": 0.0002788142477646259,
      "loss": 3.9034,
      "step": 83850
    },
    {
      "epoch": 0.17470833333333333,
      "grad_norm": 0.6922156810760498,
      "learning_rate": 0.00027880919620688974,
      "loss": 3.8681,
      "step": 83860
    },
    {
      "epoch": 0.17472916666666666,
      "grad_norm": 0.8411691188812256,
      "learning_rate": 0.00027880414409274886,
      "loss": 3.9617,
      "step": 83870
    },
    {
      "epoch": 0.17475,
      "grad_norm": 0.7250730991363525,
      "learning_rate": 0.0002787990914222251,
      "loss": 3.8205,
      "step": 83880
    },
    {
      "epoch": 0.17477083333333332,
      "grad_norm": 0.7176262140274048,
      "learning_rate": 0.00027879403819534024,
      "loss": 3.7384,
      "step": 83890
    },
    {
      "epoch": 0.17479166666666668,
      "grad_norm": 0.6656303405761719,
      "learning_rate": 0.00027878898441211603,
      "loss": 3.8525,
      "step": 83900
    },
    {
      "epoch": 0.1748125,
      "grad_norm": 0.741327702999115,
      "learning_rate": 0.0002787839300725745,
      "loss": 3.8273,
      "step": 83910
    },
    {
      "epoch": 0.17483333333333334,
      "grad_norm": 0.7376288175582886,
      "learning_rate": 0.0002787788751767373,
      "loss": 3.9463,
      "step": 83920
    },
    {
      "epoch": 0.17485416666666667,
      "grad_norm": 0.8020192384719849,
      "learning_rate": 0.0002787738197246264,
      "loss": 4.0615,
      "step": 83930
    },
    {
      "epoch": 0.174875,
      "grad_norm": 0.9142674803733826,
      "learning_rate": 0.00027876876371626355,
      "loss": 3.9606,
      "step": 83940
    },
    {
      "epoch": 0.17489583333333333,
      "grad_norm": 0.7641014456748962,
      "learning_rate": 0.00027876370715167057,
      "loss": 3.8937,
      "step": 83950
    },
    {
      "epoch": 0.17491666666666666,
      "grad_norm": 0.71683669090271,
      "learning_rate": 0.00027875865003086934,
      "loss": 3.9109,
      "step": 83960
    },
    {
      "epoch": 0.1749375,
      "grad_norm": 0.8592399954795837,
      "learning_rate": 0.00027875359235388173,
      "loss": 3.8684,
      "step": 83970
    },
    {
      "epoch": 0.17495833333333333,
      "grad_norm": 0.7832514047622681,
      "learning_rate": 0.0002787485341207296,
      "loss": 3.7666,
      "step": 83980
    },
    {
      "epoch": 0.17497916666666666,
      "grad_norm": 0.7657424807548523,
      "learning_rate": 0.0002787434753314347,
      "loss": 3.9255,
      "step": 83990
    },
    {
      "epoch": 0.175,
      "grad_norm": 0.6919958591461182,
      "learning_rate": 0.000278738415986019,
      "loss": 3.8568,
      "step": 84000
    },
    {
      "epoch": 0.175,
      "eval_loss": 4.264814853668213,
      "eval_runtime": 8.8907,
      "eval_samples_per_second": 1.125,
      "eval_steps_per_second": 0.337,
      "step": 84000
    },
    {
      "epoch": 0.17502083333333332,
      "grad_norm": 0.8901668787002563,
      "learning_rate": 0.0002787333560845043,
      "loss": 3.9178,
      "step": 84010
    },
    {
      "epoch": 0.17504166666666668,
      "grad_norm": 0.7753601670265198,
      "learning_rate": 0.00027872829562691244,
      "loss": 3.8885,
      "step": 84020
    },
    {
      "epoch": 0.1750625,
      "grad_norm": 0.7284010052680969,
      "learning_rate": 0.00027872323461326527,
      "loss": 3.9211,
      "step": 84030
    },
    {
      "epoch": 0.17508333333333334,
      "grad_norm": 0.7247377038002014,
      "learning_rate": 0.0002787181730435847,
      "loss": 3.9538,
      "step": 84040
    },
    {
      "epoch": 0.17510416666666667,
      "grad_norm": 1.0306096076965332,
      "learning_rate": 0.0002787131109178926,
      "loss": 3.8296,
      "step": 84050
    },
    {
      "epoch": 0.175125,
      "grad_norm": 0.8511313199996948,
      "learning_rate": 0.0002787080482362108,
      "loss": 3.827,
      "step": 84060
    },
    {
      "epoch": 0.17514583333333333,
      "grad_norm": 0.6872686743736267,
      "learning_rate": 0.0002787029849985611,
      "loss": 3.823,
      "step": 84070
    },
    {
      "epoch": 0.17516666666666666,
      "grad_norm": 0.8001198172569275,
      "learning_rate": 0.00027869792120496556,
      "loss": 3.9955,
      "step": 84080
    },
    {
      "epoch": 0.1751875,
      "grad_norm": 0.8212463855743408,
      "learning_rate": 0.00027869285685544584,
      "loss": 3.9432,
      "step": 84090
    },
    {
      "epoch": 0.17520833333333333,
      "grad_norm": 0.7340368032455444,
      "learning_rate": 0.000278687791950024,
      "loss": 3.97,
      "step": 84100
    },
    {
      "epoch": 0.17522916666666666,
      "grad_norm": 0.807033121585846,
      "learning_rate": 0.00027868272648872187,
      "loss": 3.8939,
      "step": 84110
    },
    {
      "epoch": 0.17525,
      "grad_norm": 0.9282466769218445,
      "learning_rate": 0.0002786776604715612,
      "loss": 3.984,
      "step": 84120
    },
    {
      "epoch": 0.17527083333333332,
      "grad_norm": 0.776353657245636,
      "learning_rate": 0.000278672593898564,
      "loss": 3.9141,
      "step": 84130
    },
    {
      "epoch": 0.17529166666666668,
      "grad_norm": 0.7287374138832092,
      "learning_rate": 0.00027866752676975213,
      "loss": 3.8703,
      "step": 84140
    },
    {
      "epoch": 0.1753125,
      "grad_norm": 0.7384030818939209,
      "learning_rate": 0.0002786624590851475,
      "loss": 3.8893,
      "step": 84150
    },
    {
      "epoch": 0.17533333333333334,
      "grad_norm": 0.8223645687103271,
      "learning_rate": 0.00027865739084477194,
      "loss": 3.6945,
      "step": 84160
    },
    {
      "epoch": 0.17535416666666667,
      "grad_norm": 0.8372085690498352,
      "learning_rate": 0.0002786523220486474,
      "loss": 3.8871,
      "step": 84170
    },
    {
      "epoch": 0.175375,
      "grad_norm": 0.8531904220581055,
      "learning_rate": 0.00027864725269679576,
      "loss": 3.9975,
      "step": 84180
    },
    {
      "epoch": 0.17539583333333333,
      "grad_norm": 0.7307296395301819,
      "learning_rate": 0.0002786421827892389,
      "loss": 3.9482,
      "step": 84190
    },
    {
      "epoch": 0.17541666666666667,
      "grad_norm": 0.7485204339027405,
      "learning_rate": 0.0002786371123259987,
      "loss": 3.8679,
      "step": 84200
    },
    {
      "epoch": 0.1754375,
      "grad_norm": 0.7368801236152649,
      "learning_rate": 0.00027863204130709713,
      "loss": 3.8844,
      "step": 84210
    },
    {
      "epoch": 0.17545833333333333,
      "grad_norm": 0.7550124526023865,
      "learning_rate": 0.00027862696973255605,
      "loss": 4.0683,
      "step": 84220
    },
    {
      "epoch": 0.17547916666666666,
      "grad_norm": 0.9082387685775757,
      "learning_rate": 0.00027862189760239736,
      "loss": 4.0058,
      "step": 84230
    },
    {
      "epoch": 0.1755,
      "grad_norm": 0.8255568742752075,
      "learning_rate": 0.000278616824916643,
      "loss": 4.0584,
      "step": 84240
    },
    {
      "epoch": 0.17552083333333332,
      "grad_norm": 0.7568209171295166,
      "learning_rate": 0.0002786117516753149,
      "loss": 3.8265,
      "step": 84250
    },
    {
      "epoch": 0.17554166666666668,
      "grad_norm": 0.70294588804245,
      "learning_rate": 0.0002786066778784349,
      "loss": 3.938,
      "step": 84260
    },
    {
      "epoch": 0.1755625,
      "grad_norm": 0.7837700843811035,
      "learning_rate": 0.00027860160352602496,
      "loss": 3.8897,
      "step": 84270
    },
    {
      "epoch": 0.17558333333333334,
      "grad_norm": 0.768639087677002,
      "learning_rate": 0.00027859652861810696,
      "loss": 3.9101,
      "step": 84280
    },
    {
      "epoch": 0.17560416666666667,
      "grad_norm": 0.706296443939209,
      "learning_rate": 0.0002785914531547029,
      "loss": 4.0257,
      "step": 84290
    },
    {
      "epoch": 0.175625,
      "grad_norm": 0.6341419816017151,
      "learning_rate": 0.00027858637713583465,
      "loss": 3.9011,
      "step": 84300
    },
    {
      "epoch": 0.17564583333333333,
      "grad_norm": 0.7969459295272827,
      "learning_rate": 0.0002785813005615242,
      "loss": 3.9285,
      "step": 84310
    },
    {
      "epoch": 0.17566666666666667,
      "grad_norm": 0.7704258561134338,
      "learning_rate": 0.00027857622343179335,
      "loss": 3.9489,
      "step": 84320
    },
    {
      "epoch": 0.1756875,
      "grad_norm": 0.7691376209259033,
      "learning_rate": 0.00027857114574666417,
      "loss": 3.9469,
      "step": 84330
    },
    {
      "epoch": 0.17570833333333333,
      "grad_norm": 0.8196581602096558,
      "learning_rate": 0.0002785660675061585,
      "loss": 4.0143,
      "step": 84340
    },
    {
      "epoch": 0.17572916666666666,
      "grad_norm": 0.7274945974349976,
      "learning_rate": 0.00027856098871029833,
      "loss": 3.8897,
      "step": 84350
    },
    {
      "epoch": 0.17575,
      "grad_norm": 0.8923137187957764,
      "learning_rate": 0.00027855590935910553,
      "loss": 4.0407,
      "step": 84360
    },
    {
      "epoch": 0.17577083333333332,
      "grad_norm": 0.8398615121841431,
      "learning_rate": 0.00027855082945260216,
      "loss": 3.7819,
      "step": 84370
    },
    {
      "epoch": 0.17579166666666668,
      "grad_norm": 0.740421712398529,
      "learning_rate": 0.00027854574899081,
      "loss": 3.8742,
      "step": 84380
    },
    {
      "epoch": 0.1758125,
      "grad_norm": 0.8344475030899048,
      "learning_rate": 0.00027854066797375115,
      "loss": 4.0188,
      "step": 84390
    },
    {
      "epoch": 0.17583333333333334,
      "grad_norm": 0.6929113268852234,
      "learning_rate": 0.0002785355864014475,
      "loss": 3.8484,
      "step": 84400
    },
    {
      "epoch": 0.17585416666666667,
      "grad_norm": 0.7731239199638367,
      "learning_rate": 0.00027853050427392094,
      "loss": 3.903,
      "step": 84410
    },
    {
      "epoch": 0.175875,
      "grad_norm": 0.7715256214141846,
      "learning_rate": 0.00027852542159119355,
      "loss": 3.7636,
      "step": 84420
    },
    {
      "epoch": 0.17589583333333333,
      "grad_norm": 0.7231314778327942,
      "learning_rate": 0.00027852033835328716,
      "loss": 3.8185,
      "step": 84430
    },
    {
      "epoch": 0.17591666666666667,
      "grad_norm": 0.8167307376861572,
      "learning_rate": 0.0002785152545602238,
      "loss": 3.9658,
      "step": 84440
    },
    {
      "epoch": 0.1759375,
      "grad_norm": 0.8277047872543335,
      "learning_rate": 0.0002785101702120254,
      "loss": 3.8558,
      "step": 84450
    },
    {
      "epoch": 0.17595833333333333,
      "grad_norm": 0.8618035912513733,
      "learning_rate": 0.00027850508530871394,
      "loss": 3.8981,
      "step": 84460
    },
    {
      "epoch": 0.17597916666666666,
      "grad_norm": 0.717369556427002,
      "learning_rate": 0.00027849999985031135,
      "loss": 3.8997,
      "step": 84470
    },
    {
      "epoch": 0.176,
      "grad_norm": 0.7896784543991089,
      "learning_rate": 0.00027849491383683965,
      "loss": 3.9028,
      "step": 84480
    },
    {
      "epoch": 0.17602083333333332,
      "grad_norm": 0.8415800929069519,
      "learning_rate": 0.0002784898272683208,
      "loss": 3.9736,
      "step": 84490
    },
    {
      "epoch": 0.17604166666666668,
      "grad_norm": 0.8310298919677734,
      "learning_rate": 0.00027848474014477675,
      "loss": 3.7949,
      "step": 84500
    },
    {
      "epoch": 0.1760625,
      "grad_norm": 0.9235999584197998,
      "learning_rate": 0.00027847965246622947,
      "loss": 3.8432,
      "step": 84510
    },
    {
      "epoch": 0.17608333333333334,
      "grad_norm": 0.8253383040428162,
      "learning_rate": 0.00027847456423270094,
      "loss": 3.7867,
      "step": 84520
    },
    {
      "epoch": 0.17610416666666667,
      "grad_norm": 0.7661988735198975,
      "learning_rate": 0.0002784694754442131,
      "loss": 3.6832,
      "step": 84530
    },
    {
      "epoch": 0.176125,
      "grad_norm": 0.7327288389205933,
      "learning_rate": 0.0002784643861007881,
      "loss": 4.0185,
      "step": 84540
    },
    {
      "epoch": 0.17614583333333333,
      "grad_norm": 0.8049317598342896,
      "learning_rate": 0.0002784592962024477,
      "loss": 3.9106,
      "step": 84550
    },
    {
      "epoch": 0.17616666666666667,
      "grad_norm": 0.7769505977630615,
      "learning_rate": 0.000278454205749214,
      "loss": 3.8083,
      "step": 84560
    },
    {
      "epoch": 0.1761875,
      "grad_norm": 0.848537027835846,
      "learning_rate": 0.00027844911474110903,
      "loss": 3.8794,
      "step": 84570
    },
    {
      "epoch": 0.17620833333333333,
      "grad_norm": 0.9577915072441101,
      "learning_rate": 0.0002784440231781547,
      "loss": 3.7767,
      "step": 84580
    },
    {
      "epoch": 0.17622916666666666,
      "grad_norm": 0.8277558088302612,
      "learning_rate": 0.00027843893106037305,
      "loss": 3.8523,
      "step": 84590
    },
    {
      "epoch": 0.17625,
      "grad_norm": 0.9064648151397705,
      "learning_rate": 0.00027843383838778603,
      "loss": 3.8125,
      "step": 84600
    },
    {
      "epoch": 0.17627083333333332,
      "grad_norm": 0.7582958340644836,
      "learning_rate": 0.00027842874516041563,
      "loss": 4.0807,
      "step": 84610
    },
    {
      "epoch": 0.17629166666666668,
      "grad_norm": 0.6202499866485596,
      "learning_rate": 0.00027842365137828397,
      "loss": 3.9925,
      "step": 84620
    },
    {
      "epoch": 0.1763125,
      "grad_norm": 0.8294300436973572,
      "learning_rate": 0.0002784185570414129,
      "loss": 4.0316,
      "step": 84630
    },
    {
      "epoch": 0.17633333333333334,
      "grad_norm": 0.7661452293395996,
      "learning_rate": 0.0002784134621498245,
      "loss": 3.928,
      "step": 84640
    },
    {
      "epoch": 0.17635416666666667,
      "grad_norm": 0.9225952625274658,
      "learning_rate": 0.0002784083667035408,
      "loss": 3.7466,
      "step": 84650
    },
    {
      "epoch": 0.176375,
      "grad_norm": 0.8584547638893127,
      "learning_rate": 0.0002784032707025838,
      "loss": 4.0949,
      "step": 84660
    },
    {
      "epoch": 0.17639583333333334,
      "grad_norm": 0.6964746713638306,
      "learning_rate": 0.0002783981741469755,
      "loss": 4.0062,
      "step": 84670
    },
    {
      "epoch": 0.17641666666666667,
      "grad_norm": 0.8194291591644287,
      "learning_rate": 0.00027839307703673787,
      "loss": 3.912,
      "step": 84680
    },
    {
      "epoch": 0.1764375,
      "grad_norm": 0.6447473168373108,
      "learning_rate": 0.000278387979371893,
      "loss": 3.7769,
      "step": 84690
    },
    {
      "epoch": 0.17645833333333333,
      "grad_norm": 0.8188226819038391,
      "learning_rate": 0.0002783828811524628,
      "loss": 3.8529,
      "step": 84700
    },
    {
      "epoch": 0.17647916666666666,
      "grad_norm": 0.7701348662376404,
      "learning_rate": 0.0002783777823784695,
      "loss": 3.7937,
      "step": 84710
    },
    {
      "epoch": 0.1765,
      "grad_norm": 0.7389251589775085,
      "learning_rate": 0.0002783726830499349,
      "loss": 3.8626,
      "step": 84720
    },
    {
      "epoch": 0.17652083333333332,
      "grad_norm": 0.7238682508468628,
      "learning_rate": 0.00027836758316688117,
      "loss": 4.1363,
      "step": 84730
    },
    {
      "epoch": 0.17654166666666668,
      "grad_norm": 0.7437998652458191,
      "learning_rate": 0.0002783624827293303,
      "loss": 3.8801,
      "step": 84740
    },
    {
      "epoch": 0.1765625,
      "grad_norm": 0.7351630926132202,
      "learning_rate": 0.0002783573817373042,
      "loss": 3.8832,
      "step": 84750
    },
    {
      "epoch": 0.17658333333333334,
      "grad_norm": 0.7549439072608948,
      "learning_rate": 0.0002783522801908252,
      "loss": 3.9316,
      "step": 84760
    },
    {
      "epoch": 0.17660416666666667,
      "grad_norm": 0.8210441470146179,
      "learning_rate": 0.000278347178089915,
      "loss": 3.9767,
      "step": 84770
    },
    {
      "epoch": 0.176625,
      "grad_norm": 0.7545561790466309,
      "learning_rate": 0.0002783420754345959,
      "loss": 3.9057,
      "step": 84780
    },
    {
      "epoch": 0.17664583333333334,
      "grad_norm": 0.7018294930458069,
      "learning_rate": 0.0002783369722248898,
      "loss": 3.8982,
      "step": 84790
    },
    {
      "epoch": 0.17666666666666667,
      "grad_norm": 0.7414410710334778,
      "learning_rate": 0.00027833186846081876,
      "loss": 3.8117,
      "step": 84800
    },
    {
      "epoch": 0.1766875,
      "grad_norm": 0.8761700391769409,
      "learning_rate": 0.00027832676414240486,
      "loss": 3.7411,
      "step": 84810
    },
    {
      "epoch": 0.17670833333333333,
      "grad_norm": 0.6783495545387268,
      "learning_rate": 0.0002783216592696701,
      "loss": 3.9546,
      "step": 84820
    },
    {
      "epoch": 0.17672916666666666,
      "grad_norm": 0.7869935631752014,
      "learning_rate": 0.0002783165538426366,
      "loss": 3.9386,
      "step": 84830
    },
    {
      "epoch": 0.17675,
      "grad_norm": 0.7963854670524597,
      "learning_rate": 0.0002783114478613264,
      "loss": 3.9319,
      "step": 84840
    },
    {
      "epoch": 0.17677083333333332,
      "grad_norm": 0.8568111062049866,
      "learning_rate": 0.0002783063413257615,
      "loss": 3.9164,
      "step": 84850
    },
    {
      "epoch": 0.17679166666666668,
      "grad_norm": 0.8278138041496277,
      "learning_rate": 0.000278301234235964,
      "loss": 3.9649,
      "step": 84860
    },
    {
      "epoch": 0.1768125,
      "grad_norm": 0.8124381899833679,
      "learning_rate": 0.0002782961265919559,
      "loss": 3.9824,
      "step": 84870
    },
    {
      "epoch": 0.17683333333333334,
      "grad_norm": 0.8014158010482788,
      "learning_rate": 0.0002782910183937594,
      "loss": 3.9643,
      "step": 84880
    },
    {
      "epoch": 0.17685416666666667,
      "grad_norm": 0.779434323310852,
      "learning_rate": 0.00027828590964139646,
      "loss": 3.9617,
      "step": 84890
    },
    {
      "epoch": 0.176875,
      "grad_norm": 0.8767693638801575,
      "learning_rate": 0.0002782808003348892,
      "loss": 3.8822,
      "step": 84900
    },
    {
      "epoch": 0.17689583333333334,
      "grad_norm": 0.7560848593711853,
      "learning_rate": 0.0002782756904742596,
      "loss": 3.7424,
      "step": 84910
    },
    {
      "epoch": 0.17691666666666667,
      "grad_norm": 0.825802743434906,
      "learning_rate": 0.0002782705800595298,
      "loss": 4.0187,
      "step": 84920
    },
    {
      "epoch": 0.1769375,
      "grad_norm": 1.1611425876617432,
      "learning_rate": 0.00027826546909072187,
      "loss": 3.684,
      "step": 84930
    },
    {
      "epoch": 0.17695833333333333,
      "grad_norm": 0.7577826380729675,
      "learning_rate": 0.0002782603575678579,
      "loss": 3.9734,
      "step": 84940
    },
    {
      "epoch": 0.17697916666666666,
      "grad_norm": 0.7903863787651062,
      "learning_rate": 0.00027825524549095996,
      "loss": 3.7422,
      "step": 84950
    },
    {
      "epoch": 0.177,
      "grad_norm": 0.7231795787811279,
      "learning_rate": 0.0002782501328600501,
      "loss": 3.8684,
      "step": 84960
    },
    {
      "epoch": 0.17702083333333332,
      "grad_norm": 0.7165958881378174,
      "learning_rate": 0.00027824501967515044,
      "loss": 3.8542,
      "step": 84970
    },
    {
      "epoch": 0.17704166666666668,
      "grad_norm": 0.8805063366889954,
      "learning_rate": 0.0002782399059362831,
      "loss": 4.0852,
      "step": 84980
    },
    {
      "epoch": 0.1770625,
      "grad_norm": 0.9535393714904785,
      "learning_rate": 0.0002782347916434701,
      "loss": 3.8245,
      "step": 84990
    },
    {
      "epoch": 0.17708333333333334,
      "grad_norm": 0.6483847498893738,
      "learning_rate": 0.0002782296767967335,
      "loss": 4.0333,
      "step": 85000
    },
    {
      "epoch": 0.17708333333333334,
      "eval_loss": 4.270883083343506,
      "eval_runtime": 10.2903,
      "eval_samples_per_second": 0.972,
      "eval_steps_per_second": 0.292,
      "step": 85000
    },
    {
      "epoch": 0.17710416666666667,
      "grad_norm": 0.68458491563797,
      "learning_rate": 0.00027822456139609556,
      "loss": 3.7919,
      "step": 85010
    },
    {
      "epoch": 0.177125,
      "grad_norm": 0.7985631227493286,
      "learning_rate": 0.00027821944544157817,
      "loss": 4.0258,
      "step": 85020
    },
    {
      "epoch": 0.17714583333333334,
      "grad_norm": 0.7664515376091003,
      "learning_rate": 0.00027821432893320364,
      "loss": 3.9391,
      "step": 85030
    },
    {
      "epoch": 0.17716666666666667,
      "grad_norm": 0.8336789011955261,
      "learning_rate": 0.00027820921187099386,
      "loss": 3.8307,
      "step": 85040
    },
    {
      "epoch": 0.1771875,
      "grad_norm": 0.8124071359634399,
      "learning_rate": 0.000278204094254971,
      "loss": 3.8803,
      "step": 85050
    },
    {
      "epoch": 0.17720833333333333,
      "grad_norm": 0.8979480862617493,
      "learning_rate": 0.0002781989760851573,
      "loss": 3.8354,
      "step": 85060
    },
    {
      "epoch": 0.17722916666666666,
      "grad_norm": 0.773404598236084,
      "learning_rate": 0.00027819385736157473,
      "loss": 3.882,
      "step": 85070
    },
    {
      "epoch": 0.17725,
      "grad_norm": 0.8584886789321899,
      "learning_rate": 0.00027818873808424543,
      "loss": 3.8124,
      "step": 85080
    },
    {
      "epoch": 0.17727083333333332,
      "grad_norm": 0.7295774817466736,
      "learning_rate": 0.0002781836182531916,
      "loss": 3.7988,
      "step": 85090
    },
    {
      "epoch": 0.17729166666666665,
      "grad_norm": 0.7434903383255005,
      "learning_rate": 0.0002781784978684352,
      "loss": 3.8588,
      "step": 85100
    },
    {
      "epoch": 0.1773125,
      "grad_norm": 0.756166398525238,
      "learning_rate": 0.00027817337692999844,
      "loss": 4.0116,
      "step": 85110
    },
    {
      "epoch": 0.17733333333333334,
      "grad_norm": 0.7727351188659668,
      "learning_rate": 0.0002781682554379034,
      "loss": 3.8945,
      "step": 85120
    },
    {
      "epoch": 0.17735416666666667,
      "grad_norm": 1.001320719718933,
      "learning_rate": 0.00027816313339217225,
      "loss": 3.9001,
      "step": 85130
    },
    {
      "epoch": 0.177375,
      "grad_norm": 0.6802487969398499,
      "learning_rate": 0.0002781580107928271,
      "loss": 4.0778,
      "step": 85140
    },
    {
      "epoch": 0.17739583333333334,
      "grad_norm": 0.8479102849960327,
      "learning_rate": 0.0002781528876398901,
      "loss": 3.7289,
      "step": 85150
    },
    {
      "epoch": 0.17741666666666667,
      "grad_norm": 0.7498804926872253,
      "learning_rate": 0.0002781477639333833,
      "loss": 4.0002,
      "step": 85160
    },
    {
      "epoch": 0.1774375,
      "grad_norm": 0.7579991817474365,
      "learning_rate": 0.0002781426396733289,
      "loss": 3.8885,
      "step": 85170
    },
    {
      "epoch": 0.17745833333333333,
      "grad_norm": 2.7374372482299805,
      "learning_rate": 0.00027813751485974904,
      "loss": 4.0101,
      "step": 85180
    },
    {
      "epoch": 0.17747916666666666,
      "grad_norm": 0.6861532926559448,
      "learning_rate": 0.00027813238949266577,
      "loss": 3.776,
      "step": 85190
    },
    {
      "epoch": 0.1775,
      "grad_norm": 0.7910853028297424,
      "learning_rate": 0.0002781272635721014,
      "loss": 4.1329,
      "step": 85200
    },
    {
      "epoch": 0.17752083333333332,
      "grad_norm": 0.695736825466156,
      "learning_rate": 0.0002781221370980779,
      "loss": 3.7898,
      "step": 85210
    },
    {
      "epoch": 0.17754166666666665,
      "grad_norm": 0.7923392057418823,
      "learning_rate": 0.0002781170100706175,
      "loss": 3.8419,
      "step": 85220
    },
    {
      "epoch": 0.1775625,
      "grad_norm": 0.7961102724075317,
      "learning_rate": 0.0002781118824897423,
      "loss": 3.8805,
      "step": 85230
    },
    {
      "epoch": 0.17758333333333334,
      "grad_norm": 0.7338016629219055,
      "learning_rate": 0.00027810675435547454,
      "loss": 4.1231,
      "step": 85240
    },
    {
      "epoch": 0.17760416666666667,
      "grad_norm": 0.723019003868103,
      "learning_rate": 0.0002781016256678362,
      "loss": 3.6793,
      "step": 85250
    },
    {
      "epoch": 0.177625,
      "grad_norm": 0.737377405166626,
      "learning_rate": 0.00027809649642684963,
      "loss": 4.0939,
      "step": 85260
    },
    {
      "epoch": 0.17764583333333334,
      "grad_norm": 0.7326564788818359,
      "learning_rate": 0.00027809136663253694,
      "loss": 3.811,
      "step": 85270
    },
    {
      "epoch": 0.17766666666666667,
      "grad_norm": 0.8616056442260742,
      "learning_rate": 0.00027808623628492016,
      "loss": 3.9611,
      "step": 85280
    },
    {
      "epoch": 0.1776875,
      "grad_norm": 0.7072295546531677,
      "learning_rate": 0.00027808110538402156,
      "loss": 3.9105,
      "step": 85290
    },
    {
      "epoch": 0.17770833333333333,
      "grad_norm": 0.7990497946739197,
      "learning_rate": 0.0002780759739298633,
      "loss": 3.8518,
      "step": 85300
    },
    {
      "epoch": 0.17772916666666666,
      "grad_norm": 0.8465691208839417,
      "learning_rate": 0.00027807084192246756,
      "loss": 3.8166,
      "step": 85310
    },
    {
      "epoch": 0.17775,
      "grad_norm": 0.8017556667327881,
      "learning_rate": 0.0002780657093618564,
      "loss": 3.8697,
      "step": 85320
    },
    {
      "epoch": 0.17777083333333332,
      "grad_norm": 0.7984086871147156,
      "learning_rate": 0.00027806057624805216,
      "loss": 3.9159,
      "step": 85330
    },
    {
      "epoch": 0.17779166666666665,
      "grad_norm": 0.8751817345619202,
      "learning_rate": 0.0002780554425810768,
      "loss": 4.0004,
      "step": 85340
    },
    {
      "epoch": 0.1778125,
      "grad_norm": 0.7382178902626038,
      "learning_rate": 0.0002780503083609527,
      "loss": 3.8486,
      "step": 85350
    },
    {
      "epoch": 0.17783333333333334,
      "grad_norm": 0.8024728298187256,
      "learning_rate": 0.000278045173587702,
      "loss": 4.0176,
      "step": 85360
    },
    {
      "epoch": 0.17785416666666667,
      "grad_norm": 1.0524216890335083,
      "learning_rate": 0.00027804003826134674,
      "loss": 3.8536,
      "step": 85370
    },
    {
      "epoch": 0.177875,
      "grad_norm": 0.7176036834716797,
      "learning_rate": 0.00027803490238190924,
      "loss": 3.8711,
      "step": 85380
    },
    {
      "epoch": 0.17789583333333334,
      "grad_norm": 0.8119319081306458,
      "learning_rate": 0.0002780297659494116,
      "loss": 3.9395,
      "step": 85390
    },
    {
      "epoch": 0.17791666666666667,
      "grad_norm": 0.9334378242492676,
      "learning_rate": 0.0002780246289638761,
      "loss": 3.7965,
      "step": 85400
    },
    {
      "epoch": 0.1779375,
      "grad_norm": 0.6776244640350342,
      "learning_rate": 0.0002780194914253248,
      "loss": 3.9576,
      "step": 85410
    },
    {
      "epoch": 0.17795833333333333,
      "grad_norm": 0.8493268489837646,
      "learning_rate": 0.0002780143533337801,
      "loss": 3.9624,
      "step": 85420
    },
    {
      "epoch": 0.17797916666666666,
      "grad_norm": 0.725996732711792,
      "learning_rate": 0.00027800921468926394,
      "loss": 3.8757,
      "step": 85430
    },
    {
      "epoch": 0.178,
      "grad_norm": 0.8265067934989929,
      "learning_rate": 0.00027800407549179873,
      "loss": 3.7489,
      "step": 85440
    },
    {
      "epoch": 0.17802083333333332,
      "grad_norm": 0.6908148527145386,
      "learning_rate": 0.0002779989357414065,
      "loss": 3.9662,
      "step": 85450
    },
    {
      "epoch": 0.17804166666666665,
      "grad_norm": 0.6956504583358765,
      "learning_rate": 0.0002779937954381096,
      "loss": 4.0488,
      "step": 85460
    },
    {
      "epoch": 0.1780625,
      "grad_norm": 0.8716495037078857,
      "learning_rate": 0.00027798865458193017,
      "loss": 3.9096,
      "step": 85470
    },
    {
      "epoch": 0.17808333333333334,
      "grad_norm": 0.8833160996437073,
      "learning_rate": 0.0002779835131728904,
      "loss": 3.8721,
      "step": 85480
    },
    {
      "epoch": 0.17810416666666667,
      "grad_norm": 0.7686583995819092,
      "learning_rate": 0.00027797837121101246,
      "loss": 3.9348,
      "step": 85490
    },
    {
      "epoch": 0.178125,
      "grad_norm": 0.9064064621925354,
      "learning_rate": 0.00027797322869631865,
      "loss": 4.0901,
      "step": 85500
    },
    {
      "epoch": 0.17814583333333334,
      "grad_norm": 0.9460353255271912,
      "learning_rate": 0.0002779680856288312,
      "loss": 4.2058,
      "step": 85510
    },
    {
      "epoch": 0.17816666666666667,
      "grad_norm": 0.764068067073822,
      "learning_rate": 0.0002779629420085722,
      "loss": 4.0236,
      "step": 85520
    },
    {
      "epoch": 0.1781875,
      "grad_norm": 0.8106610178947449,
      "learning_rate": 0.00027795779783556395,
      "loss": 3.8341,
      "step": 85530
    },
    {
      "epoch": 0.17820833333333333,
      "grad_norm": 0.7293939590454102,
      "learning_rate": 0.0002779526531098287,
      "loss": 3.9046,
      "step": 85540
    },
    {
      "epoch": 0.17822916666666666,
      "grad_norm": 0.8225104808807373,
      "learning_rate": 0.0002779475078313886,
      "loss": 3.9554,
      "step": 85550
    },
    {
      "epoch": 0.17825,
      "grad_norm": 0.7941524386405945,
      "learning_rate": 0.00027794236200026596,
      "loss": 4.0257,
      "step": 85560
    },
    {
      "epoch": 0.17827083333333332,
      "grad_norm": 0.7747449278831482,
      "learning_rate": 0.0002779372156164829,
      "loss": 3.9171,
      "step": 85570
    },
    {
      "epoch": 0.17829166666666665,
      "grad_norm": 0.8291200399398804,
      "learning_rate": 0.00027793206868006174,
      "loss": 3.9162,
      "step": 85580
    },
    {
      "epoch": 0.1783125,
      "grad_norm": 0.7966523170471191,
      "learning_rate": 0.00027792692119102473,
      "loss": 3.8511,
      "step": 85590
    },
    {
      "epoch": 0.17833333333333334,
      "grad_norm": 0.7935148477554321,
      "learning_rate": 0.00027792177314939394,
      "loss": 3.7484,
      "step": 85600
    },
    {
      "epoch": 0.17835416666666667,
      "grad_norm": 0.8843932151794434,
      "learning_rate": 0.0002779166245551918,
      "loss": 3.8398,
      "step": 85610
    },
    {
      "epoch": 0.178375,
      "grad_norm": 0.7689972519874573,
      "learning_rate": 0.0002779114754084405,
      "loss": 3.708,
      "step": 85620
    },
    {
      "epoch": 0.17839583333333334,
      "grad_norm": 0.7964766025543213,
      "learning_rate": 0.00027790632570916224,
      "loss": 4.0611,
      "step": 85630
    },
    {
      "epoch": 0.17841666666666667,
      "grad_norm": 1.0746008157730103,
      "learning_rate": 0.00027790117545737925,
      "loss": 3.905,
      "step": 85640
    },
    {
      "epoch": 0.1784375,
      "grad_norm": 1.1286265850067139,
      "learning_rate": 0.0002778960246531138,
      "loss": 3.9659,
      "step": 85650
    },
    {
      "epoch": 0.17845833333333333,
      "grad_norm": 0.6854866743087769,
      "learning_rate": 0.0002778908732963882,
      "loss": 3.9406,
      "step": 85660
    },
    {
      "epoch": 0.17847916666666666,
      "grad_norm": 0.7812469601631165,
      "learning_rate": 0.0002778857213872246,
      "loss": 3.9744,
      "step": 85670
    },
    {
      "epoch": 0.1785,
      "grad_norm": 0.9480813145637512,
      "learning_rate": 0.00027788056892564535,
      "loss": 3.8453,
      "step": 85680
    },
    {
      "epoch": 0.17852083333333332,
      "grad_norm": 0.7138664126396179,
      "learning_rate": 0.00027787541591167263,
      "loss": 3.8467,
      "step": 85690
    },
    {
      "epoch": 0.17854166666666665,
      "grad_norm": 0.7617980241775513,
      "learning_rate": 0.0002778702623453287,
      "loss": 3.7987,
      "step": 85700
    },
    {
      "epoch": 0.1785625,
      "grad_norm": 0.7998310923576355,
      "learning_rate": 0.0002778651082266359,
      "loss": 3.9373,
      "step": 85710
    },
    {
      "epoch": 0.17858333333333334,
      "grad_norm": 0.7830936908721924,
      "learning_rate": 0.00027785995355561645,
      "loss": 3.9655,
      "step": 85720
    },
    {
      "epoch": 0.17860416666666667,
      "grad_norm": 0.7035660743713379,
      "learning_rate": 0.0002778547983322926,
      "loss": 3.9824,
      "step": 85730
    },
    {
      "epoch": 0.178625,
      "grad_norm": 0.8720551133155823,
      "learning_rate": 0.0002778496425566866,
      "loss": 3.9131,
      "step": 85740
    },
    {
      "epoch": 0.17864583333333334,
      "grad_norm": 0.7178636193275452,
      "learning_rate": 0.0002778444862288208,
      "loss": 4.0619,
      "step": 85750
    },
    {
      "epoch": 0.17866666666666667,
      "grad_norm": 0.7582423090934753,
      "learning_rate": 0.0002778393293487174,
      "loss": 3.8318,
      "step": 85760
    },
    {
      "epoch": 0.1786875,
      "grad_norm": 0.769227921962738,
      "learning_rate": 0.0002778341719163987,
      "loss": 4.0159,
      "step": 85770
    },
    {
      "epoch": 0.17870833333333333,
      "grad_norm": 0.9777992367744446,
      "learning_rate": 0.000277829013931887,
      "loss": 3.9242,
      "step": 85780
    },
    {
      "epoch": 0.17872916666666666,
      "grad_norm": 0.7764589190483093,
      "learning_rate": 0.0002778238553952045,
      "loss": 3.8122,
      "step": 85790
    },
    {
      "epoch": 0.17875,
      "grad_norm": 0.791358232498169,
      "learning_rate": 0.00027781869630637355,
      "loss": 3.9199,
      "step": 85800
    },
    {
      "epoch": 0.17877083333333332,
      "grad_norm": 0.7822316288948059,
      "learning_rate": 0.0002778135366654165,
      "loss": 3.9028,
      "step": 85810
    },
    {
      "epoch": 0.17879166666666665,
      "grad_norm": 1.1834917068481445,
      "learning_rate": 0.0002778083764723555,
      "loss": 3.9403,
      "step": 85820
    },
    {
      "epoch": 0.1788125,
      "grad_norm": 0.7282077670097351,
      "learning_rate": 0.0002778032157272129,
      "loss": 3.8087,
      "step": 85830
    },
    {
      "epoch": 0.17883333333333334,
      "grad_norm": 0.9118136763572693,
      "learning_rate": 0.00027779805443001106,
      "loss": 3.8075,
      "step": 85840
    },
    {
      "epoch": 0.17885416666666668,
      "grad_norm": 0.7563148140907288,
      "learning_rate": 0.0002777928925807721,
      "loss": 3.8556,
      "step": 85850
    },
    {
      "epoch": 0.178875,
      "grad_norm": 0.7563636898994446,
      "learning_rate": 0.0002777877301795185,
      "loss": 3.923,
      "step": 85860
    },
    {
      "epoch": 0.17889583333333334,
      "grad_norm": 0.7616491317749023,
      "learning_rate": 0.00027778256722627253,
      "loss": 3.8456,
      "step": 85870
    },
    {
      "epoch": 0.17891666666666667,
      "grad_norm": 0.8798685669898987,
      "learning_rate": 0.0002777774037210564,
      "loss": 3.9007,
      "step": 85880
    },
    {
      "epoch": 0.1789375,
      "grad_norm": 0.8210008144378662,
      "learning_rate": 0.00027777223966389243,
      "loss": 3.9216,
      "step": 85890
    },
    {
      "epoch": 0.17895833333333333,
      "grad_norm": 0.8116207718849182,
      "learning_rate": 0.00027776707505480303,
      "loss": 3.9912,
      "step": 85900
    },
    {
      "epoch": 0.17897916666666666,
      "grad_norm": 0.7470940947532654,
      "learning_rate": 0.0002777619098938104,
      "loss": 4.1416,
      "step": 85910
    },
    {
      "epoch": 0.179,
      "grad_norm": 0.7884159088134766,
      "learning_rate": 0.00027775674418093686,
      "loss": 4.0423,
      "step": 85920
    },
    {
      "epoch": 0.17902083333333332,
      "grad_norm": 0.8260074853897095,
      "learning_rate": 0.0002777515779162048,
      "loss": 4.0291,
      "step": 85930
    },
    {
      "epoch": 0.17904166666666665,
      "grad_norm": 0.8841700553894043,
      "learning_rate": 0.0002777464110996365,
      "loss": 3.9149,
      "step": 85940
    },
    {
      "epoch": 0.1790625,
      "grad_norm": 0.7573043704032898,
      "learning_rate": 0.0002777412437312542,
      "loss": 4.0028,
      "step": 85950
    },
    {
      "epoch": 0.17908333333333334,
      "grad_norm": 0.830887496471405,
      "learning_rate": 0.0002777360758110804,
      "loss": 3.8941,
      "step": 85960
    },
    {
      "epoch": 0.17910416666666668,
      "grad_norm": 0.7752341628074646,
      "learning_rate": 0.00027773090733913727,
      "loss": 4.1286,
      "step": 85970
    },
    {
      "epoch": 0.179125,
      "grad_norm": 0.7582080960273743,
      "learning_rate": 0.0002777257383154471,
      "loss": 3.9649,
      "step": 85980
    },
    {
      "epoch": 0.17914583333333334,
      "grad_norm": 0.8516180515289307,
      "learning_rate": 0.0002777205687400324,
      "loss": 3.9943,
      "step": 85990
    },
    {
      "epoch": 0.17916666666666667,
      "grad_norm": 0.8340393900871277,
      "learning_rate": 0.00027771539861291535,
      "loss": 4.0159,
      "step": 86000
    },
    {
      "epoch": 0.17916666666666667,
      "eval_loss": 4.264447212219238,
      "eval_runtime": 9.9618,
      "eval_samples_per_second": 1.004,
      "eval_steps_per_second": 0.301,
      "step": 86000
    },
    {
      "epoch": 0.1791875,
      "grad_norm": 0.8380820155143738,
      "learning_rate": 0.0002777102279341183,
      "loss": 3.995,
      "step": 86010
    },
    {
      "epoch": 0.17920833333333333,
      "grad_norm": 0.8911182284355164,
      "learning_rate": 0.0002777050567036637,
      "loss": 3.9424,
      "step": 86020
    },
    {
      "epoch": 0.17922916666666666,
      "grad_norm": 0.7268779277801514,
      "learning_rate": 0.0002776998849215738,
      "loss": 3.8526,
      "step": 86030
    },
    {
      "epoch": 0.17925,
      "grad_norm": 0.8340833783149719,
      "learning_rate": 0.00027769471258787086,
      "loss": 3.9032,
      "step": 86040
    },
    {
      "epoch": 0.17927083333333332,
      "grad_norm": 0.6930897831916809,
      "learning_rate": 0.0002776895397025774,
      "loss": 4.0474,
      "step": 86050
    },
    {
      "epoch": 0.17929166666666665,
      "grad_norm": 0.762506365776062,
      "learning_rate": 0.0002776843662657156,
      "loss": 4.1076,
      "step": 86060
    },
    {
      "epoch": 0.1793125,
      "grad_norm": 0.8332167863845825,
      "learning_rate": 0.0002776791922773079,
      "loss": 3.944,
      "step": 86070
    },
    {
      "epoch": 0.17933333333333334,
      "grad_norm": 0.7995395064353943,
      "learning_rate": 0.0002776740177373766,
      "loss": 4.0739,
      "step": 86080
    },
    {
      "epoch": 0.17935416666666668,
      "grad_norm": 0.8047800064086914,
      "learning_rate": 0.00027766884264594414,
      "loss": 3.9314,
      "step": 86090
    },
    {
      "epoch": 0.179375,
      "grad_norm": 0.8498236536979675,
      "learning_rate": 0.0002776636670030328,
      "loss": 3.9711,
      "step": 86100
    },
    {
      "epoch": 0.17939583333333334,
      "grad_norm": 0.9017711877822876,
      "learning_rate": 0.00027765849080866494,
      "loss": 3.934,
      "step": 86110
    },
    {
      "epoch": 0.17941666666666667,
      "grad_norm": 0.8342052698135376,
      "learning_rate": 0.0002776533140628629,
      "loss": 4.1656,
      "step": 86120
    },
    {
      "epoch": 0.1794375,
      "grad_norm": 0.6985674500465393,
      "learning_rate": 0.0002776481367656491,
      "loss": 4.0342,
      "step": 86130
    },
    {
      "epoch": 0.17945833333333333,
      "grad_norm": 0.747012734413147,
      "learning_rate": 0.0002776429589170459,
      "loss": 4.0234,
      "step": 86140
    },
    {
      "epoch": 0.17947916666666666,
      "grad_norm": 0.722866952419281,
      "learning_rate": 0.0002776377805170756,
      "loss": 4.0712,
      "step": 86150
    },
    {
      "epoch": 0.1795,
      "grad_norm": 0.8306101560592651,
      "learning_rate": 0.0002776326015657607,
      "loss": 3.9106,
      "step": 86160
    },
    {
      "epoch": 0.17952083333333332,
      "grad_norm": 0.8258914947509766,
      "learning_rate": 0.00027762742206312335,
      "loss": 3.6867,
      "step": 86170
    },
    {
      "epoch": 0.17954166666666665,
      "grad_norm": 1.0408835411071777,
      "learning_rate": 0.0002776222420091861,
      "loss": 3.7529,
      "step": 86180
    },
    {
      "epoch": 0.1795625,
      "grad_norm": 0.9408711194992065,
      "learning_rate": 0.00027761706140397134,
      "loss": 3.884,
      "step": 86190
    },
    {
      "epoch": 0.17958333333333334,
      "grad_norm": 0.7155725955963135,
      "learning_rate": 0.00027761188024750134,
      "loss": 3.9833,
      "step": 86200
    },
    {
      "epoch": 0.17960416666666668,
      "grad_norm": 0.6851444244384766,
      "learning_rate": 0.0002776066985397985,
      "loss": 3.9916,
      "step": 86210
    },
    {
      "epoch": 0.179625,
      "grad_norm": 0.7510812282562256,
      "learning_rate": 0.00027760151628088527,
      "loss": 4.1098,
      "step": 86220
    },
    {
      "epoch": 0.17964583333333334,
      "grad_norm": 0.6606239080429077,
      "learning_rate": 0.000277596333470784,
      "loss": 3.8789,
      "step": 86230
    },
    {
      "epoch": 0.17966666666666667,
      "grad_norm": 0.7594720125198364,
      "learning_rate": 0.0002775911501095171,
      "loss": 3.9436,
      "step": 86240
    },
    {
      "epoch": 0.1796875,
      "grad_norm": 0.7470260262489319,
      "learning_rate": 0.0002775859661971069,
      "loss": 3.9608,
      "step": 86250
    },
    {
      "epoch": 0.17970833333333333,
      "grad_norm": 0.6869453191757202,
      "learning_rate": 0.00027758078173357586,
      "loss": 3.7846,
      "step": 86260
    },
    {
      "epoch": 0.17972916666666666,
      "grad_norm": 0.7238935828208923,
      "learning_rate": 0.0002775755967189463,
      "loss": 3.8762,
      "step": 86270
    },
    {
      "epoch": 0.17975,
      "grad_norm": 0.7277963757514954,
      "learning_rate": 0.0002775704111532407,
      "loss": 3.8483,
      "step": 86280
    },
    {
      "epoch": 0.17977083333333332,
      "grad_norm": 0.8137463927268982,
      "learning_rate": 0.0002775652250364814,
      "loss": 3.7965,
      "step": 86290
    },
    {
      "epoch": 0.17979166666666666,
      "grad_norm": 1.6932507753372192,
      "learning_rate": 0.0002775600383686908,
      "loss": 4.0959,
      "step": 86300
    },
    {
      "epoch": 0.1798125,
      "grad_norm": 0.7890238761901855,
      "learning_rate": 0.00027755485114989135,
      "loss": 4.0385,
      "step": 86310
    },
    {
      "epoch": 0.17983333333333335,
      "grad_norm": 0.816183865070343,
      "learning_rate": 0.00027754966338010544,
      "loss": 3.8311,
      "step": 86320
    },
    {
      "epoch": 0.17985416666666668,
      "grad_norm": 0.7907628417015076,
      "learning_rate": 0.00027754447505935547,
      "loss": 3.9034,
      "step": 86330
    },
    {
      "epoch": 0.179875,
      "grad_norm": 0.777371346950531,
      "learning_rate": 0.00027753928618766383,
      "loss": 4.0199,
      "step": 86340
    },
    {
      "epoch": 0.17989583333333334,
      "grad_norm": 0.7191076278686523,
      "learning_rate": 0.00027753409676505296,
      "loss": 3.7942,
      "step": 86350
    },
    {
      "epoch": 0.17991666666666667,
      "grad_norm": 0.7545293569564819,
      "learning_rate": 0.0002775289067915453,
      "loss": 3.8098,
      "step": 86360
    },
    {
      "epoch": 0.1799375,
      "grad_norm": 0.7242503762245178,
      "learning_rate": 0.0002775237162671632,
      "loss": 4.0995,
      "step": 86370
    },
    {
      "epoch": 0.17995833333333333,
      "grad_norm": 0.8849745988845825,
      "learning_rate": 0.0002775185251919292,
      "loss": 3.7909,
      "step": 86380
    },
    {
      "epoch": 0.17997916666666666,
      "grad_norm": 0.773890495300293,
      "learning_rate": 0.00027751333356586553,
      "loss": 3.9931,
      "step": 86390
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7033124566078186,
      "learning_rate": 0.00027750814138899485,
      "loss": 3.8301,
      "step": 86400
    },
    {
      "epoch": 0.18002083333333332,
      "grad_norm": 0.8426800966262817,
      "learning_rate": 0.0002775029486613394,
      "loss": 4.0528,
      "step": 86410
    },
    {
      "epoch": 0.18004166666666666,
      "grad_norm": 0.6433781981468201,
      "learning_rate": 0.00027749775538292166,
      "loss": 4.0897,
      "step": 86420
    },
    {
      "epoch": 0.1800625,
      "grad_norm": 0.7904895544052124,
      "learning_rate": 0.00027749256155376416,
      "loss": 4.0513,
      "step": 86430
    },
    {
      "epoch": 0.18008333333333335,
      "grad_norm": 0.7739648222923279,
      "learning_rate": 0.00027748736717388926,
      "loss": 3.8679,
      "step": 86440
    },
    {
      "epoch": 0.18010416666666668,
      "grad_norm": 0.8046252727508545,
      "learning_rate": 0.00027748217224331934,
      "loss": 3.8913,
      "step": 86450
    },
    {
      "epoch": 0.180125,
      "grad_norm": 0.8813231587409973,
      "learning_rate": 0.0002774769767620769,
      "loss": 3.9458,
      "step": 86460
    },
    {
      "epoch": 0.18014583333333334,
      "grad_norm": 0.8923408389091492,
      "learning_rate": 0.0002774717807301844,
      "loss": 3.9908,
      "step": 86470
    },
    {
      "epoch": 0.18016666666666667,
      "grad_norm": 0.7435433864593506,
      "learning_rate": 0.0002774665841476643,
      "loss": 3.9282,
      "step": 86480
    },
    {
      "epoch": 0.1801875,
      "grad_norm": 0.8172239661216736,
      "learning_rate": 0.0002774613870145389,
      "loss": 3.9326,
      "step": 86490
    },
    {
      "epoch": 0.18020833333333333,
      "grad_norm": 0.8387504816055298,
      "learning_rate": 0.00027745618933083083,
      "loss": 4.1198,
      "step": 86500
    },
    {
      "epoch": 0.18022916666666666,
      "grad_norm": 0.7369555830955505,
      "learning_rate": 0.0002774509910965625,
      "loss": 3.9962,
      "step": 86510
    },
    {
      "epoch": 0.18025,
      "grad_norm": 0.8199030160903931,
      "learning_rate": 0.0002774457923117563,
      "loss": 3.9088,
      "step": 86520
    },
    {
      "epoch": 0.18027083333333332,
      "grad_norm": 0.7658722400665283,
      "learning_rate": 0.0002774405929764348,
      "loss": 4.0988,
      "step": 86530
    },
    {
      "epoch": 0.18029166666666666,
      "grad_norm": 0.8912103176116943,
      "learning_rate": 0.0002774353930906203,
      "loss": 3.9545,
      "step": 86540
    },
    {
      "epoch": 0.1803125,
      "grad_norm": 1.0174684524536133,
      "learning_rate": 0.00027743019265433536,
      "loss": 4.081,
      "step": 86550
    },
    {
      "epoch": 0.18033333333333335,
      "grad_norm": 0.7594966292381287,
      "learning_rate": 0.0002774249916676024,
      "loss": 4.0002,
      "step": 86560
    },
    {
      "epoch": 0.18035416666666668,
      "grad_norm": 0.7672754526138306,
      "learning_rate": 0.0002774197901304439,
      "loss": 3.964,
      "step": 86570
    },
    {
      "epoch": 0.180375,
      "grad_norm": 0.7904402017593384,
      "learning_rate": 0.0002774145880428824,
      "loss": 3.9128,
      "step": 86580
    },
    {
      "epoch": 0.18039583333333334,
      "grad_norm": 0.7765664458274841,
      "learning_rate": 0.00027740938540494033,
      "loss": 3.9941,
      "step": 86590
    },
    {
      "epoch": 0.18041666666666667,
      "grad_norm": 0.9382291436195374,
      "learning_rate": 0.00027740418221664014,
      "loss": 3.8465,
      "step": 86600
    },
    {
      "epoch": 0.1804375,
      "grad_norm": 0.8034531474113464,
      "learning_rate": 0.0002773989784780043,
      "loss": 4.0178,
      "step": 86610
    },
    {
      "epoch": 0.18045833333333333,
      "grad_norm": 0.6991348266601562,
      "learning_rate": 0.0002773937741890553,
      "loss": 4.1076,
      "step": 86620
    },
    {
      "epoch": 0.18047916666666666,
      "grad_norm": 0.9755804538726807,
      "learning_rate": 0.0002773885693498156,
      "loss": 3.9626,
      "step": 86630
    },
    {
      "epoch": 0.1805,
      "grad_norm": 0.8245457410812378,
      "learning_rate": 0.0002773833639603077,
      "loss": 4.1058,
      "step": 86640
    },
    {
      "epoch": 0.18052083333333332,
      "grad_norm": 0.7956671118736267,
      "learning_rate": 0.0002773781580205541,
      "loss": 3.8751,
      "step": 86650
    },
    {
      "epoch": 0.18054166666666666,
      "grad_norm": 0.7401562929153442,
      "learning_rate": 0.0002773729515305773,
      "loss": 4.1363,
      "step": 86660
    },
    {
      "epoch": 0.1805625,
      "grad_norm": 0.8218671679496765,
      "learning_rate": 0.00027736774449039976,
      "loss": 3.9871,
      "step": 86670
    },
    {
      "epoch": 0.18058333333333335,
      "grad_norm": 1.231929063796997,
      "learning_rate": 0.000277362536900044,
      "loss": 3.911,
      "step": 86680
    },
    {
      "epoch": 0.18060416666666668,
      "grad_norm": 0.7898419499397278,
      "learning_rate": 0.00027735732875953245,
      "loss": 4.0308,
      "step": 86690
    },
    {
      "epoch": 0.180625,
      "grad_norm": 0.7568915486335754,
      "learning_rate": 0.00027735212006888764,
      "loss": 3.8096,
      "step": 86700
    },
    {
      "epoch": 0.18064583333333334,
      "grad_norm": 0.89715975522995,
      "learning_rate": 0.0002773469108281321,
      "loss": 4.0099,
      "step": 86710
    },
    {
      "epoch": 0.18066666666666667,
      "grad_norm": 0.7076801061630249,
      "learning_rate": 0.00027734170103728835,
      "loss": 3.9542,
      "step": 86720
    },
    {
      "epoch": 0.1806875,
      "grad_norm": 0.8222557306289673,
      "learning_rate": 0.0002773364906963788,
      "loss": 3.9606,
      "step": 86730
    },
    {
      "epoch": 0.18070833333333333,
      "grad_norm": 0.817769467830658,
      "learning_rate": 0.000277331279805426,
      "loss": 3.8925,
      "step": 86740
    },
    {
      "epoch": 0.18072916666666666,
      "grad_norm": 0.7369047999382019,
      "learning_rate": 0.0002773260683644526,
      "loss": 3.9034,
      "step": 86750
    },
    {
      "epoch": 0.18075,
      "grad_norm": 0.6927917003631592,
      "learning_rate": 0.00027732085637348087,
      "loss": 4.1525,
      "step": 86760
    },
    {
      "epoch": 0.18077083333333333,
      "grad_norm": 0.7115907073020935,
      "learning_rate": 0.00027731564383253344,
      "loss": 3.8929,
      "step": 86770
    },
    {
      "epoch": 0.18079166666666666,
      "grad_norm": 0.9259523153305054,
      "learning_rate": 0.00027731043074163286,
      "loss": 3.7335,
      "step": 86780
    },
    {
      "epoch": 0.1808125,
      "grad_norm": 0.7273411154747009,
      "learning_rate": 0.0002773052171008016,
      "loss": 3.9717,
      "step": 86790
    },
    {
      "epoch": 0.18083333333333335,
      "grad_norm": 0.9670501947402954,
      "learning_rate": 0.0002773000029100622,
      "loss": 4.0591,
      "step": 86800
    },
    {
      "epoch": 0.18085416666666668,
      "grad_norm": 0.8025546073913574,
      "learning_rate": 0.0002772947881694372,
      "loss": 4.101,
      "step": 86810
    },
    {
      "epoch": 0.180875,
      "grad_norm": 0.8050698637962341,
      "learning_rate": 0.00027728957287894904,
      "loss": 3.9529,
      "step": 86820
    },
    {
      "epoch": 0.18089583333333334,
      "grad_norm": 0.7396500706672668,
      "learning_rate": 0.0002772843570386204,
      "loss": 3.9786,
      "step": 86830
    },
    {
      "epoch": 0.18091666666666667,
      "grad_norm": 0.6902603507041931,
      "learning_rate": 0.0002772791406484736,
      "loss": 4.0195,
      "step": 86840
    },
    {
      "epoch": 0.1809375,
      "grad_norm": 0.916330099105835,
      "learning_rate": 0.00027727392370853135,
      "loss": 4.1401,
      "step": 86850
    },
    {
      "epoch": 0.18095833333333333,
      "grad_norm": 1.0736193656921387,
      "learning_rate": 0.0002772687062188162,
      "loss": 3.8621,
      "step": 86860
    },
    {
      "epoch": 0.18097916666666666,
      "grad_norm": 0.7355148196220398,
      "learning_rate": 0.0002772634881793505,
      "loss": 3.9006,
      "step": 86870
    },
    {
      "epoch": 0.181,
      "grad_norm": 0.7642204165458679,
      "learning_rate": 0.00027725826959015695,
      "loss": 3.907,
      "step": 86880
    },
    {
      "epoch": 0.18102083333333333,
      "grad_norm": 0.838309109210968,
      "learning_rate": 0.00027725305045125806,
      "loss": 3.8492,
      "step": 86890
    },
    {
      "epoch": 0.18104166666666666,
      "grad_norm": 0.722305953502655,
      "learning_rate": 0.00027724783076267637,
      "loss": 3.8561,
      "step": 86900
    },
    {
      "epoch": 0.1810625,
      "grad_norm": 0.9098578691482544,
      "learning_rate": 0.00027724261052443437,
      "loss": 3.8183,
      "step": 86910
    },
    {
      "epoch": 0.18108333333333335,
      "grad_norm": 0.8164868950843811,
      "learning_rate": 0.0002772373897365547,
      "loss": 3.9282,
      "step": 86920
    },
    {
      "epoch": 0.18110416666666668,
      "grad_norm": 0.8785514831542969,
      "learning_rate": 0.00027723216839905987,
      "loss": 3.9323,
      "step": 86930
    },
    {
      "epoch": 0.181125,
      "grad_norm": 0.771049976348877,
      "learning_rate": 0.0002772269465119724,
      "loss": 4.0143,
      "step": 86940
    },
    {
      "epoch": 0.18114583333333334,
      "grad_norm": 0.8689170479774475,
      "learning_rate": 0.0002772217240753149,
      "loss": 3.8116,
      "step": 86950
    },
    {
      "epoch": 0.18116666666666667,
      "grad_norm": 0.9025158882141113,
      "learning_rate": 0.00027721650108911,
      "loss": 4.1129,
      "step": 86960
    },
    {
      "epoch": 0.1811875,
      "grad_norm": 0.8414560556411743,
      "learning_rate": 0.00027721127755338005,
      "loss": 3.9371,
      "step": 86970
    },
    {
      "epoch": 0.18120833333333333,
      "grad_norm": 0.8141510486602783,
      "learning_rate": 0.00027720605346814777,
      "loss": 4.0294,
      "step": 86980
    },
    {
      "epoch": 0.18122916666666666,
      "grad_norm": 0.754301905632019,
      "learning_rate": 0.0002772008288334357,
      "loss": 3.8286,
      "step": 86990
    },
    {
      "epoch": 0.18125,
      "grad_norm": 0.8273358941078186,
      "learning_rate": 0.0002771956036492664,
      "loss": 3.9802,
      "step": 87000
    },
    {
      "epoch": 0.18125,
      "eval_loss": 4.2762131690979,
      "eval_runtime": 9.7389,
      "eval_samples_per_second": 1.027,
      "eval_steps_per_second": 0.308,
      "step": 87000
    },
    {
      "epoch": 0.18127083333333333,
      "grad_norm": 0.7829307913780212,
      "learning_rate": 0.00027719037791566244,
      "loss": 3.8727,
      "step": 87010
    },
    {
      "epoch": 0.18129166666666666,
      "grad_norm": 0.717750608921051,
      "learning_rate": 0.0002771851516326464,
      "loss": 3.9016,
      "step": 87020
    },
    {
      "epoch": 0.1813125,
      "grad_norm": 0.7441225647926331,
      "learning_rate": 0.0002771799248002408,
      "loss": 3.9129,
      "step": 87030
    },
    {
      "epoch": 0.18133333333333335,
      "grad_norm": 0.7568635940551758,
      "learning_rate": 0.0002771746974184683,
      "loss": 4.0888,
      "step": 87040
    },
    {
      "epoch": 0.18135416666666668,
      "grad_norm": 0.8313568830490112,
      "learning_rate": 0.00027716946948735146,
      "loss": 4.0228,
      "step": 87050
    },
    {
      "epoch": 0.181375,
      "grad_norm": 0.8301163911819458,
      "learning_rate": 0.0002771642410069128,
      "loss": 3.788,
      "step": 87060
    },
    {
      "epoch": 0.18139583333333334,
      "grad_norm": 0.8366144299507141,
      "learning_rate": 0.000277159011977175,
      "loss": 3.8964,
      "step": 87070
    },
    {
      "epoch": 0.18141666666666667,
      "grad_norm": 0.8715069890022278,
      "learning_rate": 0.0002771537823981606,
      "loss": 4.0961,
      "step": 87080
    },
    {
      "epoch": 0.1814375,
      "grad_norm": 0.8349758982658386,
      "learning_rate": 0.0002771485522698922,
      "loss": 4.0396,
      "step": 87090
    },
    {
      "epoch": 0.18145833333333333,
      "grad_norm": 0.971042275428772,
      "learning_rate": 0.00027714332159239235,
      "loss": 4.0946,
      "step": 87100
    },
    {
      "epoch": 0.18147916666666666,
      "grad_norm": 0.8309457302093506,
      "learning_rate": 0.0002771380903656837,
      "loss": 3.8551,
      "step": 87110
    },
    {
      "epoch": 0.1815,
      "grad_norm": 0.7502473592758179,
      "learning_rate": 0.00027713285858978887,
      "loss": 3.9482,
      "step": 87120
    },
    {
      "epoch": 0.18152083333333333,
      "grad_norm": 0.7540673017501831,
      "learning_rate": 0.0002771276262647303,
      "loss": 3.8731,
      "step": 87130
    },
    {
      "epoch": 0.18154166666666666,
      "grad_norm": 0.8102383017539978,
      "learning_rate": 0.0002771223933905308,
      "loss": 3.8357,
      "step": 87140
    },
    {
      "epoch": 0.1815625,
      "grad_norm": 0.7553289532661438,
      "learning_rate": 0.0002771171599672128,
      "loss": 3.8382,
      "step": 87150
    },
    {
      "epoch": 0.18158333333333335,
      "grad_norm": 0.7286981344223022,
      "learning_rate": 0.00027711192599479904,
      "loss": 3.9077,
      "step": 87160
    },
    {
      "epoch": 0.18160416666666668,
      "grad_norm": 0.8576011657714844,
      "learning_rate": 0.0002771066914733121,
      "loss": 3.7951,
      "step": 87170
    },
    {
      "epoch": 0.181625,
      "grad_norm": 0.7307623028755188,
      "learning_rate": 0.0002771014564027745,
      "loss": 3.9714,
      "step": 87180
    },
    {
      "epoch": 0.18164583333333334,
      "grad_norm": 0.7565385699272156,
      "learning_rate": 0.00027709622078320894,
      "loss": 4.0664,
      "step": 87190
    },
    {
      "epoch": 0.18166666666666667,
      "grad_norm": 0.8211855292320251,
      "learning_rate": 0.00027709098461463805,
      "loss": 3.9163,
      "step": 87200
    },
    {
      "epoch": 0.1816875,
      "grad_norm": 0.8056821823120117,
      "learning_rate": 0.00027708574789708437,
      "loss": 4.0279,
      "step": 87210
    },
    {
      "epoch": 0.18170833333333333,
      "grad_norm": 0.8908872604370117,
      "learning_rate": 0.0002770805106305706,
      "loss": 3.8655,
      "step": 87220
    },
    {
      "epoch": 0.18172916666666666,
      "grad_norm": 0.836047887802124,
      "learning_rate": 0.0002770752728151193,
      "loss": 3.8783,
      "step": 87230
    },
    {
      "epoch": 0.18175,
      "grad_norm": 0.6923906207084656,
      "learning_rate": 0.0002770700344507531,
      "loss": 3.9411,
      "step": 87240
    },
    {
      "epoch": 0.18177083333333333,
      "grad_norm": 0.7421125769615173,
      "learning_rate": 0.0002770647955374947,
      "loss": 3.8956,
      "step": 87250
    },
    {
      "epoch": 0.18179166666666666,
      "grad_norm": 0.7003380656242371,
      "learning_rate": 0.00027705955607536665,
      "loss": 3.7415,
      "step": 87260
    },
    {
      "epoch": 0.1818125,
      "grad_norm": 0.733111560344696,
      "learning_rate": 0.0002770543160643916,
      "loss": 3.8,
      "step": 87270
    },
    {
      "epoch": 0.18183333333333335,
      "grad_norm": 0.81344074010849,
      "learning_rate": 0.0002770490755045922,
      "loss": 4.0517,
      "step": 87280
    },
    {
      "epoch": 0.18185416666666668,
      "grad_norm": 0.736926794052124,
      "learning_rate": 0.0002770438343959911,
      "loss": 3.9058,
      "step": 87290
    },
    {
      "epoch": 0.181875,
      "grad_norm": 0.8664732575416565,
      "learning_rate": 0.000277038592738611,
      "loss": 4.0394,
      "step": 87300
    },
    {
      "epoch": 0.18189583333333334,
      "grad_norm": 0.8464640378952026,
      "learning_rate": 0.0002770333505324743,
      "loss": 4.0282,
      "step": 87310
    },
    {
      "epoch": 0.18191666666666667,
      "grad_norm": 0.750221312046051,
      "learning_rate": 0.0002770281077776039,
      "loss": 4.0073,
      "step": 87320
    },
    {
      "epoch": 0.1819375,
      "grad_norm": 0.8822414875030518,
      "learning_rate": 0.00027702286447402235,
      "loss": 3.8761,
      "step": 87330
    },
    {
      "epoch": 0.18195833333333333,
      "grad_norm": 0.8932996392250061,
      "learning_rate": 0.0002770176206217523,
      "loss": 3.8584,
      "step": 87340
    },
    {
      "epoch": 0.18197916666666666,
      "grad_norm": 0.7007710933685303,
      "learning_rate": 0.0002770123762208164,
      "loss": 4.0211,
      "step": 87350
    },
    {
      "epoch": 0.182,
      "grad_norm": 0.7878519892692566,
      "learning_rate": 0.00027700713127123733,
      "loss": 4.0379,
      "step": 87360
    },
    {
      "epoch": 0.18202083333333333,
      "grad_norm": 0.8292218446731567,
      "learning_rate": 0.0002770018857730377,
      "loss": 4.0106,
      "step": 87370
    },
    {
      "epoch": 0.18204166666666666,
      "grad_norm": 0.8177099227905273,
      "learning_rate": 0.0002769966397262402,
      "loss": 4.0429,
      "step": 87380
    },
    {
      "epoch": 0.1820625,
      "grad_norm": 0.7227445244789124,
      "learning_rate": 0.0002769913931308675,
      "loss": 3.979,
      "step": 87390
    },
    {
      "epoch": 0.18208333333333335,
      "grad_norm": 0.8037196397781372,
      "learning_rate": 0.00027698614598694227,
      "loss": 4.142,
      "step": 87400
    },
    {
      "epoch": 0.18210416666666668,
      "grad_norm": 0.8336159586906433,
      "learning_rate": 0.0002769808982944871,
      "loss": 4.0123,
      "step": 87410
    },
    {
      "epoch": 0.182125,
      "grad_norm": 0.8700069189071655,
      "learning_rate": 0.00027697565005352473,
      "loss": 3.9346,
      "step": 87420
    },
    {
      "epoch": 0.18214583333333334,
      "grad_norm": 0.7583079934120178,
      "learning_rate": 0.0002769704012640778,
      "loss": 3.9338,
      "step": 87430
    },
    {
      "epoch": 0.18216666666666667,
      "grad_norm": 0.7131475806236267,
      "learning_rate": 0.0002769651519261691,
      "loss": 3.8463,
      "step": 87440
    },
    {
      "epoch": 0.1821875,
      "grad_norm": 0.7094453573226929,
      "learning_rate": 0.00027695990203982105,
      "loss": 3.905,
      "step": 87450
    },
    {
      "epoch": 0.18220833333333333,
      "grad_norm": 0.8984208703041077,
      "learning_rate": 0.0002769546516050566,
      "loss": 3.9301,
      "step": 87460
    },
    {
      "epoch": 0.18222916666666666,
      "grad_norm": 0.9187492728233337,
      "learning_rate": 0.0002769494006218982,
      "loss": 3.9991,
      "step": 87470
    },
    {
      "epoch": 0.18225,
      "grad_norm": 0.785453736782074,
      "learning_rate": 0.0002769441490903687,
      "loss": 3.9285,
      "step": 87480
    },
    {
      "epoch": 0.18227083333333333,
      "grad_norm": 0.7565127015113831,
      "learning_rate": 0.00027693889701049074,
      "loss": 3.8673,
      "step": 87490
    },
    {
      "epoch": 0.18229166666666666,
      "grad_norm": 0.7924365401268005,
      "learning_rate": 0.00027693364438228694,
      "loss": 3.8782,
      "step": 87500
    },
    {
      "epoch": 0.1823125,
      "grad_norm": 0.8229979872703552,
      "learning_rate": 0.00027692839120578,
      "loss": 3.7964,
      "step": 87510
    },
    {
      "epoch": 0.18233333333333332,
      "grad_norm": 0.7013866305351257,
      "learning_rate": 0.0002769231374809928,
      "loss": 3.703,
      "step": 87520
    },
    {
      "epoch": 0.18235416666666668,
      "grad_norm": 0.7846365571022034,
      "learning_rate": 0.00027691788320794775,
      "loss": 4.0488,
      "step": 87530
    },
    {
      "epoch": 0.182375,
      "grad_norm": 0.7673659920692444,
      "learning_rate": 0.0002769126283866677,
      "loss": 3.9344,
      "step": 87540
    },
    {
      "epoch": 0.18239583333333334,
      "grad_norm": 0.8162211775779724,
      "learning_rate": 0.0002769073730171754,
      "loss": 3.763,
      "step": 87550
    },
    {
      "epoch": 0.18241666666666667,
      "grad_norm": 0.6888481378555298,
      "learning_rate": 0.00027690211709949344,
      "loss": 3.8642,
      "step": 87560
    },
    {
      "epoch": 0.1824375,
      "grad_norm": 0.7766658663749695,
      "learning_rate": 0.0002768968606336446,
      "loss": 3.7084,
      "step": 87570
    },
    {
      "epoch": 0.18245833333333333,
      "grad_norm": 0.9030970335006714,
      "learning_rate": 0.0002768916036196515,
      "loss": 3.9177,
      "step": 87580
    },
    {
      "epoch": 0.18247916666666666,
      "grad_norm": 0.76337730884552,
      "learning_rate": 0.0002768863460575369,
      "loss": 3.9446,
      "step": 87590
    },
    {
      "epoch": 0.1825,
      "grad_norm": 0.797347366809845,
      "learning_rate": 0.00027688108794732356,
      "loss": 3.8734,
      "step": 87600
    },
    {
      "epoch": 0.18252083333333333,
      "grad_norm": 0.7519146203994751,
      "learning_rate": 0.00027687582928903414,
      "loss": 3.8493,
      "step": 87610
    },
    {
      "epoch": 0.18254166666666666,
      "grad_norm": 0.7263171076774597,
      "learning_rate": 0.0002768705700826913,
      "loss": 4.0843,
      "step": 87620
    },
    {
      "epoch": 0.1825625,
      "grad_norm": 0.854971170425415,
      "learning_rate": 0.0002768653103283179,
      "loss": 3.9364,
      "step": 87630
    },
    {
      "epoch": 0.18258333333333332,
      "grad_norm": 0.7594761252403259,
      "learning_rate": 0.00027686005002593644,
      "loss": 3.9043,
      "step": 87640
    },
    {
      "epoch": 0.18260416666666668,
      "grad_norm": 0.7557277679443359,
      "learning_rate": 0.00027685478917556993,
      "loss": 3.7167,
      "step": 87650
    },
    {
      "epoch": 0.182625,
      "grad_norm": 0.836554229259491,
      "learning_rate": 0.0002768495277772408,
      "loss": 3.8935,
      "step": 87660
    },
    {
      "epoch": 0.18264583333333334,
      "grad_norm": 0.8543583750724792,
      "learning_rate": 0.00027684426583097203,
      "loss": 3.9999,
      "step": 87670
    },
    {
      "epoch": 0.18266666666666667,
      "grad_norm": 0.7264884114265442,
      "learning_rate": 0.0002768390033367862,
      "loss": 3.9784,
      "step": 87680
    },
    {
      "epoch": 0.1826875,
      "grad_norm": 0.829288899898529,
      "learning_rate": 0.0002768337402947061,
      "loss": 3.9155,
      "step": 87690
    },
    {
      "epoch": 0.18270833333333333,
      "grad_norm": 0.8200216293334961,
      "learning_rate": 0.00027682847670475446,
      "loss": 3.9929,
      "step": 87700
    },
    {
      "epoch": 0.18272916666666666,
      "grad_norm": 0.7360736727714539,
      "learning_rate": 0.000276823212566954,
      "loss": 3.956,
      "step": 87710
    },
    {
      "epoch": 0.18275,
      "grad_norm": 0.7371709942817688,
      "learning_rate": 0.0002768179478813274,
      "loss": 3.9111,
      "step": 87720
    },
    {
      "epoch": 0.18277083333333333,
      "grad_norm": 0.7644110321998596,
      "learning_rate": 0.0002768126826478975,
      "loss": 3.9201,
      "step": 87730
    },
    {
      "epoch": 0.18279166666666666,
      "grad_norm": 0.7633153200149536,
      "learning_rate": 0.000276807416866687,
      "loss": 3.8998,
      "step": 87740
    },
    {
      "epoch": 0.1828125,
      "grad_norm": 1.025044560432434,
      "learning_rate": 0.0002768021505377187,
      "loss": 3.9701,
      "step": 87750
    },
    {
      "epoch": 0.18283333333333332,
      "grad_norm": 0.7863289713859558,
      "learning_rate": 0.0002767968836610153,
      "loss": 4.1157,
      "step": 87760
    },
    {
      "epoch": 0.18285416666666668,
      "grad_norm": 0.7808500528335571,
      "learning_rate": 0.0002767916162365995,
      "loss": 4.0034,
      "step": 87770
    },
    {
      "epoch": 0.182875,
      "grad_norm": 0.6739521622657776,
      "learning_rate": 0.00027678634826449407,
      "loss": 3.9762,
      "step": 87780
    },
    {
      "epoch": 0.18289583333333334,
      "grad_norm": 1.1730210781097412,
      "learning_rate": 0.0002767810797447219,
      "loss": 3.8859,
      "step": 87790
    },
    {
      "epoch": 0.18291666666666667,
      "grad_norm": 0.8041358590126038,
      "learning_rate": 0.0002767758106773056,
      "loss": 4.1744,
      "step": 87800
    },
    {
      "epoch": 0.1829375,
      "grad_norm": 0.8782163262367249,
      "learning_rate": 0.000276770541062268,
      "loss": 4.0348,
      "step": 87810
    },
    {
      "epoch": 0.18295833333333333,
      "grad_norm": 0.8994797468185425,
      "learning_rate": 0.00027676527089963177,
      "loss": 4.018,
      "step": 87820
    },
    {
      "epoch": 0.18297916666666666,
      "grad_norm": 0.7245046496391296,
      "learning_rate": 0.0002767600001894198,
      "loss": 3.8823,
      "step": 87830
    },
    {
      "epoch": 0.183,
      "grad_norm": 0.7504734396934509,
      "learning_rate": 0.0002767547289316548,
      "loss": 3.8876,
      "step": 87840
    },
    {
      "epoch": 0.18302083333333333,
      "grad_norm": 0.8326441049575806,
      "learning_rate": 0.00027674945712635957,
      "loss": 3.8836,
      "step": 87850
    },
    {
      "epoch": 0.18304166666666666,
      "grad_norm": 0.6638035178184509,
      "learning_rate": 0.0002767441847735568,
      "loss": 3.7964,
      "step": 87860
    },
    {
      "epoch": 0.1830625,
      "grad_norm": 0.8729750514030457,
      "learning_rate": 0.00027673891187326944,
      "loss": 4.0322,
      "step": 87870
    },
    {
      "epoch": 0.18308333333333332,
      "grad_norm": 0.8071134686470032,
      "learning_rate": 0.00027673363842552,
      "loss": 3.9481,
      "step": 87880
    },
    {
      "epoch": 0.18310416666666668,
      "grad_norm": 0.8748875856399536,
      "learning_rate": 0.0002767283644303315,
      "loss": 3.9024,
      "step": 87890
    },
    {
      "epoch": 0.183125,
      "grad_norm": 0.7890925407409668,
      "learning_rate": 0.0002767230898877266,
      "loss": 4.045,
      "step": 87900
    },
    {
      "epoch": 0.18314583333333334,
      "grad_norm": 0.7785685658454895,
      "learning_rate": 0.0002767178147977281,
      "loss": 3.9871,
      "step": 87910
    },
    {
      "epoch": 0.18316666666666667,
      "grad_norm": 0.9221833348274231,
      "learning_rate": 0.0002767125391603588,
      "loss": 3.9511,
      "step": 87920
    },
    {
      "epoch": 0.1831875,
      "grad_norm": 0.8880302309989929,
      "learning_rate": 0.00027670726297564154,
      "loss": 4.0629,
      "step": 87930
    },
    {
      "epoch": 0.18320833333333333,
      "grad_norm": 0.7509293556213379,
      "learning_rate": 0.00027670198624359896,
      "loss": 4.0799,
      "step": 87940
    },
    {
      "epoch": 0.18322916666666667,
      "grad_norm": 0.8642449975013733,
      "learning_rate": 0.000276696708964254,
      "loss": 4.0747,
      "step": 87950
    },
    {
      "epoch": 0.18325,
      "grad_norm": 0.8820912837982178,
      "learning_rate": 0.0002766914311376294,
      "loss": 4.0732,
      "step": 87960
    },
    {
      "epoch": 0.18327083333333333,
      "grad_norm": 0.92373126745224,
      "learning_rate": 0.00027668615276374805,
      "loss": 3.9147,
      "step": 87970
    },
    {
      "epoch": 0.18329166666666666,
      "grad_norm": 0.8607349991798401,
      "learning_rate": 0.00027668087384263255,
      "loss": 3.9928,
      "step": 87980
    },
    {
      "epoch": 0.1833125,
      "grad_norm": 0.7504574060440063,
      "learning_rate": 0.0002766755943743059,
      "loss": 4.0613,
      "step": 87990
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 0.8695613145828247,
      "learning_rate": 0.00027667031435879075,
      "loss": 3.9888,
      "step": 88000
    },
    {
      "epoch": 0.18333333333333332,
      "eval_loss": 4.29074239730835,
      "eval_runtime": 9.5409,
      "eval_samples_per_second": 1.048,
      "eval_steps_per_second": 0.314,
      "step": 88000
    },
    {
      "epoch": 0.18335416666666668,
      "grad_norm": 0.7890095710754395,
      "learning_rate": 0.00027666503379611,
      "loss": 3.78,
      "step": 88010
    },
    {
      "epoch": 0.183375,
      "grad_norm": 0.7826977372169495,
      "learning_rate": 0.0002766597526862865,
      "loss": 3.9982,
      "step": 88020
    },
    {
      "epoch": 0.18339583333333334,
      "grad_norm": 0.7879928350448608,
      "learning_rate": 0.00027665447102934296,
      "loss": 3.9673,
      "step": 88030
    },
    {
      "epoch": 0.18341666666666667,
      "grad_norm": 0.7032837867736816,
      "learning_rate": 0.00027664918882530225,
      "loss": 3.8704,
      "step": 88040
    },
    {
      "epoch": 0.1834375,
      "grad_norm": 0.7922263741493225,
      "learning_rate": 0.00027664390607418717,
      "loss": 3.9802,
      "step": 88050
    },
    {
      "epoch": 0.18345833333333333,
      "grad_norm": 0.7143397927284241,
      "learning_rate": 0.00027663862277602054,
      "loss": 3.9475,
      "step": 88060
    },
    {
      "epoch": 0.18347916666666667,
      "grad_norm": 0.7781085968017578,
      "learning_rate": 0.00027663333893082517,
      "loss": 4.0553,
      "step": 88070
    },
    {
      "epoch": 0.1835,
      "grad_norm": 0.8027164936065674,
      "learning_rate": 0.00027662805453862395,
      "loss": 3.8228,
      "step": 88080
    },
    {
      "epoch": 0.18352083333333333,
      "grad_norm": 0.897082507610321,
      "learning_rate": 0.0002766227695994396,
      "loss": 4.0345,
      "step": 88090
    },
    {
      "epoch": 0.18354166666666666,
      "grad_norm": 0.7642663717269897,
      "learning_rate": 0.0002766174841132951,
      "loss": 3.9021,
      "step": 88100
    },
    {
      "epoch": 0.1835625,
      "grad_norm": 0.8067945241928101,
      "learning_rate": 0.00027661219808021307,
      "loss": 3.9437,
      "step": 88110
    },
    {
      "epoch": 0.18358333333333332,
      "grad_norm": 0.7370964288711548,
      "learning_rate": 0.0002766069115002165,
      "loss": 3.9584,
      "step": 88120
    },
    {
      "epoch": 0.18360416666666668,
      "grad_norm": 0.7243981957435608,
      "learning_rate": 0.0002766016243733282,
      "loss": 3.8296,
      "step": 88130
    },
    {
      "epoch": 0.183625,
      "grad_norm": 0.7076358795166016,
      "learning_rate": 0.000276596336699571,
      "loss": 3.953,
      "step": 88140
    },
    {
      "epoch": 0.18364583333333334,
      "grad_norm": 0.8295220136642456,
      "learning_rate": 0.0002765910484789677,
      "loss": 3.8637,
      "step": 88150
    },
    {
      "epoch": 0.18366666666666667,
      "grad_norm": 0.7509817481040955,
      "learning_rate": 0.0002765857597115412,
      "loss": 4.0541,
      "step": 88160
    },
    {
      "epoch": 0.1836875,
      "grad_norm": 0.8788045048713684,
      "learning_rate": 0.0002765804703973144,
      "loss": 3.9488,
      "step": 88170
    },
    {
      "epoch": 0.18370833333333333,
      "grad_norm": 0.8003854751586914,
      "learning_rate": 0.00027657518053630996,
      "loss": 4.0549,
      "step": 88180
    },
    {
      "epoch": 0.18372916666666667,
      "grad_norm": 0.827948272228241,
      "learning_rate": 0.0002765698901285509,
      "loss": 3.9404,
      "step": 88190
    },
    {
      "epoch": 0.18375,
      "grad_norm": 0.7165871858596802,
      "learning_rate": 0.00027656459917406,
      "loss": 3.856,
      "step": 88200
    },
    {
      "epoch": 0.18377083333333333,
      "grad_norm": 0.8522375226020813,
      "learning_rate": 0.0002765593076728601,
      "loss": 4.084,
      "step": 88210
    },
    {
      "epoch": 0.18379166666666666,
      "grad_norm": 0.7691645622253418,
      "learning_rate": 0.00027655401562497417,
      "loss": 4.0144,
      "step": 88220
    },
    {
      "epoch": 0.1838125,
      "grad_norm": 0.723880410194397,
      "learning_rate": 0.0002765487230304249,
      "loss": 3.7982,
      "step": 88230
    },
    {
      "epoch": 0.18383333333333332,
      "grad_norm": 0.7315043210983276,
      "learning_rate": 0.00027654342988923524,
      "loss": 3.9605,
      "step": 88240
    },
    {
      "epoch": 0.18385416666666668,
      "grad_norm": 0.8680640459060669,
      "learning_rate": 0.0002765381362014282,
      "loss": 3.9021,
      "step": 88250
    },
    {
      "epoch": 0.183875,
      "grad_norm": 0.9071645140647888,
      "learning_rate": 0.00027653284196702633,
      "loss": 3.8715,
      "step": 88260
    },
    {
      "epoch": 0.18389583333333334,
      "grad_norm": 0.7919116616249084,
      "learning_rate": 0.0002765275471860527,
      "loss": 3.8815,
      "step": 88270
    },
    {
      "epoch": 0.18391666666666667,
      "grad_norm": 0.8136408925056458,
      "learning_rate": 0.0002765222518585302,
      "loss": 3.8861,
      "step": 88280
    },
    {
      "epoch": 0.1839375,
      "grad_norm": 0.8737508058547974,
      "learning_rate": 0.0002765169559844816,
      "loss": 3.8579,
      "step": 88290
    },
    {
      "epoch": 0.18395833333333333,
      "grad_norm": 0.7423958778381348,
      "learning_rate": 0.00027651165956392985,
      "loss": 4.0493,
      "step": 88300
    },
    {
      "epoch": 0.18397916666666667,
      "grad_norm": 0.793302595615387,
      "learning_rate": 0.0002765063625968978,
      "loss": 4.0295,
      "step": 88310
    },
    {
      "epoch": 0.184,
      "grad_norm": 0.7486281991004944,
      "learning_rate": 0.00027650106508340835,
      "loss": 3.8815,
      "step": 88320
    },
    {
      "epoch": 0.18402083333333333,
      "grad_norm": 0.8140532374382019,
      "learning_rate": 0.00027649576702348436,
      "loss": 3.9092,
      "step": 88330
    },
    {
      "epoch": 0.18404166666666666,
      "grad_norm": 0.8728615045547485,
      "learning_rate": 0.0002764904684171487,
      "loss": 4.0579,
      "step": 88340
    },
    {
      "epoch": 0.1840625,
      "grad_norm": 0.7310709357261658,
      "learning_rate": 0.00027648516926442434,
      "loss": 3.7804,
      "step": 88350
    },
    {
      "epoch": 0.18408333333333332,
      "grad_norm": 0.7199096083641052,
      "learning_rate": 0.0002764798695653341,
      "loss": 4.119,
      "step": 88360
    },
    {
      "epoch": 0.18410416666666668,
      "grad_norm": 0.7274208664894104,
      "learning_rate": 0.00027647456931990087,
      "loss": 3.9022,
      "step": 88370
    },
    {
      "epoch": 0.184125,
      "grad_norm": 0.7428338527679443,
      "learning_rate": 0.00027646926852814763,
      "loss": 3.9269,
      "step": 88380
    },
    {
      "epoch": 0.18414583333333334,
      "grad_norm": 0.8210427165031433,
      "learning_rate": 0.0002764639671900971,
      "loss": 3.9589,
      "step": 88390
    },
    {
      "epoch": 0.18416666666666667,
      "grad_norm": 0.7799885272979736,
      "learning_rate": 0.0002764586653057724,
      "loss": 3.9239,
      "step": 88400
    },
    {
      "epoch": 0.1841875,
      "grad_norm": 0.8810585141181946,
      "learning_rate": 0.0002764533628751962,
      "loss": 4.088,
      "step": 88410
    },
    {
      "epoch": 0.18420833333333334,
      "grad_norm": 0.7676212787628174,
      "learning_rate": 0.00027644805989839163,
      "loss": 3.8941,
      "step": 88420
    },
    {
      "epoch": 0.18422916666666667,
      "grad_norm": 0.6871315836906433,
      "learning_rate": 0.00027644275637538144,
      "loss": 4.0138,
      "step": 88430
    },
    {
      "epoch": 0.18425,
      "grad_norm": 0.7277504205703735,
      "learning_rate": 0.00027643745230618863,
      "loss": 3.9849,
      "step": 88440
    },
    {
      "epoch": 0.18427083333333333,
      "grad_norm": 0.7299270629882812,
      "learning_rate": 0.00027643214769083603,
      "loss": 3.9388,
      "step": 88450
    },
    {
      "epoch": 0.18429166666666666,
      "grad_norm": 0.6751368045806885,
      "learning_rate": 0.00027642684252934666,
      "loss": 3.9853,
      "step": 88460
    },
    {
      "epoch": 0.1843125,
      "grad_norm": 0.7517796158790588,
      "learning_rate": 0.0002764215368217433,
      "loss": 4.0856,
      "step": 88470
    },
    {
      "epoch": 0.18433333333333332,
      "grad_norm": 0.7871310114860535,
      "learning_rate": 0.000276416230568049,
      "loss": 3.9931,
      "step": 88480
    },
    {
      "epoch": 0.18435416666666668,
      "grad_norm": 0.8664315342903137,
      "learning_rate": 0.0002764109237682866,
      "loss": 3.943,
      "step": 88490
    },
    {
      "epoch": 0.184375,
      "grad_norm": 0.8582894206047058,
      "learning_rate": 0.000276405616422479,
      "loss": 4.153,
      "step": 88500
    },
    {
      "epoch": 0.18439583333333334,
      "grad_norm": 0.7225536108016968,
      "learning_rate": 0.0002764003085306492,
      "loss": 3.8939,
      "step": 88510
    },
    {
      "epoch": 0.18441666666666667,
      "grad_norm": 0.721159040927887,
      "learning_rate": 0.00027639500009282015,
      "loss": 3.7858,
      "step": 88520
    },
    {
      "epoch": 0.1844375,
      "grad_norm": 0.8943138122558594,
      "learning_rate": 0.00027638969110901473,
      "loss": 3.8634,
      "step": 88530
    },
    {
      "epoch": 0.18445833333333334,
      "grad_norm": 0.7939661741256714,
      "learning_rate": 0.0002763843815792558,
      "loss": 3.8654,
      "step": 88540
    },
    {
      "epoch": 0.18447916666666667,
      "grad_norm": 0.7544674873352051,
      "learning_rate": 0.0002763790715035664,
      "loss": 3.8772,
      "step": 88550
    },
    {
      "epoch": 0.1845,
      "grad_norm": 0.748901903629303,
      "learning_rate": 0.0002763737608819694,
      "loss": 3.9768,
      "step": 88560
    },
    {
      "epoch": 0.18452083333333333,
      "grad_norm": 0.7297369241714478,
      "learning_rate": 0.0002763684497144879,
      "loss": 4.1252,
      "step": 88570
    },
    {
      "epoch": 0.18454166666666666,
      "grad_norm": 0.6932283043861389,
      "learning_rate": 0.0002763631380011446,
      "loss": 3.9537,
      "step": 88580
    },
    {
      "epoch": 0.1845625,
      "grad_norm": 0.805833101272583,
      "learning_rate": 0.0002763578257419626,
      "loss": 3.8452,
      "step": 88590
    },
    {
      "epoch": 0.18458333333333332,
      "grad_norm": 0.7612653374671936,
      "learning_rate": 0.0002763525129369648,
      "loss": 3.8933,
      "step": 88600
    },
    {
      "epoch": 0.18460416666666668,
      "grad_norm": 0.7577599883079529,
      "learning_rate": 0.00027634719958617417,
      "loss": 3.9752,
      "step": 88610
    },
    {
      "epoch": 0.184625,
      "grad_norm": 0.6952414512634277,
      "learning_rate": 0.00027634188568961365,
      "loss": 4.0679,
      "step": 88620
    },
    {
      "epoch": 0.18464583333333334,
      "grad_norm": 0.9316269755363464,
      "learning_rate": 0.0002763365712473062,
      "loss": 3.9413,
      "step": 88630
    },
    {
      "epoch": 0.18466666666666667,
      "grad_norm": 0.6981588006019592,
      "learning_rate": 0.0002763312562592747,
      "loss": 3.937,
      "step": 88640
    },
    {
      "epoch": 0.1846875,
      "grad_norm": 0.7068548202514648,
      "learning_rate": 0.0002763259407255423,
      "loss": 3.8029,
      "step": 88650
    },
    {
      "epoch": 0.18470833333333334,
      "grad_norm": 0.7920008897781372,
      "learning_rate": 0.00027632062464613173,
      "loss": 4.1221,
      "step": 88660
    },
    {
      "epoch": 0.18472916666666667,
      "grad_norm": 1.3808574676513672,
      "learning_rate": 0.00027631530802106613,
      "loss": 3.9122,
      "step": 88670
    },
    {
      "epoch": 0.18475,
      "grad_norm": 0.852178156375885,
      "learning_rate": 0.00027630999085036836,
      "loss": 4.0765,
      "step": 88680
    },
    {
      "epoch": 0.18477083333333333,
      "grad_norm": 0.8481760025024414,
      "learning_rate": 0.00027630467313406146,
      "loss": 3.9964,
      "step": 88690
    },
    {
      "epoch": 0.18479166666666666,
      "grad_norm": 0.7423007488250732,
      "learning_rate": 0.00027629935487216836,
      "loss": 3.732,
      "step": 88700
    },
    {
      "epoch": 0.1848125,
      "grad_norm": 0.785493016242981,
      "learning_rate": 0.000276294036064712,
      "loss": 4.0228,
      "step": 88710
    },
    {
      "epoch": 0.18483333333333332,
      "grad_norm": 0.8060574531555176,
      "learning_rate": 0.00027628871671171544,
      "loss": 4.0448,
      "step": 88720
    },
    {
      "epoch": 0.18485416666666668,
      "grad_norm": 2.909912347793579,
      "learning_rate": 0.0002762833968132016,
      "loss": 4.023,
      "step": 88730
    },
    {
      "epoch": 0.184875,
      "grad_norm": 0.7693156599998474,
      "learning_rate": 0.00027627807636919344,
      "loss": 3.9898,
      "step": 88740
    },
    {
      "epoch": 0.18489583333333334,
      "grad_norm": 0.7227055430412292,
      "learning_rate": 0.000276272755379714,
      "loss": 3.8248,
      "step": 88750
    },
    {
      "epoch": 0.18491666666666667,
      "grad_norm": 0.7221776843070984,
      "learning_rate": 0.00027626743384478623,
      "loss": 4.0202,
      "step": 88760
    },
    {
      "epoch": 0.1849375,
      "grad_norm": 0.710896909236908,
      "learning_rate": 0.00027626211176443315,
      "loss": 3.9443,
      "step": 88770
    },
    {
      "epoch": 0.18495833333333334,
      "grad_norm": 0.6673493981361389,
      "learning_rate": 0.0002762567891386777,
      "loss": 4.0255,
      "step": 88780
    },
    {
      "epoch": 0.18497916666666667,
      "grad_norm": 0.8053713440895081,
      "learning_rate": 0.0002762514659675429,
      "loss": 3.9367,
      "step": 88790
    },
    {
      "epoch": 0.185,
      "grad_norm": 0.6909416317939758,
      "learning_rate": 0.00027624614225105177,
      "loss": 3.9277,
      "step": 88800
    },
    {
      "epoch": 0.18502083333333333,
      "grad_norm": 0.8633298873901367,
      "learning_rate": 0.00027624081798922727,
      "loss": 3.9217,
      "step": 88810
    },
    {
      "epoch": 0.18504166666666666,
      "grad_norm": 0.7115922570228577,
      "learning_rate": 0.00027623549318209233,
      "loss": 3.9014,
      "step": 88820
    },
    {
      "epoch": 0.1850625,
      "grad_norm": 0.7920133471488953,
      "learning_rate": 0.0002762301678296701,
      "loss": 3.9994,
      "step": 88830
    },
    {
      "epoch": 0.18508333333333332,
      "grad_norm": 0.6990574598312378,
      "learning_rate": 0.00027622484193198354,
      "loss": 3.9916,
      "step": 88840
    },
    {
      "epoch": 0.18510416666666665,
      "grad_norm": 0.851533055305481,
      "learning_rate": 0.00027621951548905554,
      "loss": 4.0342,
      "step": 88850
    },
    {
      "epoch": 0.185125,
      "grad_norm": 0.6753920316696167,
      "learning_rate": 0.0002762141885009092,
      "loss": 4.0132,
      "step": 88860
    },
    {
      "epoch": 0.18514583333333334,
      "grad_norm": 0.8283059597015381,
      "learning_rate": 0.00027620886096756765,
      "loss": 3.8397,
      "step": 88870
    },
    {
      "epoch": 0.18516666666666667,
      "grad_norm": 0.7125903964042664,
      "learning_rate": 0.00027620353288905367,
      "loss": 4.1474,
      "step": 88880
    },
    {
      "epoch": 0.1851875,
      "grad_norm": 1.0602282285690308,
      "learning_rate": 0.00027619820426539037,
      "loss": 4.045,
      "step": 88890
    },
    {
      "epoch": 0.18520833333333334,
      "grad_norm": 0.7853630781173706,
      "learning_rate": 0.00027619287509660084,
      "loss": 4.0366,
      "step": 88900
    },
    {
      "epoch": 0.18522916666666667,
      "grad_norm": 0.7283516526222229,
      "learning_rate": 0.000276187545382708,
      "loss": 3.9581,
      "step": 88910
    },
    {
      "epoch": 0.18525,
      "grad_norm": 0.7134384512901306,
      "learning_rate": 0.000276182215123735,
      "loss": 4.0543,
      "step": 88920
    },
    {
      "epoch": 0.18527083333333333,
      "grad_norm": 0.7980267405509949,
      "learning_rate": 0.00027617688431970464,
      "loss": 3.8665,
      "step": 88930
    },
    {
      "epoch": 0.18529166666666666,
      "grad_norm": 0.9083043336868286,
      "learning_rate": 0.00027617155297064017,
      "loss": 3.8635,
      "step": 88940
    },
    {
      "epoch": 0.1853125,
      "grad_norm": 0.7255121469497681,
      "learning_rate": 0.0002761662210765645,
      "loss": 3.7795,
      "step": 88950
    },
    {
      "epoch": 0.18533333333333332,
      "grad_norm": 0.9030846953392029,
      "learning_rate": 0.00027616088863750073,
      "loss": 4.0779,
      "step": 88960
    },
    {
      "epoch": 0.18535416666666665,
      "grad_norm": 0.7669171094894409,
      "learning_rate": 0.0002761555556534718,
      "loss": 3.9201,
      "step": 88970
    },
    {
      "epoch": 0.185375,
      "grad_norm": 0.7465364933013916,
      "learning_rate": 0.0002761502221245009,
      "loss": 4.0523,
      "step": 88980
    },
    {
      "epoch": 0.18539583333333334,
      "grad_norm": 0.8280254006385803,
      "learning_rate": 0.0002761448880506109,
      "loss": 4.0381,
      "step": 88990
    },
    {
      "epoch": 0.18541666666666667,
      "grad_norm": 0.7784864902496338,
      "learning_rate": 0.0002761395534318249,
      "loss": 3.9399,
      "step": 89000
    },
    {
      "epoch": 0.18541666666666667,
      "eval_loss": 4.298866271972656,
      "eval_runtime": 12.0141,
      "eval_samples_per_second": 0.832,
      "eval_steps_per_second": 0.25,
      "step": 89000
    },
    {
      "epoch": 0.1854375,
      "grad_norm": 1.2096363306045532,
      "learning_rate": 0.00027613421826816595,
      "loss": 3.9134,
      "step": 89010
    },
    {
      "epoch": 0.18545833333333334,
      "grad_norm": 0.7081828713417053,
      "learning_rate": 0.00027612888255965724,
      "loss": 3.8537,
      "step": 89020
    },
    {
      "epoch": 0.18547916666666667,
      "grad_norm": 1.0037404298782349,
      "learning_rate": 0.00027612354630632155,
      "loss": 4.1552,
      "step": 89030
    },
    {
      "epoch": 0.1855,
      "grad_norm": 0.7764583230018616,
      "learning_rate": 0.00027611820950818207,
      "loss": 3.8679,
      "step": 89040
    },
    {
      "epoch": 0.18552083333333333,
      "grad_norm": 0.8074873089790344,
      "learning_rate": 0.0002761128721652619,
      "loss": 3.9948,
      "step": 89050
    },
    {
      "epoch": 0.18554166666666666,
      "grad_norm": 0.7888335585594177,
      "learning_rate": 0.000276107534277584,
      "loss": 4.0423,
      "step": 89060
    },
    {
      "epoch": 0.1855625,
      "grad_norm": 0.8509371280670166,
      "learning_rate": 0.0002761021958451715,
      "loss": 4.0586,
      "step": 89070
    },
    {
      "epoch": 0.18558333333333332,
      "grad_norm": 1.0026004314422607,
      "learning_rate": 0.0002760968568680474,
      "loss": 3.8302,
      "step": 89080
    },
    {
      "epoch": 0.18560416666666665,
      "grad_norm": 0.8381650447845459,
      "learning_rate": 0.0002760915173462348,
      "loss": 3.9405,
      "step": 89090
    },
    {
      "epoch": 0.185625,
      "grad_norm": 0.7993146777153015,
      "learning_rate": 0.0002760861772797568,
      "loss": 4.0074,
      "step": 89100
    },
    {
      "epoch": 0.18564583333333334,
      "grad_norm": 0.720235288143158,
      "learning_rate": 0.00027608083666863634,
      "loss": 4.106,
      "step": 89110
    },
    {
      "epoch": 0.18566666666666667,
      "grad_norm": 0.860051155090332,
      "learning_rate": 0.00027607549551289664,
      "loss": 4.0359,
      "step": 89120
    },
    {
      "epoch": 0.1856875,
      "grad_norm": 0.7113305330276489,
      "learning_rate": 0.0002760701538125607,
      "loss": 3.9432,
      "step": 89130
    },
    {
      "epoch": 0.18570833333333334,
      "grad_norm": 1.0736980438232422,
      "learning_rate": 0.00027606481156765153,
      "loss": 4.1147,
      "step": 89140
    },
    {
      "epoch": 0.18572916666666667,
      "grad_norm": 0.8083234429359436,
      "learning_rate": 0.00027605946877819236,
      "loss": 3.9846,
      "step": 89150
    },
    {
      "epoch": 0.18575,
      "grad_norm": 0.8779605627059937,
      "learning_rate": 0.00027605412544420615,
      "loss": 3.8787,
      "step": 89160
    },
    {
      "epoch": 0.18577083333333333,
      "grad_norm": 0.7097904682159424,
      "learning_rate": 0.000276048781565716,
      "loss": 3.9343,
      "step": 89170
    },
    {
      "epoch": 0.18579166666666666,
      "grad_norm": 0.7155259847640991,
      "learning_rate": 0.000276043437142745,
      "loss": 3.8689,
      "step": 89180
    },
    {
      "epoch": 0.1858125,
      "grad_norm": 0.7701885104179382,
      "learning_rate": 0.00027603809217531625,
      "loss": 3.7983,
      "step": 89190
    },
    {
      "epoch": 0.18583333333333332,
      "grad_norm": 0.7614938616752625,
      "learning_rate": 0.00027603274666345286,
      "loss": 3.964,
      "step": 89200
    },
    {
      "epoch": 0.18585416666666665,
      "grad_norm": 0.8108147382736206,
      "learning_rate": 0.00027602740060717783,
      "loss": 3.9181,
      "step": 89210
    },
    {
      "epoch": 0.185875,
      "grad_norm": 0.7919842004776001,
      "learning_rate": 0.0002760220540065144,
      "loss": 3.888,
      "step": 89220
    },
    {
      "epoch": 0.18589583333333334,
      "grad_norm": 0.8006912469863892,
      "learning_rate": 0.0002760167068614855,
      "loss": 3.9911,
      "step": 89230
    },
    {
      "epoch": 0.18591666666666667,
      "grad_norm": 0.6830794811248779,
      "learning_rate": 0.00027601135917211436,
      "loss": 3.9372,
      "step": 89240
    },
    {
      "epoch": 0.1859375,
      "grad_norm": 0.7485286593437195,
      "learning_rate": 0.00027600601093842397,
      "loss": 4.0607,
      "step": 89250
    },
    {
      "epoch": 0.18595833333333334,
      "grad_norm": 0.7953529357910156,
      "learning_rate": 0.0002760006621604375,
      "loss": 4.0595,
      "step": 89260
    },
    {
      "epoch": 0.18597916666666667,
      "grad_norm": 0.6941603422164917,
      "learning_rate": 0.0002759953128381781,
      "loss": 4.0179,
      "step": 89270
    },
    {
      "epoch": 0.186,
      "grad_norm": 0.6825506687164307,
      "learning_rate": 0.0002759899629716688,
      "loss": 3.9162,
      "step": 89280
    },
    {
      "epoch": 0.18602083333333333,
      "grad_norm": 0.9081491231918335,
      "learning_rate": 0.0002759846125609327,
      "loss": 3.6899,
      "step": 89290
    },
    {
      "epoch": 0.18604166666666666,
      "grad_norm": 0.8196941614151001,
      "learning_rate": 0.000275979261605993,
      "loss": 3.8499,
      "step": 89300
    },
    {
      "epoch": 0.1860625,
      "grad_norm": 0.7357652187347412,
      "learning_rate": 0.0002759739101068727,
      "loss": 3.9789,
      "step": 89310
    },
    {
      "epoch": 0.18608333333333332,
      "grad_norm": 0.8006840944290161,
      "learning_rate": 0.00027596855806359503,
      "loss": 3.8858,
      "step": 89320
    },
    {
      "epoch": 0.18610416666666665,
      "grad_norm": 0.8082605600357056,
      "learning_rate": 0.000275963205476183,
      "loss": 3.9375,
      "step": 89330
    },
    {
      "epoch": 0.186125,
      "grad_norm": 0.8830567002296448,
      "learning_rate": 0.00027595785234465976,
      "loss": 3.8676,
      "step": 89340
    },
    {
      "epoch": 0.18614583333333334,
      "grad_norm": 0.9486656785011292,
      "learning_rate": 0.0002759524986690485,
      "loss": 4.1069,
      "step": 89350
    },
    {
      "epoch": 0.18616666666666667,
      "grad_norm": 0.7805612087249756,
      "learning_rate": 0.0002759471444493723,
      "loss": 3.9353,
      "step": 89360
    },
    {
      "epoch": 0.1861875,
      "grad_norm": 0.8980852961540222,
      "learning_rate": 0.0002759417896856543,
      "loss": 4.1242,
      "step": 89370
    },
    {
      "epoch": 0.18620833333333334,
      "grad_norm": 0.6506435871124268,
      "learning_rate": 0.0002759364343779176,
      "loss": 3.8812,
      "step": 89380
    },
    {
      "epoch": 0.18622916666666667,
      "grad_norm": 0.7133354544639587,
      "learning_rate": 0.0002759310785261854,
      "loss": 3.993,
      "step": 89390
    },
    {
      "epoch": 0.18625,
      "grad_norm": 0.7775059342384338,
      "learning_rate": 0.0002759257221304807,
      "loss": 3.9676,
      "step": 89400
    },
    {
      "epoch": 0.18627083333333333,
      "grad_norm": 0.6684448719024658,
      "learning_rate": 0.0002759203651908267,
      "loss": 3.9214,
      "step": 89410
    },
    {
      "epoch": 0.18629166666666666,
      "grad_norm": 0.7657297849655151,
      "learning_rate": 0.0002759150077072467,
      "loss": 3.8964,
      "step": 89420
    },
    {
      "epoch": 0.1863125,
      "grad_norm": 0.6800009608268738,
      "learning_rate": 0.0002759096496797636,
      "loss": 3.7839,
      "step": 89430
    },
    {
      "epoch": 0.18633333333333332,
      "grad_norm": 0.8518722057342529,
      "learning_rate": 0.0002759042911084007,
      "loss": 3.8452,
      "step": 89440
    },
    {
      "epoch": 0.18635416666666665,
      "grad_norm": 0.7656694650650024,
      "learning_rate": 0.0002758989319931811,
      "loss": 4.1663,
      "step": 89450
    },
    {
      "epoch": 0.186375,
      "grad_norm": 0.8027648329734802,
      "learning_rate": 0.00027589357233412794,
      "loss": 3.8722,
      "step": 89460
    },
    {
      "epoch": 0.18639583333333334,
      "grad_norm": 0.8354061245918274,
      "learning_rate": 0.0002758882121312644,
      "loss": 3.8319,
      "step": 89470
    },
    {
      "epoch": 0.18641666666666667,
      "grad_norm": 1.0203309059143066,
      "learning_rate": 0.0002758828513846136,
      "loss": 3.9267,
      "step": 89480
    },
    {
      "epoch": 0.1864375,
      "grad_norm": 0.7360163331031799,
      "learning_rate": 0.0002758774900941987,
      "loss": 4.0231,
      "step": 89490
    },
    {
      "epoch": 0.18645833333333334,
      "grad_norm": 0.7954447865486145,
      "learning_rate": 0.0002758721282600428,
      "loss": 3.8451,
      "step": 89500
    },
    {
      "epoch": 0.18647916666666667,
      "grad_norm": 0.6878617405891418,
      "learning_rate": 0.00027586676588216925,
      "loss": 3.9694,
      "step": 89510
    },
    {
      "epoch": 0.1865,
      "grad_norm": 0.7182298302650452,
      "learning_rate": 0.00027586140296060105,
      "loss": 3.8655,
      "step": 89520
    },
    {
      "epoch": 0.18652083333333333,
      "grad_norm": 0.7702656984329224,
      "learning_rate": 0.0002758560394953614,
      "loss": 3.8865,
      "step": 89530
    },
    {
      "epoch": 0.18654166666666666,
      "grad_norm": 0.7679427862167358,
      "learning_rate": 0.00027585067548647346,
      "loss": 3.907,
      "step": 89540
    },
    {
      "epoch": 0.1865625,
      "grad_norm": 0.6802034974098206,
      "learning_rate": 0.0002758453109339605,
      "loss": 3.8685,
      "step": 89550
    },
    {
      "epoch": 0.18658333333333332,
      "grad_norm": 0.8093920946121216,
      "learning_rate": 0.0002758399458378455,
      "loss": 3.9711,
      "step": 89560
    },
    {
      "epoch": 0.18660416666666665,
      "grad_norm": 0.7637585997581482,
      "learning_rate": 0.0002758345801981518,
      "loss": 3.8115,
      "step": 89570
    },
    {
      "epoch": 0.186625,
      "grad_norm": 0.7978289723396301,
      "learning_rate": 0.0002758292140149025,
      "loss": 3.9875,
      "step": 89580
    },
    {
      "epoch": 0.18664583333333334,
      "grad_norm": 0.7508188486099243,
      "learning_rate": 0.0002758238472881208,
      "loss": 4.0969,
      "step": 89590
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 0.7081105709075928,
      "learning_rate": 0.0002758184800178299,
      "loss": 4.1183,
      "step": 89600
    },
    {
      "epoch": 0.1866875,
      "grad_norm": 0.744877278804779,
      "learning_rate": 0.000275813112204053,
      "loss": 3.7202,
      "step": 89610
    },
    {
      "epoch": 0.18670833333333334,
      "grad_norm": 0.813997209072113,
      "learning_rate": 0.0002758077438468132,
      "loss": 4.0378,
      "step": 89620
    },
    {
      "epoch": 0.18672916666666667,
      "grad_norm": 0.8119266033172607,
      "learning_rate": 0.0002758023749461337,
      "loss": 3.8986,
      "step": 89630
    },
    {
      "epoch": 0.18675,
      "grad_norm": 0.8180190324783325,
      "learning_rate": 0.00027579700550203783,
      "loss": 3.9859,
      "step": 89640
    },
    {
      "epoch": 0.18677083333333333,
      "grad_norm": 0.9067244529724121,
      "learning_rate": 0.0002757916355145487,
      "loss": 3.8231,
      "step": 89650
    },
    {
      "epoch": 0.18679166666666666,
      "grad_norm": 0.7998123168945312,
      "learning_rate": 0.0002757862649836895,
      "loss": 3.9886,
      "step": 89660
    },
    {
      "epoch": 0.1868125,
      "grad_norm": 0.7788608074188232,
      "learning_rate": 0.0002757808939094834,
      "loss": 3.9497,
      "step": 89670
    },
    {
      "epoch": 0.18683333333333332,
      "grad_norm": 0.7209687232971191,
      "learning_rate": 0.0002757755222919536,
      "loss": 3.7818,
      "step": 89680
    },
    {
      "epoch": 0.18685416666666665,
      "grad_norm": 0.7668169140815735,
      "learning_rate": 0.0002757701501311233,
      "loss": 4.0408,
      "step": 89690
    },
    {
      "epoch": 0.186875,
      "grad_norm": 0.7057467103004456,
      "learning_rate": 0.0002757647774270158,
      "loss": 3.7789,
      "step": 89700
    },
    {
      "epoch": 0.18689583333333334,
      "grad_norm": 0.797359824180603,
      "learning_rate": 0.0002757594041796542,
      "loss": 3.87,
      "step": 89710
    },
    {
      "epoch": 0.18691666666666668,
      "grad_norm": 0.7950314879417419,
      "learning_rate": 0.0002757540303890617,
      "loss": 3.931,
      "step": 89720
    },
    {
      "epoch": 0.1869375,
      "grad_norm": 0.7354533076286316,
      "learning_rate": 0.0002757486560552617,
      "loss": 3.8874,
      "step": 89730
    },
    {
      "epoch": 0.18695833333333334,
      "grad_norm": 0.8701459765434265,
      "learning_rate": 0.0002757432811782772,
      "loss": 3.9536,
      "step": 89740
    },
    {
      "epoch": 0.18697916666666667,
      "grad_norm": 0.7935304641723633,
      "learning_rate": 0.00027573790575813155,
      "loss": 3.9164,
      "step": 89750
    },
    {
      "epoch": 0.187,
      "grad_norm": 0.7384026050567627,
      "learning_rate": 0.00027573252979484785,
      "loss": 3.8527,
      "step": 89760
    },
    {
      "epoch": 0.18702083333333333,
      "grad_norm": 0.8241063356399536,
      "learning_rate": 0.00027572715328844945,
      "loss": 3.7992,
      "step": 89770
    },
    {
      "epoch": 0.18704166666666666,
      "grad_norm": 0.9801690578460693,
      "learning_rate": 0.00027572177623895943,
      "loss": 3.7796,
      "step": 89780
    },
    {
      "epoch": 0.1870625,
      "grad_norm": 0.8996636271476746,
      "learning_rate": 0.00027571639864640117,
      "loss": 3.8248,
      "step": 89790
    },
    {
      "epoch": 0.18708333333333332,
      "grad_norm": 0.8434402346611023,
      "learning_rate": 0.0002757110205107978,
      "loss": 4.0475,
      "step": 89800
    },
    {
      "epoch": 0.18710416666666665,
      "grad_norm": 0.7799971699714661,
      "learning_rate": 0.00027570564183217265,
      "loss": 4.0126,
      "step": 89810
    },
    {
      "epoch": 0.187125,
      "grad_norm": 0.8561511635780334,
      "learning_rate": 0.0002757002626105488,
      "loss": 3.8496,
      "step": 89820
    },
    {
      "epoch": 0.18714583333333334,
      "grad_norm": 0.723863959312439,
      "learning_rate": 0.0002756948828459496,
      "loss": 4.0591,
      "step": 89830
    },
    {
      "epoch": 0.18716666666666668,
      "grad_norm": 0.8599280118942261,
      "learning_rate": 0.0002756895025383983,
      "loss": 3.9083,
      "step": 89840
    },
    {
      "epoch": 0.1871875,
      "grad_norm": 0.8584170937538147,
      "learning_rate": 0.00027568412168791804,
      "loss": 3.768,
      "step": 89850
    },
    {
      "epoch": 0.18720833333333334,
      "grad_norm": 0.8101885914802551,
      "learning_rate": 0.0002756787402945321,
      "loss": 4.0316,
      "step": 89860
    },
    {
      "epoch": 0.18722916666666667,
      "grad_norm": 0.7032775282859802,
      "learning_rate": 0.00027567335835826384,
      "loss": 3.9187,
      "step": 89870
    },
    {
      "epoch": 0.18725,
      "grad_norm": 0.8329091668128967,
      "learning_rate": 0.00027566797587913635,
      "loss": 4.0463,
      "step": 89880
    },
    {
      "epoch": 0.18727083333333333,
      "grad_norm": 0.733814537525177,
      "learning_rate": 0.000275662592857173,
      "loss": 3.9978,
      "step": 89890
    },
    {
      "epoch": 0.18729166666666666,
      "grad_norm": 0.8260434865951538,
      "learning_rate": 0.00027565720929239695,
      "loss": 3.8844,
      "step": 89900
    },
    {
      "epoch": 0.1873125,
      "grad_norm": 0.741408109664917,
      "learning_rate": 0.0002756518251848315,
      "loss": 3.8955,
      "step": 89910
    },
    {
      "epoch": 0.18733333333333332,
      "grad_norm": 1.0143468379974365,
      "learning_rate": 0.00027564644053449993,
      "loss": 4.0574,
      "step": 89920
    },
    {
      "epoch": 0.18735416666666665,
      "grad_norm": 0.8887616395950317,
      "learning_rate": 0.0002756410553414254,
      "loss": 3.8075,
      "step": 89930
    },
    {
      "epoch": 0.187375,
      "grad_norm": 0.6973094344139099,
      "learning_rate": 0.0002756356696056313,
      "loss": 4.1351,
      "step": 89940
    },
    {
      "epoch": 0.18739583333333334,
      "grad_norm": 0.8250039219856262,
      "learning_rate": 0.00027563028332714084,
      "loss": 3.9998,
      "step": 89950
    },
    {
      "epoch": 0.18741666666666668,
      "grad_norm": 0.7200683355331421,
      "learning_rate": 0.0002756248965059773,
      "loss": 3.9812,
      "step": 89960
    },
    {
      "epoch": 0.1874375,
      "grad_norm": 0.7437129616737366,
      "learning_rate": 0.00027561950914216387,
      "loss": 3.9968,
      "step": 89970
    },
    {
      "epoch": 0.18745833333333334,
      "grad_norm": 0.7318971753120422,
      "learning_rate": 0.00027561412123572397,
      "loss": 4.0593,
      "step": 89980
    },
    {
      "epoch": 0.18747916666666667,
      "grad_norm": 0.8358121514320374,
      "learning_rate": 0.0002756087327866807,
      "loss": 4.2084,
      "step": 89990
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.9614058136940002,
      "learning_rate": 0.00027560334379505744,
      "loss": 3.8818,
      "step": 90000
    },
    {
      "epoch": 0.1875,
      "eval_loss": 4.2920942306518555,
      "eval_runtime": 10.9871,
      "eval_samples_per_second": 0.91,
      "eval_steps_per_second": 0.273,
      "step": 90000
    },
    {
      "epoch": 0.18752083333333333,
      "grad_norm": 1.11366868019104,
      "learning_rate": 0.0002755979542608775,
      "loss": 3.8387,
      "step": 90010
    },
    {
      "epoch": 0.18754166666666666,
      "grad_norm": 0.8971464037895203,
      "learning_rate": 0.0002755925641841641,
      "loss": 3.9103,
      "step": 90020
    },
    {
      "epoch": 0.1875625,
      "grad_norm": 1.0217576026916504,
      "learning_rate": 0.0002755871735649405,
      "loss": 3.9588,
      "step": 90030
    },
    {
      "epoch": 0.18758333333333332,
      "grad_norm": 0.8443076610565186,
      "learning_rate": 0.00027558178240323,
      "loss": 3.8041,
      "step": 90040
    },
    {
      "epoch": 0.18760416666666666,
      "grad_norm": 1.0453131198883057,
      "learning_rate": 0.000275576390699056,
      "loss": 4.0446,
      "step": 90050
    },
    {
      "epoch": 0.187625,
      "grad_norm": 0.6860546469688416,
      "learning_rate": 0.00027557099845244165,
      "loss": 4.0248,
      "step": 90060
    },
    {
      "epoch": 0.18764583333333335,
      "grad_norm": 0.8259005546569824,
      "learning_rate": 0.00027556560566341023,
      "loss": 3.8635,
      "step": 90070
    },
    {
      "epoch": 0.18766666666666668,
      "grad_norm": 0.8179410099983215,
      "learning_rate": 0.0002755602123319852,
      "loss": 3.863,
      "step": 90080
    },
    {
      "epoch": 0.1876875,
      "grad_norm": 0.7073521614074707,
      "learning_rate": 0.00027555481845818974,
      "loss": 3.9528,
      "step": 90090
    },
    {
      "epoch": 0.18770833333333334,
      "grad_norm": 0.8947041630744934,
      "learning_rate": 0.00027554942404204707,
      "loss": 4.1079,
      "step": 90100
    },
    {
      "epoch": 0.18772916666666667,
      "grad_norm": 0.6746863722801208,
      "learning_rate": 0.00027554402908358067,
      "loss": 3.8617,
      "step": 90110
    },
    {
      "epoch": 0.18775,
      "grad_norm": 0.9067639112472534,
      "learning_rate": 0.00027553863358281374,
      "loss": 4.2157,
      "step": 90120
    },
    {
      "epoch": 0.18777083333333333,
      "grad_norm": 0.7524749040603638,
      "learning_rate": 0.0002755332375397696,
      "loss": 3.8636,
      "step": 90130
    },
    {
      "epoch": 0.18779166666666666,
      "grad_norm": 0.8891716003417969,
      "learning_rate": 0.00027552784095447155,
      "loss": 3.8854,
      "step": 90140
    },
    {
      "epoch": 0.1878125,
      "grad_norm": 0.7647290229797363,
      "learning_rate": 0.00027552244382694297,
      "loss": 3.7469,
      "step": 90150
    },
    {
      "epoch": 0.18783333333333332,
      "grad_norm": 0.7565181851387024,
      "learning_rate": 0.00027551704615720704,
      "loss": 3.6436,
      "step": 90160
    },
    {
      "epoch": 0.18785416666666666,
      "grad_norm": 0.8345105648040771,
      "learning_rate": 0.0002755116479452872,
      "loss": 3.8707,
      "step": 90170
    },
    {
      "epoch": 0.187875,
      "grad_norm": 0.8356766104698181,
      "learning_rate": 0.0002755062491912067,
      "loss": 3.8833,
      "step": 90180
    },
    {
      "epoch": 0.18789583333333335,
      "grad_norm": 1.0346956253051758,
      "learning_rate": 0.0002755008498949889,
      "loss": 4.1915,
      "step": 90190
    },
    {
      "epoch": 0.18791666666666668,
      "grad_norm": 0.8076524138450623,
      "learning_rate": 0.0002754954500566571,
      "loss": 3.8596,
      "step": 90200
    },
    {
      "epoch": 0.1879375,
      "grad_norm": 0.7552304267883301,
      "learning_rate": 0.0002754900496762346,
      "loss": 3.9999,
      "step": 90210
    },
    {
      "epoch": 0.18795833333333334,
      "grad_norm": 0.7007092237472534,
      "learning_rate": 0.0002754846487537448,
      "loss": 3.9292,
      "step": 90220
    },
    {
      "epoch": 0.18797916666666667,
      "grad_norm": 0.8677220344543457,
      "learning_rate": 0.000275479247289211,
      "loss": 4.0425,
      "step": 90230
    },
    {
      "epoch": 0.188,
      "grad_norm": 0.7654786109924316,
      "learning_rate": 0.00027547384528265646,
      "loss": 3.893,
      "step": 90240
    },
    {
      "epoch": 0.18802083333333333,
      "grad_norm": 0.7446410655975342,
      "learning_rate": 0.0002754684427341046,
      "loss": 3.8495,
      "step": 90250
    },
    {
      "epoch": 0.18804166666666666,
      "grad_norm": 0.7536426782608032,
      "learning_rate": 0.00027546303964357877,
      "loss": 3.8203,
      "step": 90260
    },
    {
      "epoch": 0.1880625,
      "grad_norm": 0.7190613150596619,
      "learning_rate": 0.0002754576360111022,
      "loss": 3.9754,
      "step": 90270
    },
    {
      "epoch": 0.18808333333333332,
      "grad_norm": 0.7491293549537659,
      "learning_rate": 0.0002754522318366983,
      "loss": 4.0677,
      "step": 90280
    },
    {
      "epoch": 0.18810416666666666,
      "grad_norm": 1.0107452869415283,
      "learning_rate": 0.0002754468271203905,
      "loss": 3.8851,
      "step": 90290
    },
    {
      "epoch": 0.188125,
      "grad_norm": 0.684029221534729,
      "learning_rate": 0.00027544142186220204,
      "loss": 3.7384,
      "step": 90300
    },
    {
      "epoch": 0.18814583333333335,
      "grad_norm": 0.8449579477310181,
      "learning_rate": 0.00027543601606215627,
      "loss": 3.9798,
      "step": 90310
    },
    {
      "epoch": 0.18816666666666668,
      "grad_norm": 0.7163834571838379,
      "learning_rate": 0.00027543060972027656,
      "loss": 3.9439,
      "step": 90320
    },
    {
      "epoch": 0.1881875,
      "grad_norm": 0.7535377144813538,
      "learning_rate": 0.00027542520283658627,
      "loss": 3.9214,
      "step": 90330
    },
    {
      "epoch": 0.18820833333333334,
      "grad_norm": 0.7216730117797852,
      "learning_rate": 0.0002754197954111087,
      "loss": 4.024,
      "step": 90340
    },
    {
      "epoch": 0.18822916666666667,
      "grad_norm": 0.7601853609085083,
      "learning_rate": 0.00027541438744386733,
      "loss": 3.8554,
      "step": 90350
    },
    {
      "epoch": 0.18825,
      "grad_norm": 0.6821929216384888,
      "learning_rate": 0.0002754089789348854,
      "loss": 3.8161,
      "step": 90360
    },
    {
      "epoch": 0.18827083333333333,
      "grad_norm": 0.6998051404953003,
      "learning_rate": 0.00027540356988418636,
      "loss": 3.7827,
      "step": 90370
    },
    {
      "epoch": 0.18829166666666666,
      "grad_norm": 0.7484045028686523,
      "learning_rate": 0.0002753981602917935,
      "loss": 3.9709,
      "step": 90380
    },
    {
      "epoch": 0.1883125,
      "grad_norm": 0.7463517785072327,
      "learning_rate": 0.00027539275015773027,
      "loss": 4.0278,
      "step": 90390
    },
    {
      "epoch": 0.18833333333333332,
      "grad_norm": 0.8142198324203491,
      "learning_rate": 0.00027538733948201995,
      "loss": 4.0242,
      "step": 90400
    },
    {
      "epoch": 0.18835416666666666,
      "grad_norm": 0.777458131313324,
      "learning_rate": 0.00027538192826468604,
      "loss": 3.9408,
      "step": 90410
    },
    {
      "epoch": 0.188375,
      "grad_norm": 1.2004265785217285,
      "learning_rate": 0.0002753765165057517,
      "loss": 3.7879,
      "step": 90420
    },
    {
      "epoch": 0.18839583333333335,
      "grad_norm": 0.6975199580192566,
      "learning_rate": 0.0002753711042052405,
      "loss": 3.925,
      "step": 90430
    },
    {
      "epoch": 0.18841666666666668,
      "grad_norm": 0.7498310804367065,
      "learning_rate": 0.00027536569136317576,
      "loss": 3.7748,
      "step": 90440
    },
    {
      "epoch": 0.1884375,
      "grad_norm": 0.7448443174362183,
      "learning_rate": 0.00027536027797958086,
      "loss": 3.818,
      "step": 90450
    },
    {
      "epoch": 0.18845833333333334,
      "grad_norm": 0.7086969614028931,
      "learning_rate": 0.0002753548640544792,
      "loss": 4.0275,
      "step": 90460
    },
    {
      "epoch": 0.18847916666666667,
      "grad_norm": 0.7517547607421875,
      "learning_rate": 0.0002753494495878941,
      "loss": 3.8173,
      "step": 90470
    },
    {
      "epoch": 0.1885,
      "grad_norm": 0.9155359268188477,
      "learning_rate": 0.000275344034579849,
      "loss": 4.0659,
      "step": 90480
    },
    {
      "epoch": 0.18852083333333333,
      "grad_norm": 0.7029311656951904,
      "learning_rate": 0.0002753386190303673,
      "loss": 3.7859,
      "step": 90490
    },
    {
      "epoch": 0.18854166666666666,
      "grad_norm": 0.8668927550315857,
      "learning_rate": 0.00027533320293947236,
      "loss": 3.9797,
      "step": 90500
    },
    {
      "epoch": 0.1885625,
      "grad_norm": 0.8076042532920837,
      "learning_rate": 0.0002753277863071876,
      "loss": 3.9226,
      "step": 90510
    },
    {
      "epoch": 0.18858333333333333,
      "grad_norm": 0.6942238211631775,
      "learning_rate": 0.00027532236913353645,
      "loss": 4.1003,
      "step": 90520
    },
    {
      "epoch": 0.18860416666666666,
      "grad_norm": 0.8237395882606506,
      "learning_rate": 0.0002753169514185422,
      "loss": 3.9405,
      "step": 90530
    },
    {
      "epoch": 0.188625,
      "grad_norm": 0.7730165123939514,
      "learning_rate": 0.0002753115331622284,
      "loss": 3.8686,
      "step": 90540
    },
    {
      "epoch": 0.18864583333333335,
      "grad_norm": 0.7748793959617615,
      "learning_rate": 0.0002753061143646183,
      "loss": 3.9027,
      "step": 90550
    },
    {
      "epoch": 0.18866666666666668,
      "grad_norm": 0.7220009565353394,
      "learning_rate": 0.00027530069502573545,
      "loss": 3.7875,
      "step": 90560
    },
    {
      "epoch": 0.1886875,
      "grad_norm": 0.7040328979492188,
      "learning_rate": 0.0002752952751456032,
      "loss": 3.9804,
      "step": 90570
    },
    {
      "epoch": 0.18870833333333334,
      "grad_norm": 0.7275586128234863,
      "learning_rate": 0.00027528985472424495,
      "loss": 4.0049,
      "step": 90580
    },
    {
      "epoch": 0.18872916666666667,
      "grad_norm": 0.9606851935386658,
      "learning_rate": 0.00027528443376168406,
      "loss": 3.8625,
      "step": 90590
    },
    {
      "epoch": 0.18875,
      "grad_norm": 0.7357778549194336,
      "learning_rate": 0.00027527901225794403,
      "loss": 4.0667,
      "step": 90600
    },
    {
      "epoch": 0.18877083333333333,
      "grad_norm": 0.6824604272842407,
      "learning_rate": 0.0002752735902130483,
      "loss": 3.6783,
      "step": 90610
    },
    {
      "epoch": 0.18879166666666666,
      "grad_norm": 0.7038468718528748,
      "learning_rate": 0.00027526816762702024,
      "loss": 4.1564,
      "step": 90620
    },
    {
      "epoch": 0.1888125,
      "grad_norm": 0.8768200874328613,
      "learning_rate": 0.00027526274449988326,
      "loss": 3.9711,
      "step": 90630
    },
    {
      "epoch": 0.18883333333333333,
      "grad_norm": 0.8745374083518982,
      "learning_rate": 0.00027525732083166077,
      "loss": 4.0623,
      "step": 90640
    },
    {
      "epoch": 0.18885416666666666,
      "grad_norm": 0.8174855709075928,
      "learning_rate": 0.0002752518966223763,
      "loss": 3.9034,
      "step": 90650
    },
    {
      "epoch": 0.188875,
      "grad_norm": 0.8773013353347778,
      "learning_rate": 0.0002752464718720532,
      "loss": 3.921,
      "step": 90660
    },
    {
      "epoch": 0.18889583333333335,
      "grad_norm": 0.8423275351524353,
      "learning_rate": 0.0002752410465807149,
      "loss": 4.0036,
      "step": 90670
    },
    {
      "epoch": 0.18891666666666668,
      "grad_norm": 0.7193958759307861,
      "learning_rate": 0.00027523562074838485,
      "loss": 3.9239,
      "step": 90680
    },
    {
      "epoch": 0.1889375,
      "grad_norm": 0.8813473582267761,
      "learning_rate": 0.00027523019437508645,
      "loss": 4.0094,
      "step": 90690
    },
    {
      "epoch": 0.18895833333333334,
      "grad_norm": 0.7666972875595093,
      "learning_rate": 0.00027522476746084327,
      "loss": 3.8462,
      "step": 90700
    },
    {
      "epoch": 0.18897916666666667,
      "grad_norm": 0.8894777297973633,
      "learning_rate": 0.0002752193400056786,
      "loss": 3.9852,
      "step": 90710
    },
    {
      "epoch": 0.189,
      "grad_norm": 0.8080527186393738,
      "learning_rate": 0.000275213912009616,
      "loss": 3.957,
      "step": 90720
    },
    {
      "epoch": 0.18902083333333333,
      "grad_norm": 0.7745118141174316,
      "learning_rate": 0.00027520848347267876,
      "loss": 3.9157,
      "step": 90730
    },
    {
      "epoch": 0.18904166666666666,
      "grad_norm": 0.9185326099395752,
      "learning_rate": 0.00027520305439489057,
      "loss": 3.8117,
      "step": 90740
    },
    {
      "epoch": 0.1890625,
      "grad_norm": 0.8392927050590515,
      "learning_rate": 0.0002751976247762747,
      "loss": 3.8071,
      "step": 90750
    },
    {
      "epoch": 0.18908333333333333,
      "grad_norm": 0.954681932926178,
      "learning_rate": 0.00027519219461685454,
      "loss": 3.9229,
      "step": 90760
    },
    {
      "epoch": 0.18910416666666666,
      "grad_norm": 0.9523108601570129,
      "learning_rate": 0.00027518676391665375,
      "loss": 3.9633,
      "step": 90770
    },
    {
      "epoch": 0.189125,
      "grad_norm": 0.7654154896736145,
      "learning_rate": 0.0002751813326756957,
      "loss": 3.9699,
      "step": 90780
    },
    {
      "epoch": 0.18914583333333335,
      "grad_norm": 0.770520806312561,
      "learning_rate": 0.0002751759008940038,
      "loss": 3.8459,
      "step": 90790
    },
    {
      "epoch": 0.18916666666666668,
      "grad_norm": 0.8089296221733093,
      "learning_rate": 0.0002751704685716016,
      "loss": 3.9771,
      "step": 90800
    },
    {
      "epoch": 0.1891875,
      "grad_norm": 1.0744339227676392,
      "learning_rate": 0.0002751650357085125,
      "loss": 3.6902,
      "step": 90810
    },
    {
      "epoch": 0.18920833333333334,
      "grad_norm": 0.7356364727020264,
      "learning_rate": 0.00027515960230475997,
      "loss": 3.8714,
      "step": 90820
    },
    {
      "epoch": 0.18922916666666667,
      "grad_norm": 0.9227558970451355,
      "learning_rate": 0.00027515416836036753,
      "loss": 3.888,
      "step": 90830
    },
    {
      "epoch": 0.18925,
      "grad_norm": 0.7819401621818542,
      "learning_rate": 0.0002751487338753586,
      "loss": 3.8022,
      "step": 90840
    },
    {
      "epoch": 0.18927083333333333,
      "grad_norm": 0.7911032438278198,
      "learning_rate": 0.00027514329884975673,
      "loss": 4.0341,
      "step": 90850
    },
    {
      "epoch": 0.18929166666666666,
      "grad_norm": 0.8402722477912903,
      "learning_rate": 0.0002751378632835853,
      "loss": 3.9001,
      "step": 90860
    },
    {
      "epoch": 0.1893125,
      "grad_norm": 0.7463510036468506,
      "learning_rate": 0.0002751324271768678,
      "loss": 3.9722,
      "step": 90870
    },
    {
      "epoch": 0.18933333333333333,
      "grad_norm": 0.7551965117454529,
      "learning_rate": 0.0002751269905296278,
      "loss": 4.0114,
      "step": 90880
    },
    {
      "epoch": 0.18935416666666666,
      "grad_norm": 0.7226583361625671,
      "learning_rate": 0.0002751215533418887,
      "loss": 3.9945,
      "step": 90890
    },
    {
      "epoch": 0.189375,
      "grad_norm": 0.7309621572494507,
      "learning_rate": 0.000275116115613674,
      "loss": 4.0263,
      "step": 90900
    },
    {
      "epoch": 0.18939583333333335,
      "grad_norm": 0.7473005056381226,
      "learning_rate": 0.00027511067734500725,
      "loss": 3.9245,
      "step": 90910
    },
    {
      "epoch": 0.18941666666666668,
      "grad_norm": 0.8030510544776917,
      "learning_rate": 0.00027510523853591193,
      "loss": 3.922,
      "step": 90920
    },
    {
      "epoch": 0.1894375,
      "grad_norm": 0.740079939365387,
      "learning_rate": 0.00027509979918641144,
      "loss": 3.9914,
      "step": 90930
    },
    {
      "epoch": 0.18945833333333334,
      "grad_norm": 0.729196310043335,
      "learning_rate": 0.0002750943592965293,
      "loss": 3.9046,
      "step": 90940
    },
    {
      "epoch": 0.18947916666666667,
      "grad_norm": 0.6961444616317749,
      "learning_rate": 0.0002750889188662891,
      "loss": 4.0557,
      "step": 90950
    },
    {
      "epoch": 0.1895,
      "grad_norm": 0.9419139623641968,
      "learning_rate": 0.0002750834778957143,
      "loss": 3.8487,
      "step": 90960
    },
    {
      "epoch": 0.18952083333333333,
      "grad_norm": 0.7238985896110535,
      "learning_rate": 0.0002750780363848283,
      "loss": 4.1281,
      "step": 90970
    },
    {
      "epoch": 0.18954166666666666,
      "grad_norm": 0.8287613987922668,
      "learning_rate": 0.0002750725943336548,
      "loss": 3.9944,
      "step": 90980
    },
    {
      "epoch": 0.1895625,
      "grad_norm": 0.8379096388816833,
      "learning_rate": 0.00027506715174221714,
      "loss": 4.0347,
      "step": 90990
    },
    {
      "epoch": 0.18958333333333333,
      "grad_norm": 0.6929618120193481,
      "learning_rate": 0.0002750617086105389,
      "loss": 3.8417,
      "step": 91000
    },
    {
      "epoch": 0.18958333333333333,
      "eval_loss": 4.276630878448486,
      "eval_runtime": 10.2234,
      "eval_samples_per_second": 0.978,
      "eval_steps_per_second": 0.293,
      "step": 91000
    },
    {
      "epoch": 0.18960416666666666,
      "grad_norm": 0.8686568737030029,
      "learning_rate": 0.00027505626493864354,
      "loss": 3.9349,
      "step": 91010
    },
    {
      "epoch": 0.189625,
      "grad_norm": 0.8446127772331238,
      "learning_rate": 0.0002750508207265547,
      "loss": 3.9135,
      "step": 91020
    },
    {
      "epoch": 0.18964583333333335,
      "grad_norm": 0.8525540828704834,
      "learning_rate": 0.00027504537597429577,
      "loss": 4.0003,
      "step": 91030
    },
    {
      "epoch": 0.18966666666666668,
      "grad_norm": 0.823111355304718,
      "learning_rate": 0.00027503993068189026,
      "loss": 3.9984,
      "step": 91040
    },
    {
      "epoch": 0.1896875,
      "grad_norm": 0.7598847150802612,
      "learning_rate": 0.0002750344848493618,
      "loss": 3.9276,
      "step": 91050
    },
    {
      "epoch": 0.18970833333333334,
      "grad_norm": 0.8569549918174744,
      "learning_rate": 0.0002750290384767339,
      "loss": 3.9448,
      "step": 91060
    },
    {
      "epoch": 0.18972916666666667,
      "grad_norm": 0.6327351927757263,
      "learning_rate": 0.00027502359156402997,
      "loss": 3.98,
      "step": 91070
    },
    {
      "epoch": 0.18975,
      "grad_norm": 0.701816201210022,
      "learning_rate": 0.0002750181441112736,
      "loss": 3.8545,
      "step": 91080
    },
    {
      "epoch": 0.18977083333333333,
      "grad_norm": 0.8722787499427795,
      "learning_rate": 0.0002750126961184884,
      "loss": 3.8524,
      "step": 91090
    },
    {
      "epoch": 0.18979166666666666,
      "grad_norm": 0.7483274340629578,
      "learning_rate": 0.00027500724758569784,
      "loss": 3.8947,
      "step": 91100
    },
    {
      "epoch": 0.1898125,
      "grad_norm": 0.7213094830513,
      "learning_rate": 0.0002750017985129254,
      "loss": 4.1604,
      "step": 91110
    },
    {
      "epoch": 0.18983333333333333,
      "grad_norm": 0.8775256872177124,
      "learning_rate": 0.0002749963489001947,
      "loss": 3.9029,
      "step": 91120
    },
    {
      "epoch": 0.18985416666666666,
      "grad_norm": 0.8480299711227417,
      "learning_rate": 0.0002749908987475292,
      "loss": 3.9399,
      "step": 91130
    },
    {
      "epoch": 0.189875,
      "grad_norm": 0.9053731560707092,
      "learning_rate": 0.00027498544805495257,
      "loss": 3.9933,
      "step": 91140
    },
    {
      "epoch": 0.18989583333333335,
      "grad_norm": 0.829850435256958,
      "learning_rate": 0.0002749799968224882,
      "loss": 3.8422,
      "step": 91150
    },
    {
      "epoch": 0.18991666666666668,
      "grad_norm": 0.7775528430938721,
      "learning_rate": 0.0002749745450501598,
      "loss": 3.9708,
      "step": 91160
    },
    {
      "epoch": 0.1899375,
      "grad_norm": 0.6491659879684448,
      "learning_rate": 0.00027496909273799075,
      "loss": 4.0027,
      "step": 91170
    },
    {
      "epoch": 0.18995833333333334,
      "grad_norm": 0.7435899376869202,
      "learning_rate": 0.00027496363988600473,
      "loss": 3.7506,
      "step": 91180
    },
    {
      "epoch": 0.18997916666666667,
      "grad_norm": 0.7295722365379333,
      "learning_rate": 0.00027495818649422523,
      "loss": 3.9025,
      "step": 91190
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7059231400489807,
      "learning_rate": 0.00027495273256267585,
      "loss": 3.8826,
      "step": 91200
    },
    {
      "epoch": 0.19002083333333333,
      "grad_norm": 0.7443966269493103,
      "learning_rate": 0.0002749472780913801,
      "loss": 3.9267,
      "step": 91210
    },
    {
      "epoch": 0.19004166666666666,
      "grad_norm": 0.9410343170166016,
      "learning_rate": 0.00027494182308036163,
      "loss": 3.8722,
      "step": 91220
    },
    {
      "epoch": 0.1900625,
      "grad_norm": 0.8353641033172607,
      "learning_rate": 0.00027493636752964386,
      "loss": 4.0574,
      "step": 91230
    },
    {
      "epoch": 0.19008333333333333,
      "grad_norm": 0.7245425581932068,
      "learning_rate": 0.00027493091143925046,
      "loss": 4.0093,
      "step": 91240
    },
    {
      "epoch": 0.19010416666666666,
      "grad_norm": 0.7991434335708618,
      "learning_rate": 0.000274925454809205,
      "loss": 3.9749,
      "step": 91250
    },
    {
      "epoch": 0.190125,
      "grad_norm": 0.6720604300498962,
      "learning_rate": 0.000274919997639531,
      "loss": 4.0222,
      "step": 91260
    },
    {
      "epoch": 0.19014583333333332,
      "grad_norm": 0.8459290266036987,
      "learning_rate": 0.00027491453993025206,
      "loss": 3.9078,
      "step": 91270
    },
    {
      "epoch": 0.19016666666666668,
      "grad_norm": 0.7595254182815552,
      "learning_rate": 0.00027490908168139173,
      "loss": 4.0737,
      "step": 91280
    },
    {
      "epoch": 0.1901875,
      "grad_norm": 0.8362794518470764,
      "learning_rate": 0.00027490362289297364,
      "loss": 3.8611,
      "step": 91290
    },
    {
      "epoch": 0.19020833333333334,
      "grad_norm": 1.1498925685882568,
      "learning_rate": 0.0002748981635650213,
      "loss": 4.0931,
      "step": 91300
    },
    {
      "epoch": 0.19022916666666667,
      "grad_norm": 0.8223147392272949,
      "learning_rate": 0.0002748927036975584,
      "loss": 3.8085,
      "step": 91310
    },
    {
      "epoch": 0.19025,
      "grad_norm": 0.8182123303413391,
      "learning_rate": 0.0002748872432906084,
      "loss": 3.8545,
      "step": 91320
    },
    {
      "epoch": 0.19027083333333333,
      "grad_norm": 0.7466261982917786,
      "learning_rate": 0.000274881782344195,
      "loss": 3.8463,
      "step": 91330
    },
    {
      "epoch": 0.19029166666666666,
      "grad_norm": 0.8861969113349915,
      "learning_rate": 0.0002748763208583417,
      "loss": 4.027,
      "step": 91340
    },
    {
      "epoch": 0.1903125,
      "grad_norm": 0.7078753113746643,
      "learning_rate": 0.00027487085883307207,
      "loss": 3.9894,
      "step": 91350
    },
    {
      "epoch": 0.19033333333333333,
      "grad_norm": 0.8025042414665222,
      "learning_rate": 0.0002748653962684098,
      "loss": 4.005,
      "step": 91360
    },
    {
      "epoch": 0.19035416666666666,
      "grad_norm": 0.8878797888755798,
      "learning_rate": 0.0002748599331643784,
      "loss": 3.745,
      "step": 91370
    },
    {
      "epoch": 0.190375,
      "grad_norm": 0.7819230556488037,
      "learning_rate": 0.0002748544695210016,
      "loss": 4.0213,
      "step": 91380
    },
    {
      "epoch": 0.19039583333333332,
      "grad_norm": 0.8536155223846436,
      "learning_rate": 0.00027484900533830285,
      "loss": 3.7896,
      "step": 91390
    },
    {
      "epoch": 0.19041666666666668,
      "grad_norm": 0.786052942276001,
      "learning_rate": 0.0002748435406163059,
      "loss": 4.0097,
      "step": 91400
    },
    {
      "epoch": 0.1904375,
      "grad_norm": 0.718035876750946,
      "learning_rate": 0.0002748380753550342,
      "loss": 3.9545,
      "step": 91410
    },
    {
      "epoch": 0.19045833333333334,
      "grad_norm": 0.6784069538116455,
      "learning_rate": 0.00027483260955451144,
      "loss": 3.9363,
      "step": 91420
    },
    {
      "epoch": 0.19047916666666667,
      "grad_norm": 0.7188217043876648,
      "learning_rate": 0.0002748271432147612,
      "loss": 3.8519,
      "step": 91430
    },
    {
      "epoch": 0.1905,
      "grad_norm": 0.6768965125083923,
      "learning_rate": 0.0002748216763358071,
      "loss": 3.8921,
      "step": 91440
    },
    {
      "epoch": 0.19052083333333333,
      "grad_norm": 0.7178685069084167,
      "learning_rate": 0.0002748162089176728,
      "loss": 4.1011,
      "step": 91450
    },
    {
      "epoch": 0.19054166666666666,
      "grad_norm": 0.794382631778717,
      "learning_rate": 0.00027481074096038187,
      "loss": 4.1549,
      "step": 91460
    },
    {
      "epoch": 0.1905625,
      "grad_norm": 0.779817521572113,
      "learning_rate": 0.000274805272463958,
      "loss": 3.9833,
      "step": 91470
    },
    {
      "epoch": 0.19058333333333333,
      "grad_norm": 0.9672266840934753,
      "learning_rate": 0.00027479980342842464,
      "loss": 3.9802,
      "step": 91480
    },
    {
      "epoch": 0.19060416666666666,
      "grad_norm": 0.8670803904533386,
      "learning_rate": 0.00027479433385380563,
      "loss": 3.726,
      "step": 91490
    },
    {
      "epoch": 0.190625,
      "grad_norm": 0.7401044964790344,
      "learning_rate": 0.00027478886374012444,
      "loss": 3.9623,
      "step": 91500
    },
    {
      "epoch": 0.19064583333333332,
      "grad_norm": 0.9476518034934998,
      "learning_rate": 0.00027478339308740476,
      "loss": 3.9517,
      "step": 91510
    },
    {
      "epoch": 0.19066666666666668,
      "grad_norm": 0.780386209487915,
      "learning_rate": 0.00027477792189567024,
      "loss": 3.752,
      "step": 91520
    },
    {
      "epoch": 0.1906875,
      "grad_norm": 0.6833907961845398,
      "learning_rate": 0.00027477245016494444,
      "loss": 3.9909,
      "step": 91530
    },
    {
      "epoch": 0.19070833333333334,
      "grad_norm": 0.7191479802131653,
      "learning_rate": 0.0002747669778952511,
      "loss": 3.8381,
      "step": 91540
    },
    {
      "epoch": 0.19072916666666667,
      "grad_norm": 1.0186420679092407,
      "learning_rate": 0.00027476150508661375,
      "loss": 3.7833,
      "step": 91550
    },
    {
      "epoch": 0.19075,
      "grad_norm": 0.8338903784751892,
      "learning_rate": 0.0002747560317390561,
      "loss": 3.908,
      "step": 91560
    },
    {
      "epoch": 0.19077083333333333,
      "grad_norm": 0.7646533250808716,
      "learning_rate": 0.0002747505578526018,
      "loss": 4.0111,
      "step": 91570
    },
    {
      "epoch": 0.19079166666666666,
      "grad_norm": 0.7737823724746704,
      "learning_rate": 0.0002747450834272745,
      "loss": 3.8103,
      "step": 91580
    },
    {
      "epoch": 0.1908125,
      "grad_norm": 0.7915352582931519,
      "learning_rate": 0.00027473960846309775,
      "loss": 3.9467,
      "step": 91590
    },
    {
      "epoch": 0.19083333333333333,
      "grad_norm": 0.8901461958885193,
      "learning_rate": 0.0002747341329600953,
      "loss": 4.0009,
      "step": 91600
    },
    {
      "epoch": 0.19085416666666666,
      "grad_norm": 0.7481701374053955,
      "learning_rate": 0.0002747286569182907,
      "loss": 4.0391,
      "step": 91610
    },
    {
      "epoch": 0.190875,
      "grad_norm": 0.8185672760009766,
      "learning_rate": 0.00027472318033770776,
      "loss": 4.0325,
      "step": 91620
    },
    {
      "epoch": 0.19089583333333332,
      "grad_norm": 0.6752582788467407,
      "learning_rate": 0.00027471770321837,
      "loss": 3.9469,
      "step": 91630
    },
    {
      "epoch": 0.19091666666666668,
      "grad_norm": 0.7974951267242432,
      "learning_rate": 0.00027471222556030116,
      "loss": 3.8233,
      "step": 91640
    },
    {
      "epoch": 0.1909375,
      "grad_norm": 0.7876443862915039,
      "learning_rate": 0.00027470674736352485,
      "loss": 3.9325,
      "step": 91650
    },
    {
      "epoch": 0.19095833333333334,
      "grad_norm": 0.7514185309410095,
      "learning_rate": 0.00027470126862806475,
      "loss": 3.8126,
      "step": 91660
    },
    {
      "epoch": 0.19097916666666667,
      "grad_norm": 0.6796295046806335,
      "learning_rate": 0.00027469578935394455,
      "loss": 3.9914,
      "step": 91670
    },
    {
      "epoch": 0.191,
      "grad_norm": 0.7301395535469055,
      "learning_rate": 0.0002746903095411879,
      "loss": 4.1735,
      "step": 91680
    },
    {
      "epoch": 0.19102083333333333,
      "grad_norm": 0.6710376739501953,
      "learning_rate": 0.00027468482918981845,
      "loss": 4.0461,
      "step": 91690
    },
    {
      "epoch": 0.19104166666666667,
      "grad_norm": 0.7758207321166992,
      "learning_rate": 0.00027467934829985993,
      "loss": 3.8788,
      "step": 91700
    },
    {
      "epoch": 0.1910625,
      "grad_norm": 0.7084881663322449,
      "learning_rate": 0.0002746738668713359,
      "loss": 3.9367,
      "step": 91710
    },
    {
      "epoch": 0.19108333333333333,
      "grad_norm": 0.7900219559669495,
      "learning_rate": 0.00027466838490427023,
      "loss": 3.9891,
      "step": 91720
    },
    {
      "epoch": 0.19110416666666666,
      "grad_norm": 0.7622429132461548,
      "learning_rate": 0.0002746629023986864,
      "loss": 4.143,
      "step": 91730
    },
    {
      "epoch": 0.191125,
      "grad_norm": 0.7779148817062378,
      "learning_rate": 0.0002746574193546082,
      "loss": 3.9204,
      "step": 91740
    },
    {
      "epoch": 0.19114583333333332,
      "grad_norm": 0.8320451974868774,
      "learning_rate": 0.0002746519357720593,
      "loss": 4.0396,
      "step": 91750
    },
    {
      "epoch": 0.19116666666666668,
      "grad_norm": 0.6889131665229797,
      "learning_rate": 0.0002746464516510633,
      "loss": 4.0424,
      "step": 91760
    },
    {
      "epoch": 0.1911875,
      "grad_norm": 0.7551159262657166,
      "learning_rate": 0.0002746409669916441,
      "loss": 4.1392,
      "step": 91770
    },
    {
      "epoch": 0.19120833333333334,
      "grad_norm": 0.9842861294746399,
      "learning_rate": 0.0002746354817938251,
      "loss": 3.8253,
      "step": 91780
    },
    {
      "epoch": 0.19122916666666667,
      "grad_norm": 0.737730860710144,
      "learning_rate": 0.0002746299960576303,
      "loss": 3.9084,
      "step": 91790
    },
    {
      "epoch": 0.19125,
      "grad_norm": 0.6666132211685181,
      "learning_rate": 0.00027462450978308316,
      "loss": 3.9368,
      "step": 91800
    },
    {
      "epoch": 0.19127083333333333,
      "grad_norm": 1.0006086826324463,
      "learning_rate": 0.0002746190229702075,
      "loss": 3.9634,
      "step": 91810
    },
    {
      "epoch": 0.19129166666666667,
      "grad_norm": 0.7661669850349426,
      "learning_rate": 0.000274613535619027,
      "loss": 3.9001,
      "step": 91820
    },
    {
      "epoch": 0.1913125,
      "grad_norm": 0.7501083016395569,
      "learning_rate": 0.00027460804772956533,
      "loss": 3.8066,
      "step": 91830
    },
    {
      "epoch": 0.19133333333333333,
      "grad_norm": 0.8600069284439087,
      "learning_rate": 0.00027460255930184625,
      "loss": 3.9067,
      "step": 91840
    },
    {
      "epoch": 0.19135416666666666,
      "grad_norm": 0.6812048554420471,
      "learning_rate": 0.0002745970703358934,
      "loss": 4.0688,
      "step": 91850
    },
    {
      "epoch": 0.191375,
      "grad_norm": 0.7618786096572876,
      "learning_rate": 0.0002745915808317305,
      "loss": 3.9948,
      "step": 91860
    },
    {
      "epoch": 0.19139583333333332,
      "grad_norm": 0.8765764832496643,
      "learning_rate": 0.00027458609078938133,
      "loss": 3.9949,
      "step": 91870
    },
    {
      "epoch": 0.19141666666666668,
      "grad_norm": 0.7917579412460327,
      "learning_rate": 0.0002745806002088696,
      "loss": 3.826,
      "step": 91880
    },
    {
      "epoch": 0.1914375,
      "grad_norm": 0.7034358978271484,
      "learning_rate": 0.0002745751090902189,
      "loss": 3.9916,
      "step": 91890
    },
    {
      "epoch": 0.19145833333333334,
      "grad_norm": 0.725060760974884,
      "learning_rate": 0.00027456961743345306,
      "loss": 3.8604,
      "step": 91900
    },
    {
      "epoch": 0.19147916666666667,
      "grad_norm": 0.7747330069541931,
      "learning_rate": 0.00027456412523859584,
      "loss": 3.7856,
      "step": 91910
    },
    {
      "epoch": 0.1915,
      "grad_norm": 1.0238698720932007,
      "learning_rate": 0.0002745586325056709,
      "loss": 4.0772,
      "step": 91920
    },
    {
      "epoch": 0.19152083333333333,
      "grad_norm": 0.764764666557312,
      "learning_rate": 0.0002745531392347019,
      "loss": 3.8257,
      "step": 91930
    },
    {
      "epoch": 0.19154166666666667,
      "grad_norm": 0.8122008442878723,
      "learning_rate": 0.00027454764542571264,
      "loss": 3.8727,
      "step": 91940
    },
    {
      "epoch": 0.1915625,
      "grad_norm": 0.6949844360351562,
      "learning_rate": 0.0002745421510787269,
      "loss": 4.0294,
      "step": 91950
    },
    {
      "epoch": 0.19158333333333333,
      "grad_norm": 0.779973030090332,
      "learning_rate": 0.0002745366561937684,
      "loss": 3.9849,
      "step": 91960
    },
    {
      "epoch": 0.19160416666666666,
      "grad_norm": 0.8110035061836243,
      "learning_rate": 0.00027453116077086077,
      "loss": 3.8684,
      "step": 91970
    },
    {
      "epoch": 0.191625,
      "grad_norm": 0.7618404030799866,
      "learning_rate": 0.00027452566481002785,
      "loss": 3.8138,
      "step": 91980
    },
    {
      "epoch": 0.19164583333333332,
      "grad_norm": 0.8639703989028931,
      "learning_rate": 0.00027452016831129334,
      "loss": 4.0034,
      "step": 91990
    },
    {
      "epoch": 0.19166666666666668,
      "grad_norm": 0.9348292350769043,
      "learning_rate": 0.000274514671274681,
      "loss": 3.9246,
      "step": 92000
    },
    {
      "epoch": 0.19166666666666668,
      "eval_loss": 4.304018497467041,
      "eval_runtime": 10.3251,
      "eval_samples_per_second": 0.969,
      "eval_steps_per_second": 0.291,
      "step": 92000
    },
    {
      "epoch": 0.1916875,
      "grad_norm": 0.720513641834259,
      "learning_rate": 0.00027450917370021457,
      "loss": 4.0624,
      "step": 92010
    },
    {
      "epoch": 0.19170833333333334,
      "grad_norm": 0.7905014157295227,
      "learning_rate": 0.00027450367558791775,
      "loss": 3.9737,
      "step": 92020
    },
    {
      "epoch": 0.19172916666666667,
      "grad_norm": 0.773129940032959,
      "learning_rate": 0.00027449817693781436,
      "loss": 4.0088,
      "step": 92030
    },
    {
      "epoch": 0.19175,
      "grad_norm": 0.7528867721557617,
      "learning_rate": 0.00027449267774992816,
      "loss": 3.8686,
      "step": 92040
    },
    {
      "epoch": 0.19177083333333333,
      "grad_norm": 0.8468011021614075,
      "learning_rate": 0.00027448717802428283,
      "loss": 4.0911,
      "step": 92050
    },
    {
      "epoch": 0.19179166666666667,
      "grad_norm": 0.7901443243026733,
      "learning_rate": 0.0002744816777609022,
      "loss": 3.9156,
      "step": 92060
    },
    {
      "epoch": 0.1918125,
      "grad_norm": 0.921197235584259,
      "learning_rate": 0.00027447617695981,
      "loss": 4.1764,
      "step": 92070
    },
    {
      "epoch": 0.19183333333333333,
      "grad_norm": 0.7413967251777649,
      "learning_rate": 0.0002744706756210299,
      "loss": 3.9085,
      "step": 92080
    },
    {
      "epoch": 0.19185416666666666,
      "grad_norm": 0.7521814107894897,
      "learning_rate": 0.0002744651737445858,
      "loss": 3.9243,
      "step": 92090
    },
    {
      "epoch": 0.191875,
      "grad_norm": 0.8064786195755005,
      "learning_rate": 0.00027445967133050145,
      "loss": 3.8933,
      "step": 92100
    },
    {
      "epoch": 0.19189583333333332,
      "grad_norm": 0.8939036130905151,
      "learning_rate": 0.0002744541683788006,
      "loss": 4.1365,
      "step": 92110
    },
    {
      "epoch": 0.19191666666666668,
      "grad_norm": 0.9395675659179688,
      "learning_rate": 0.00027444866488950695,
      "loss": 3.8792,
      "step": 92120
    },
    {
      "epoch": 0.1919375,
      "grad_norm": 0.8432508111000061,
      "learning_rate": 0.00027444316086264436,
      "loss": 3.7222,
      "step": 92130
    },
    {
      "epoch": 0.19195833333333334,
      "grad_norm": 0.7654009461402893,
      "learning_rate": 0.00027443765629823656,
      "loss": 3.9068,
      "step": 92140
    },
    {
      "epoch": 0.19197916666666667,
      "grad_norm": 0.7469329833984375,
      "learning_rate": 0.00027443215119630734,
      "loss": 3.9266,
      "step": 92150
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.7478797435760498,
      "learning_rate": 0.00027442664555688044,
      "loss": 3.9401,
      "step": 92160
    },
    {
      "epoch": 0.19202083333333334,
      "grad_norm": 0.7221897840499878,
      "learning_rate": 0.00027442113937997973,
      "loss": 3.9671,
      "step": 92170
    },
    {
      "epoch": 0.19204166666666667,
      "grad_norm": 0.7009600400924683,
      "learning_rate": 0.000274415632665629,
      "loss": 3.9802,
      "step": 92180
    },
    {
      "epoch": 0.1920625,
      "grad_norm": 0.9405708312988281,
      "learning_rate": 0.0002744101254138519,
      "loss": 3.8237,
      "step": 92190
    },
    {
      "epoch": 0.19208333333333333,
      "grad_norm": 0.9240197539329529,
      "learning_rate": 0.0002744046176246723,
      "loss": 4.1535,
      "step": 92200
    },
    {
      "epoch": 0.19210416666666666,
      "grad_norm": 1.5765730142593384,
      "learning_rate": 0.000274399109298114,
      "loss": 3.8292,
      "step": 92210
    },
    {
      "epoch": 0.192125,
      "grad_norm": 0.7649264931678772,
      "learning_rate": 0.00027439360043420084,
      "loss": 4.0274,
      "step": 92220
    },
    {
      "epoch": 0.19214583333333332,
      "grad_norm": 0.8353575468063354,
      "learning_rate": 0.00027438809103295654,
      "loss": 3.9686,
      "step": 92230
    },
    {
      "epoch": 0.19216666666666668,
      "grad_norm": 0.8402441740036011,
      "learning_rate": 0.0002743825810944049,
      "loss": 3.9734,
      "step": 92240
    },
    {
      "epoch": 0.1921875,
      "grad_norm": 0.7814085483551025,
      "learning_rate": 0.00027437707061856977,
      "loss": 3.8722,
      "step": 92250
    },
    {
      "epoch": 0.19220833333333334,
      "grad_norm": 0.7611770033836365,
      "learning_rate": 0.0002743715596054749,
      "loss": 3.9009,
      "step": 92260
    },
    {
      "epoch": 0.19222916666666667,
      "grad_norm": 0.8077239990234375,
      "learning_rate": 0.00027436604805514413,
      "loss": 3.946,
      "step": 92270
    },
    {
      "epoch": 0.19225,
      "grad_norm": 0.902617871761322,
      "learning_rate": 0.0002743605359676013,
      "loss": 4.0646,
      "step": 92280
    },
    {
      "epoch": 0.19227083333333334,
      "grad_norm": 0.7679324746131897,
      "learning_rate": 0.0002743550233428701,
      "loss": 3.7573,
      "step": 92290
    },
    {
      "epoch": 0.19229166666666667,
      "grad_norm": 0.805543839931488,
      "learning_rate": 0.0002743495101809745,
      "loss": 3.961,
      "step": 92300
    },
    {
      "epoch": 0.1923125,
      "grad_norm": 0.8161610960960388,
      "learning_rate": 0.0002743439964819382,
      "loss": 3.9249,
      "step": 92310
    },
    {
      "epoch": 0.19233333333333333,
      "grad_norm": 0.8563823103904724,
      "learning_rate": 0.0002743384822457851,
      "loss": 3.9702,
      "step": 92320
    },
    {
      "epoch": 0.19235416666666666,
      "grad_norm": 0.820151686668396,
      "learning_rate": 0.0002743329674725389,
      "loss": 3.9398,
      "step": 92330
    },
    {
      "epoch": 0.192375,
      "grad_norm": 0.7374067306518555,
      "learning_rate": 0.00027432745216222356,
      "loss": 3.8798,
      "step": 92340
    },
    {
      "epoch": 0.19239583333333332,
      "grad_norm": 0.736767053604126,
      "learning_rate": 0.0002743219363148628,
      "loss": 3.9624,
      "step": 92350
    },
    {
      "epoch": 0.19241666666666668,
      "grad_norm": 0.9352604150772095,
      "learning_rate": 0.0002743164199304805,
      "loss": 4.012,
      "step": 92360
    },
    {
      "epoch": 0.1924375,
      "grad_norm": 0.6628725528717041,
      "learning_rate": 0.00027431090300910043,
      "loss": 3.9992,
      "step": 92370
    },
    {
      "epoch": 0.19245833333333334,
      "grad_norm": 0.7624752521514893,
      "learning_rate": 0.0002743053855507465,
      "loss": 3.9903,
      "step": 92380
    },
    {
      "epoch": 0.19247916666666667,
      "grad_norm": 0.781508207321167,
      "learning_rate": 0.00027429986755544256,
      "loss": 3.8491,
      "step": 92390
    },
    {
      "epoch": 0.1925,
      "grad_norm": 0.7229906916618347,
      "learning_rate": 0.0002742943490232123,
      "loss": 3.9524,
      "step": 92400
    },
    {
      "epoch": 0.19252083333333334,
      "grad_norm": 0.7586458921432495,
      "learning_rate": 0.0002742888299540797,
      "loss": 4.0652,
      "step": 92410
    },
    {
      "epoch": 0.19254166666666667,
      "grad_norm": 0.8727280497550964,
      "learning_rate": 0.0002742833103480686,
      "loss": 3.9226,
      "step": 92420
    },
    {
      "epoch": 0.1925625,
      "grad_norm": 0.8636091351509094,
      "learning_rate": 0.0002742777902052027,
      "loss": 3.8735,
      "step": 92430
    },
    {
      "epoch": 0.19258333333333333,
      "grad_norm": 0.8419030904769897,
      "learning_rate": 0.000274272269525506,
      "loss": 4.0432,
      "step": 92440
    },
    {
      "epoch": 0.19260416666666666,
      "grad_norm": 0.6897881031036377,
      "learning_rate": 0.0002742667483090023,
      "loss": 3.9078,
      "step": 92450
    },
    {
      "epoch": 0.192625,
      "grad_norm": 0.7528761029243469,
      "learning_rate": 0.00027426122655571536,
      "loss": 3.9572,
      "step": 92460
    },
    {
      "epoch": 0.19264583333333332,
      "grad_norm": 0.8524377346038818,
      "learning_rate": 0.00027425570426566916,
      "loss": 3.7353,
      "step": 92470
    },
    {
      "epoch": 0.19266666666666668,
      "grad_norm": 0.8729358315467834,
      "learning_rate": 0.0002742501814388875,
      "loss": 3.9651,
      "step": 92480
    },
    {
      "epoch": 0.1926875,
      "grad_norm": 0.8362614512443542,
      "learning_rate": 0.00027424465807539424,
      "loss": 3.9995,
      "step": 92490
    },
    {
      "epoch": 0.19270833333333334,
      "grad_norm": 0.6963710188865662,
      "learning_rate": 0.0002742391341752132,
      "loss": 3.9844,
      "step": 92500
    },
    {
      "epoch": 0.19272916666666667,
      "grad_norm": 0.7750999927520752,
      "learning_rate": 0.0002742336097383683,
      "loss": 3.9475,
      "step": 92510
    },
    {
      "epoch": 0.19275,
      "grad_norm": 0.7656430602073669,
      "learning_rate": 0.0002742280847648834,
      "loss": 4.0152,
      "step": 92520
    },
    {
      "epoch": 0.19277083333333334,
      "grad_norm": 0.7820266485214233,
      "learning_rate": 0.0002742225592547823,
      "loss": 4.0884,
      "step": 92530
    },
    {
      "epoch": 0.19279166666666667,
      "grad_norm": 0.7531667351722717,
      "learning_rate": 0.00027421703320808894,
      "loss": 3.8227,
      "step": 92540
    },
    {
      "epoch": 0.1928125,
      "grad_norm": 0.8280318379402161,
      "learning_rate": 0.00027421150662482717,
      "loss": 4.0076,
      "step": 92550
    },
    {
      "epoch": 0.19283333333333333,
      "grad_norm": 0.8133417963981628,
      "learning_rate": 0.0002742059795050209,
      "loss": 3.9055,
      "step": 92560
    },
    {
      "epoch": 0.19285416666666666,
      "grad_norm": 0.8578565120697021,
      "learning_rate": 0.0002742004518486939,
      "loss": 3.8173,
      "step": 92570
    },
    {
      "epoch": 0.192875,
      "grad_norm": 0.7284464240074158,
      "learning_rate": 0.0002741949236558701,
      "loss": 4.0032,
      "step": 92580
    },
    {
      "epoch": 0.19289583333333332,
      "grad_norm": 0.7112690210342407,
      "learning_rate": 0.00027418939492657347,
      "loss": 3.8814,
      "step": 92590
    },
    {
      "epoch": 0.19291666666666665,
      "grad_norm": 0.8367990851402283,
      "learning_rate": 0.00027418386566082774,
      "loss": 3.8413,
      "step": 92600
    },
    {
      "epoch": 0.1929375,
      "grad_norm": 0.8962868452072144,
      "learning_rate": 0.0002741783358586569,
      "loss": 3.8134,
      "step": 92610
    },
    {
      "epoch": 0.19295833333333334,
      "grad_norm": 0.6666688919067383,
      "learning_rate": 0.00027417280552008476,
      "loss": 4.0485,
      "step": 92620
    },
    {
      "epoch": 0.19297916666666667,
      "grad_norm": 0.7154685854911804,
      "learning_rate": 0.0002741672746451353,
      "loss": 4.2429,
      "step": 92630
    },
    {
      "epoch": 0.193,
      "grad_norm": 0.7668737173080444,
      "learning_rate": 0.0002741617432338323,
      "loss": 3.6922,
      "step": 92640
    },
    {
      "epoch": 0.19302083333333334,
      "grad_norm": 0.7683324217796326,
      "learning_rate": 0.0002741562112861998,
      "loss": 4.0276,
      "step": 92650
    },
    {
      "epoch": 0.19304166666666667,
      "grad_norm": 0.9048532247543335,
      "learning_rate": 0.00027415067880226155,
      "loss": 4.0346,
      "step": 92660
    },
    {
      "epoch": 0.1930625,
      "grad_norm": 0.6691904664039612,
      "learning_rate": 0.00027414514578204155,
      "loss": 3.8164,
      "step": 92670
    },
    {
      "epoch": 0.19308333333333333,
      "grad_norm": 0.8999292850494385,
      "learning_rate": 0.0002741396122255636,
      "loss": 4.112,
      "step": 92680
    },
    {
      "epoch": 0.19310416666666666,
      "grad_norm": 0.8325583338737488,
      "learning_rate": 0.00027413407813285174,
      "loss": 3.9046,
      "step": 92690
    },
    {
      "epoch": 0.193125,
      "grad_norm": 0.7240872383117676,
      "learning_rate": 0.0002741285435039298,
      "loss": 3.7488,
      "step": 92700
    },
    {
      "epoch": 0.19314583333333332,
      "grad_norm": 0.7588842511177063,
      "learning_rate": 0.00027412300833882164,
      "loss": 4.0078,
      "step": 92710
    },
    {
      "epoch": 0.19316666666666665,
      "grad_norm": 0.9620528817176819,
      "learning_rate": 0.00027411747263755116,
      "loss": 3.8836,
      "step": 92720
    },
    {
      "epoch": 0.1931875,
      "grad_norm": 0.8557708859443665,
      "learning_rate": 0.00027411193640014244,
      "loss": 3.776,
      "step": 92730
    },
    {
      "epoch": 0.19320833333333334,
      "grad_norm": 0.8330896496772766,
      "learning_rate": 0.0002741063996266192,
      "loss": 4.1032,
      "step": 92740
    },
    {
      "epoch": 0.19322916666666667,
      "grad_norm": 0.9313504099845886,
      "learning_rate": 0.0002741008623170055,
      "loss": 4.0922,
      "step": 92750
    },
    {
      "epoch": 0.19325,
      "grad_norm": 0.8999679684638977,
      "learning_rate": 0.00027409532447132516,
      "loss": 3.9642,
      "step": 92760
    },
    {
      "epoch": 0.19327083333333334,
      "grad_norm": 0.8363356590270996,
      "learning_rate": 0.00027408978608960214,
      "loss": 3.9914,
      "step": 92770
    },
    {
      "epoch": 0.19329166666666667,
      "grad_norm": 0.9103180766105652,
      "learning_rate": 0.00027408424717186036,
      "loss": 4.0082,
      "step": 92780
    },
    {
      "epoch": 0.1933125,
      "grad_norm": 0.7567905187606812,
      "learning_rate": 0.00027407870771812377,
      "loss": 4.0551,
      "step": 92790
    },
    {
      "epoch": 0.19333333333333333,
      "grad_norm": 0.726589024066925,
      "learning_rate": 0.0002740731677284163,
      "loss": 3.7554,
      "step": 92800
    },
    {
      "epoch": 0.19335416666666666,
      "grad_norm": 0.7578080296516418,
      "learning_rate": 0.00027406762720276175,
      "loss": 4.1402,
      "step": 92810
    },
    {
      "epoch": 0.193375,
      "grad_norm": 0.7857120037078857,
      "learning_rate": 0.00027406208614118424,
      "loss": 3.9718,
      "step": 92820
    },
    {
      "epoch": 0.19339583333333332,
      "grad_norm": 0.7242152690887451,
      "learning_rate": 0.00027405654454370766,
      "loss": 3.9675,
      "step": 92830
    },
    {
      "epoch": 0.19341666666666665,
      "grad_norm": 0.7252117395401001,
      "learning_rate": 0.0002740510024103558,
      "loss": 3.8327,
      "step": 92840
    },
    {
      "epoch": 0.1934375,
      "grad_norm": 0.8823216557502747,
      "learning_rate": 0.0002740454597411528,
      "loss": 3.99,
      "step": 92850
    },
    {
      "epoch": 0.19345833333333334,
      "grad_norm": 0.9301354885101318,
      "learning_rate": 0.0002740399165361225,
      "loss": 3.8664,
      "step": 92860
    },
    {
      "epoch": 0.19347916666666667,
      "grad_norm": 0.7952534556388855,
      "learning_rate": 0.0002740343727952888,
      "loss": 3.9184,
      "step": 92870
    },
    {
      "epoch": 0.1935,
      "grad_norm": 0.7573935389518738,
      "learning_rate": 0.0002740288285186758,
      "loss": 3.6879,
      "step": 92880
    },
    {
      "epoch": 0.19352083333333334,
      "grad_norm": 0.7205803990364075,
      "learning_rate": 0.0002740232837063073,
      "loss": 3.6603,
      "step": 92890
    },
    {
      "epoch": 0.19354166666666667,
      "grad_norm": 0.8046885132789612,
      "learning_rate": 0.00027401773835820735,
      "loss": 3.993,
      "step": 92900
    },
    {
      "epoch": 0.1935625,
      "grad_norm": 0.7210755944252014,
      "learning_rate": 0.0002740121924743998,
      "loss": 4.0867,
      "step": 92910
    },
    {
      "epoch": 0.19358333333333333,
      "grad_norm": 0.7960945963859558,
      "learning_rate": 0.0002740066460549087,
      "loss": 3.9225,
      "step": 92920
    },
    {
      "epoch": 0.19360416666666666,
      "grad_norm": 0.7935143709182739,
      "learning_rate": 0.000274001099099758,
      "loss": 3.8238,
      "step": 92930
    },
    {
      "epoch": 0.193625,
      "grad_norm": 0.7336628437042236,
      "learning_rate": 0.00027399555160897163,
      "loss": 3.789,
      "step": 92940
    },
    {
      "epoch": 0.19364583333333332,
      "grad_norm": 0.835741400718689,
      "learning_rate": 0.00027399000358257347,
      "loss": 3.9717,
      "step": 92950
    },
    {
      "epoch": 0.19366666666666665,
      "grad_norm": 0.8618433475494385,
      "learning_rate": 0.0002739844550205877,
      "loss": 4.0095,
      "step": 92960
    },
    {
      "epoch": 0.1936875,
      "grad_norm": 0.8053343892097473,
      "learning_rate": 0.0002739789059230381,
      "loss": 3.9956,
      "step": 92970
    },
    {
      "epoch": 0.19370833333333334,
      "grad_norm": 0.7320711612701416,
      "learning_rate": 0.00027397335628994866,
      "loss": 3.7438,
      "step": 92980
    },
    {
      "epoch": 0.19372916666666667,
      "grad_norm": 0.7310126423835754,
      "learning_rate": 0.0002739678061213434,
      "loss": 3.9132,
      "step": 92990
    },
    {
      "epoch": 0.19375,
      "grad_norm": 0.8002314567565918,
      "learning_rate": 0.00027396225541724637,
      "loss": 4.0405,
      "step": 93000
    },
    {
      "epoch": 0.19375,
      "eval_loss": 4.269639015197754,
      "eval_runtime": 10.1917,
      "eval_samples_per_second": 0.981,
      "eval_steps_per_second": 0.294,
      "step": 93000
    },
    {
      "epoch": 0.19377083333333334,
      "grad_norm": 0.7941508293151855,
      "learning_rate": 0.0002739567041776814,
      "loss": 3.8952,
      "step": 93010
    },
    {
      "epoch": 0.19379166666666667,
      "grad_norm": 0.7720952033996582,
      "learning_rate": 0.00027395115240267255,
      "loss": 4.1051,
      "step": 93020
    },
    {
      "epoch": 0.1938125,
      "grad_norm": 0.927321195602417,
      "learning_rate": 0.0002739456000922438,
      "loss": 4.0727,
      "step": 93030
    },
    {
      "epoch": 0.19383333333333333,
      "grad_norm": 0.771827220916748,
      "learning_rate": 0.0002739400472464191,
      "loss": 3.9515,
      "step": 93040
    },
    {
      "epoch": 0.19385416666666666,
      "grad_norm": 0.7216969132423401,
      "learning_rate": 0.0002739344938652224,
      "loss": 3.8871,
      "step": 93050
    },
    {
      "epoch": 0.193875,
      "grad_norm": 0.8987125754356384,
      "learning_rate": 0.0002739289399486778,
      "loss": 3.743,
      "step": 93060
    },
    {
      "epoch": 0.19389583333333332,
      "grad_norm": 0.9023748636245728,
      "learning_rate": 0.00027392338549680925,
      "loss": 3.9201,
      "step": 93070
    },
    {
      "epoch": 0.19391666666666665,
      "grad_norm": 0.8799203634262085,
      "learning_rate": 0.0002739178305096407,
      "loss": 3.985,
      "step": 93080
    },
    {
      "epoch": 0.1939375,
      "grad_norm": 0.8309151530265808,
      "learning_rate": 0.00027391227498719617,
      "loss": 4.1411,
      "step": 93090
    },
    {
      "epoch": 0.19395833333333334,
      "grad_norm": 0.7469663619995117,
      "learning_rate": 0.0002739067189294997,
      "loss": 4.047,
      "step": 93100
    },
    {
      "epoch": 0.19397916666666667,
      "grad_norm": 1.0068955421447754,
      "learning_rate": 0.00027390116233657523,
      "loss": 3.7882,
      "step": 93110
    },
    {
      "epoch": 0.194,
      "grad_norm": 0.7198595404624939,
      "learning_rate": 0.00027389560520844675,
      "loss": 3.7972,
      "step": 93120
    },
    {
      "epoch": 0.19402083333333334,
      "grad_norm": 0.6688303351402283,
      "learning_rate": 0.00027389004754513834,
      "loss": 3.9947,
      "step": 93130
    },
    {
      "epoch": 0.19404166666666667,
      "grad_norm": 0.694288969039917,
      "learning_rate": 0.0002738844893466739,
      "loss": 3.9205,
      "step": 93140
    },
    {
      "epoch": 0.1940625,
      "grad_norm": 0.7417435050010681,
      "learning_rate": 0.00027387893061307756,
      "loss": 4.0214,
      "step": 93150
    },
    {
      "epoch": 0.19408333333333333,
      "grad_norm": 0.7214083075523376,
      "learning_rate": 0.00027387337134437327,
      "loss": 3.6254,
      "step": 93160
    },
    {
      "epoch": 0.19410416666666666,
      "grad_norm": 0.7388765811920166,
      "learning_rate": 0.000273867811540585,
      "loss": 4.0499,
      "step": 93170
    },
    {
      "epoch": 0.194125,
      "grad_norm": 0.856877863407135,
      "learning_rate": 0.00027386225120173686,
      "loss": 3.9623,
      "step": 93180
    },
    {
      "epoch": 0.19414583333333332,
      "grad_norm": 0.7007079720497131,
      "learning_rate": 0.0002738566903278528,
      "loss": 4.0631,
      "step": 93190
    },
    {
      "epoch": 0.19416666666666665,
      "grad_norm": 0.7219590544700623,
      "learning_rate": 0.0002738511289189569,
      "loss": 3.9473,
      "step": 93200
    },
    {
      "epoch": 0.1941875,
      "grad_norm": 0.7756072282791138,
      "learning_rate": 0.00027384556697507316,
      "loss": 4.1159,
      "step": 93210
    },
    {
      "epoch": 0.19420833333333334,
      "grad_norm": 0.9047934412956238,
      "learning_rate": 0.00027384000449622557,
      "loss": 4.0723,
      "step": 93220
    },
    {
      "epoch": 0.19422916666666667,
      "grad_norm": 0.805165708065033,
      "learning_rate": 0.00027383444148243815,
      "loss": 3.9257,
      "step": 93230
    },
    {
      "epoch": 0.19425,
      "grad_norm": 0.8401201963424683,
      "learning_rate": 0.000273828877933735,
      "loss": 4.0321,
      "step": 93240
    },
    {
      "epoch": 0.19427083333333334,
      "grad_norm": 0.8996986746788025,
      "learning_rate": 0.0002738233138501401,
      "loss": 4.08,
      "step": 93250
    },
    {
      "epoch": 0.19429166666666667,
      "grad_norm": 0.7385739684104919,
      "learning_rate": 0.00027381774923167744,
      "loss": 3.8499,
      "step": 93260
    },
    {
      "epoch": 0.1943125,
      "grad_norm": 0.9362020492553711,
      "learning_rate": 0.00027381218407837116,
      "loss": 3.9704,
      "step": 93270
    },
    {
      "epoch": 0.19433333333333333,
      "grad_norm": 0.736035168170929,
      "learning_rate": 0.00027380661839024523,
      "loss": 4.1272,
      "step": 93280
    },
    {
      "epoch": 0.19435416666666666,
      "grad_norm": 0.7421329617500305,
      "learning_rate": 0.0002738010521673238,
      "loss": 3.8996,
      "step": 93290
    },
    {
      "epoch": 0.194375,
      "grad_norm": 0.6876094937324524,
      "learning_rate": 0.00027379548540963075,
      "loss": 3.9998,
      "step": 93300
    },
    {
      "epoch": 0.19439583333333332,
      "grad_norm": 0.8467497229576111,
      "learning_rate": 0.0002737899181171902,
      "loss": 3.8202,
      "step": 93310
    },
    {
      "epoch": 0.19441666666666665,
      "grad_norm": 0.7419642210006714,
      "learning_rate": 0.00027378435029002627,
      "loss": 3.9519,
      "step": 93320
    },
    {
      "epoch": 0.1944375,
      "grad_norm": 0.7050631642341614,
      "learning_rate": 0.00027377878192816286,
      "loss": 4.0001,
      "step": 93330
    },
    {
      "epoch": 0.19445833333333334,
      "grad_norm": 0.7252691388130188,
      "learning_rate": 0.0002737732130316242,
      "loss": 3.8829,
      "step": 93340
    },
    {
      "epoch": 0.19447916666666668,
      "grad_norm": 0.7547847628593445,
      "learning_rate": 0.00027376764360043413,
      "loss": 3.977,
      "step": 93350
    },
    {
      "epoch": 0.1945,
      "grad_norm": 0.6897545456886292,
      "learning_rate": 0.00027376207363461694,
      "loss": 3.9498,
      "step": 93360
    },
    {
      "epoch": 0.19452083333333334,
      "grad_norm": 0.7228429317474365,
      "learning_rate": 0.0002737565031341965,
      "loss": 3.9702,
      "step": 93370
    },
    {
      "epoch": 0.19454166666666667,
      "grad_norm": 0.705147385597229,
      "learning_rate": 0.00027375093209919705,
      "loss": 3.8303,
      "step": 93380
    },
    {
      "epoch": 0.1945625,
      "grad_norm": 0.9464631676673889,
      "learning_rate": 0.0002737453605296424,
      "loss": 4.0417,
      "step": 93390
    },
    {
      "epoch": 0.19458333333333333,
      "grad_norm": 0.8223630785942078,
      "learning_rate": 0.0002737397884255569,
      "loss": 4.0428,
      "step": 93400
    },
    {
      "epoch": 0.19460416666666666,
      "grad_norm": 0.685832142829895,
      "learning_rate": 0.0002737342157869645,
      "loss": 3.9259,
      "step": 93410
    },
    {
      "epoch": 0.194625,
      "grad_norm": 0.8223825693130493,
      "learning_rate": 0.00027372864261388923,
      "loss": 3.8906,
      "step": 93420
    },
    {
      "epoch": 0.19464583333333332,
      "grad_norm": 1.185671329498291,
      "learning_rate": 0.0002737230689063552,
      "loss": 4.0781,
      "step": 93430
    },
    {
      "epoch": 0.19466666666666665,
      "grad_norm": 0.7670809626579285,
      "learning_rate": 0.0002737174946643865,
      "loss": 3.8752,
      "step": 93440
    },
    {
      "epoch": 0.1946875,
      "grad_norm": 0.8647821545600891,
      "learning_rate": 0.0002737119198880072,
      "loss": 4.0045,
      "step": 93450
    },
    {
      "epoch": 0.19470833333333334,
      "grad_norm": 0.7961347103118896,
      "learning_rate": 0.00027370634457724133,
      "loss": 3.9624,
      "step": 93460
    },
    {
      "epoch": 0.19472916666666668,
      "grad_norm": 0.7699318528175354,
      "learning_rate": 0.00027370076873211305,
      "loss": 3.8687,
      "step": 93470
    },
    {
      "epoch": 0.19475,
      "grad_norm": 0.8351806402206421,
      "learning_rate": 0.0002736951923526464,
      "loss": 4.1077,
      "step": 93480
    },
    {
      "epoch": 0.19477083333333334,
      "grad_norm": 0.9162630438804626,
      "learning_rate": 0.0002736896154388655,
      "loss": 4.0104,
      "step": 93490
    },
    {
      "epoch": 0.19479166666666667,
      "grad_norm": 0.745882511138916,
      "learning_rate": 0.0002736840379907944,
      "loss": 3.8675,
      "step": 93500
    },
    {
      "epoch": 0.1948125,
      "grad_norm": 0.747920572757721,
      "learning_rate": 0.0002736784600084572,
      "loss": 3.9878,
      "step": 93510
    },
    {
      "epoch": 0.19483333333333333,
      "grad_norm": 0.8390116095542908,
      "learning_rate": 0.00027367288149187806,
      "loss": 3.8748,
      "step": 93520
    },
    {
      "epoch": 0.19485416666666666,
      "grad_norm": 0.7207647562026978,
      "learning_rate": 0.000273667302441081,
      "loss": 3.7873,
      "step": 93530
    },
    {
      "epoch": 0.194875,
      "grad_norm": 0.8329967260360718,
      "learning_rate": 0.0002736617228560901,
      "loss": 3.8015,
      "step": 93540
    },
    {
      "epoch": 0.19489583333333332,
      "grad_norm": 0.7339974045753479,
      "learning_rate": 0.0002736561427369296,
      "loss": 3.8681,
      "step": 93550
    },
    {
      "epoch": 0.19491666666666665,
      "grad_norm": 0.798789918422699,
      "learning_rate": 0.0002736505620836234,
      "loss": 4.0514,
      "step": 93560
    },
    {
      "epoch": 0.1949375,
      "grad_norm": 0.7890822291374207,
      "learning_rate": 0.0002736449808961958,
      "loss": 3.9427,
      "step": 93570
    },
    {
      "epoch": 0.19495833333333334,
      "grad_norm": 0.7477342486381531,
      "learning_rate": 0.0002736393991746708,
      "loss": 3.8848,
      "step": 93580
    },
    {
      "epoch": 0.19497916666666668,
      "grad_norm": 0.898853063583374,
      "learning_rate": 0.0002736338169190725,
      "loss": 3.9888,
      "step": 93590
    },
    {
      "epoch": 0.195,
      "grad_norm": 0.7376127243041992,
      "learning_rate": 0.0002736282341294251,
      "loss": 3.8526,
      "step": 93600
    },
    {
      "epoch": 0.19502083333333334,
      "grad_norm": 0.7087004780769348,
      "learning_rate": 0.0002736226508057526,
      "loss": 3.8738,
      "step": 93610
    },
    {
      "epoch": 0.19504166666666667,
      "grad_norm": 0.8363021016120911,
      "learning_rate": 0.0002736170669480793,
      "loss": 4.1419,
      "step": 93620
    },
    {
      "epoch": 0.1950625,
      "grad_norm": 0.7132776975631714,
      "learning_rate": 0.0002736114825564291,
      "loss": 4.0503,
      "step": 93630
    },
    {
      "epoch": 0.19508333333333333,
      "grad_norm": 0.7109072208404541,
      "learning_rate": 0.00027360589763082623,
      "loss": 4.128,
      "step": 93640
    },
    {
      "epoch": 0.19510416666666666,
      "grad_norm": 0.7300116419792175,
      "learning_rate": 0.0002736003121712948,
      "loss": 3.7277,
      "step": 93650
    },
    {
      "epoch": 0.195125,
      "grad_norm": 0.8087018728256226,
      "learning_rate": 0.000273594726177859,
      "loss": 3.8619,
      "step": 93660
    },
    {
      "epoch": 0.19514583333333332,
      "grad_norm": 0.8632952570915222,
      "learning_rate": 0.0002735891396505429,
      "loss": 4.1368,
      "step": 93670
    },
    {
      "epoch": 0.19516666666666665,
      "grad_norm": 0.934794008731842,
      "learning_rate": 0.0002735835525893706,
      "loss": 4.0777,
      "step": 93680
    },
    {
      "epoch": 0.1951875,
      "grad_norm": 0.7700251340866089,
      "learning_rate": 0.00027357796499436626,
      "loss": 3.9264,
      "step": 93690
    },
    {
      "epoch": 0.19520833333333334,
      "grad_norm": 0.7411268353462219,
      "learning_rate": 0.0002735723768655541,
      "loss": 4.1325,
      "step": 93700
    },
    {
      "epoch": 0.19522916666666668,
      "grad_norm": 0.9760246872901917,
      "learning_rate": 0.00027356678820295813,
      "loss": 3.9986,
      "step": 93710
    },
    {
      "epoch": 0.19525,
      "grad_norm": 0.7019138336181641,
      "learning_rate": 0.00027356119900660256,
      "loss": 4.0159,
      "step": 93720
    },
    {
      "epoch": 0.19527083333333334,
      "grad_norm": 0.7643010020256042,
      "learning_rate": 0.0002735556092765115,
      "loss": 4.0083,
      "step": 93730
    },
    {
      "epoch": 0.19529166666666667,
      "grad_norm": 0.8194450736045837,
      "learning_rate": 0.00027355001901270917,
      "loss": 3.8196,
      "step": 93740
    },
    {
      "epoch": 0.1953125,
      "grad_norm": 0.7122031450271606,
      "learning_rate": 0.0002735444282152196,
      "loss": 3.9696,
      "step": 93750
    },
    {
      "epoch": 0.19533333333333333,
      "grad_norm": 0.9850800633430481,
      "learning_rate": 0.000273538836884067,
      "loss": 4.094,
      "step": 93760
    },
    {
      "epoch": 0.19535416666666666,
      "grad_norm": 0.7248971462249756,
      "learning_rate": 0.0002735332450192756,
      "loss": 4.1117,
      "step": 93770
    },
    {
      "epoch": 0.195375,
      "grad_norm": 0.7017927765846252,
      "learning_rate": 0.0002735276526208694,
      "loss": 3.8721,
      "step": 93780
    },
    {
      "epoch": 0.19539583333333332,
      "grad_norm": 0.8409106731414795,
      "learning_rate": 0.00027352205968887266,
      "loss": 3.9017,
      "step": 93790
    },
    {
      "epoch": 0.19541666666666666,
      "grad_norm": 0.7094943523406982,
      "learning_rate": 0.00027351646622330954,
      "loss": 3.95,
      "step": 93800
    },
    {
      "epoch": 0.1954375,
      "grad_norm": 0.750248372554779,
      "learning_rate": 0.00027351087222420413,
      "loss": 4.0178,
      "step": 93810
    },
    {
      "epoch": 0.19545833333333335,
      "grad_norm": 0.663446843624115,
      "learning_rate": 0.00027350527769158067,
      "loss": 3.8346,
      "step": 93820
    },
    {
      "epoch": 0.19547916666666668,
      "grad_norm": 0.7019898891448975,
      "learning_rate": 0.00027349968262546334,
      "loss": 3.9638,
      "step": 93830
    },
    {
      "epoch": 0.1955,
      "grad_norm": 0.7226138710975647,
      "learning_rate": 0.0002734940870258762,
      "loss": 3.9421,
      "step": 93840
    },
    {
      "epoch": 0.19552083333333334,
      "grad_norm": 0.7109925150871277,
      "learning_rate": 0.0002734884908928435,
      "loss": 4.1389,
      "step": 93850
    },
    {
      "epoch": 0.19554166666666667,
      "grad_norm": 0.7578256130218506,
      "learning_rate": 0.0002734828942263894,
      "loss": 4.1641,
      "step": 93860
    },
    {
      "epoch": 0.1955625,
      "grad_norm": 0.7542611956596375,
      "learning_rate": 0.00027347729702653813,
      "loss": 3.9333,
      "step": 93870
    },
    {
      "epoch": 0.19558333333333333,
      "grad_norm": 1.0114073753356934,
      "learning_rate": 0.00027347169929331375,
      "loss": 3.9586,
      "step": 93880
    },
    {
      "epoch": 0.19560416666666666,
      "grad_norm": 0.7541428208351135,
      "learning_rate": 0.0002734661010267405,
      "loss": 3.9015,
      "step": 93890
    },
    {
      "epoch": 0.195625,
      "grad_norm": 0.691645622253418,
      "learning_rate": 0.0002734605022268426,
      "loss": 3.8081,
      "step": 93900
    },
    {
      "epoch": 0.19564583333333332,
      "grad_norm": 0.9284999370574951,
      "learning_rate": 0.0002734549028936442,
      "loss": 3.9396,
      "step": 93910
    },
    {
      "epoch": 0.19566666666666666,
      "grad_norm": 0.7675895690917969,
      "learning_rate": 0.00027344930302716943,
      "loss": 3.9035,
      "step": 93920
    },
    {
      "epoch": 0.1956875,
      "grad_norm": 0.780472993850708,
      "learning_rate": 0.00027344370262744256,
      "loss": 3.9011,
      "step": 93930
    },
    {
      "epoch": 0.19570833333333335,
      "grad_norm": 0.7809320092201233,
      "learning_rate": 0.00027343810169448777,
      "loss": 3.8916,
      "step": 93940
    },
    {
      "epoch": 0.19572916666666668,
      "grad_norm": 0.7453614473342896,
      "learning_rate": 0.0002734325002283293,
      "loss": 3.8171,
      "step": 93950
    },
    {
      "epoch": 0.19575,
      "grad_norm": 0.9034572243690491,
      "learning_rate": 0.0002734268982289912,
      "loss": 3.8176,
      "step": 93960
    },
    {
      "epoch": 0.19577083333333334,
      "grad_norm": 0.7633448243141174,
      "learning_rate": 0.0002734212956964978,
      "loss": 3.7947,
      "step": 93970
    },
    {
      "epoch": 0.19579166666666667,
      "grad_norm": 0.9083358645439148,
      "learning_rate": 0.00027341569263087317,
      "loss": 3.8277,
      "step": 93980
    },
    {
      "epoch": 0.1958125,
      "grad_norm": 0.791124701499939,
      "learning_rate": 0.0002734100890321417,
      "loss": 3.9152,
      "step": 93990
    },
    {
      "epoch": 0.19583333333333333,
      "grad_norm": 0.8397074341773987,
      "learning_rate": 0.0002734044849003275,
      "loss": 4.0513,
      "step": 94000
    },
    {
      "epoch": 0.19583333333333333,
      "eval_loss": 4.285913944244385,
      "eval_runtime": 10.0018,
      "eval_samples_per_second": 1.0,
      "eval_steps_per_second": 0.3,
      "step": 94000
    },
    {
      "epoch": 0.19585416666666666,
      "grad_norm": 0.7428603768348694,
      "learning_rate": 0.0002733988802354547,
      "loss": 4.0798,
      "step": 94010
    },
    {
      "epoch": 0.195875,
      "grad_norm": 0.7495461702346802,
      "learning_rate": 0.0002733932750375476,
      "loss": 4.0043,
      "step": 94020
    },
    {
      "epoch": 0.19589583333333332,
      "grad_norm": 0.7680255770683289,
      "learning_rate": 0.00027338766930663045,
      "loss": 3.7617,
      "step": 94030
    },
    {
      "epoch": 0.19591666666666666,
      "grad_norm": 0.7712447047233582,
      "learning_rate": 0.00027338206304272736,
      "loss": 4.0918,
      "step": 94040
    },
    {
      "epoch": 0.1959375,
      "grad_norm": 0.800653338432312,
      "learning_rate": 0.00027337645624586263,
      "loss": 3.9981,
      "step": 94050
    },
    {
      "epoch": 0.19595833333333335,
      "grad_norm": 0.676794171333313,
      "learning_rate": 0.0002733708489160604,
      "loss": 3.9644,
      "step": 94060
    },
    {
      "epoch": 0.19597916666666668,
      "grad_norm": 0.6784111261367798,
      "learning_rate": 0.00027336524105334495,
      "loss": 3.9767,
      "step": 94070
    },
    {
      "epoch": 0.196,
      "grad_norm": 0.8128810524940491,
      "learning_rate": 0.0002733596326577405,
      "loss": 3.9617,
      "step": 94080
    },
    {
      "epoch": 0.19602083333333334,
      "grad_norm": 0.8545257449150085,
      "learning_rate": 0.0002733540237292713,
      "loss": 3.8829,
      "step": 94090
    },
    {
      "epoch": 0.19604166666666667,
      "grad_norm": 0.7146647572517395,
      "learning_rate": 0.0002733484142679615,
      "loss": 3.9225,
      "step": 94100
    },
    {
      "epoch": 0.1960625,
      "grad_norm": 0.849390983581543,
      "learning_rate": 0.00027334280427383534,
      "loss": 4.0716,
      "step": 94110
    },
    {
      "epoch": 0.19608333333333333,
      "grad_norm": 0.7027696967124939,
      "learning_rate": 0.0002733371937469172,
      "loss": 3.9006,
      "step": 94120
    },
    {
      "epoch": 0.19610416666666666,
      "grad_norm": 0.7660244107246399,
      "learning_rate": 0.00027333158268723107,
      "loss": 3.7835,
      "step": 94130
    },
    {
      "epoch": 0.196125,
      "grad_norm": 0.8189563751220703,
      "learning_rate": 0.0002733259710948014,
      "loss": 3.8866,
      "step": 94140
    },
    {
      "epoch": 0.19614583333333332,
      "grad_norm": 0.7408201694488525,
      "learning_rate": 0.00027332035896965236,
      "loss": 3.8726,
      "step": 94150
    },
    {
      "epoch": 0.19616666666666666,
      "grad_norm": 0.809445321559906,
      "learning_rate": 0.0002733147463118081,
      "loss": 3.9916,
      "step": 94160
    },
    {
      "epoch": 0.1961875,
      "grad_norm": 0.7544098496437073,
      "learning_rate": 0.000273309133121293,
      "loss": 4.0405,
      "step": 94170
    },
    {
      "epoch": 0.19620833333333335,
      "grad_norm": 0.7298381924629211,
      "learning_rate": 0.0002733035193981313,
      "loss": 4.0829,
      "step": 94180
    },
    {
      "epoch": 0.19622916666666668,
      "grad_norm": 0.8632772564888,
      "learning_rate": 0.0002732979051423472,
      "loss": 3.992,
      "step": 94190
    },
    {
      "epoch": 0.19625,
      "grad_norm": 0.7655407786369324,
      "learning_rate": 0.0002732922903539649,
      "loss": 4.0246,
      "step": 94200
    },
    {
      "epoch": 0.19627083333333334,
      "grad_norm": 0.7302138209342957,
      "learning_rate": 0.00027328667503300874,
      "loss": 3.9714,
      "step": 94210
    },
    {
      "epoch": 0.19629166666666667,
      "grad_norm": 0.8145546317100525,
      "learning_rate": 0.0002732810591795029,
      "loss": 3.9614,
      "step": 94220
    },
    {
      "epoch": 0.1963125,
      "grad_norm": 0.710543155670166,
      "learning_rate": 0.0002732754427934717,
      "loss": 3.9526,
      "step": 94230
    },
    {
      "epoch": 0.19633333333333333,
      "grad_norm": 0.7220954298973083,
      "learning_rate": 0.00027326982587493943,
      "loss": 3.8375,
      "step": 94240
    },
    {
      "epoch": 0.19635416666666666,
      "grad_norm": 0.8978043794631958,
      "learning_rate": 0.00027326420842393025,
      "loss": 4.0095,
      "step": 94250
    },
    {
      "epoch": 0.196375,
      "grad_norm": 0.7745317220687866,
      "learning_rate": 0.0002732585904404685,
      "loss": 3.8199,
      "step": 94260
    },
    {
      "epoch": 0.19639583333333333,
      "grad_norm": 0.6638867855072021,
      "learning_rate": 0.00027325297192457845,
      "loss": 3.8557,
      "step": 94270
    },
    {
      "epoch": 0.19641666666666666,
      "grad_norm": 0.765419602394104,
      "learning_rate": 0.0002732473528762843,
      "loss": 4.1052,
      "step": 94280
    },
    {
      "epoch": 0.1964375,
      "grad_norm": 0.7885999083518982,
      "learning_rate": 0.00027324173329561045,
      "loss": 3.761,
      "step": 94290
    },
    {
      "epoch": 0.19645833333333335,
      "grad_norm": 0.7087690234184265,
      "learning_rate": 0.000273236113182581,
      "loss": 3.9428,
      "step": 94300
    },
    {
      "epoch": 0.19647916666666668,
      "grad_norm": 0.773313581943512,
      "learning_rate": 0.0002732304925372204,
      "loss": 3.9819,
      "step": 94310
    },
    {
      "epoch": 0.1965,
      "grad_norm": 0.8233387470245361,
      "learning_rate": 0.0002732248713595528,
      "loss": 4.0071,
      "step": 94320
    },
    {
      "epoch": 0.19652083333333334,
      "grad_norm": 0.8832021355628967,
      "learning_rate": 0.00027321924964960253,
      "loss": 3.7911,
      "step": 94330
    },
    {
      "epoch": 0.19654166666666667,
      "grad_norm": 0.8114696145057678,
      "learning_rate": 0.0002732136274073939,
      "loss": 4.1259,
      "step": 94340
    },
    {
      "epoch": 0.1965625,
      "grad_norm": 0.7254542112350464,
      "learning_rate": 0.0002732080046329512,
      "loss": 3.9026,
      "step": 94350
    },
    {
      "epoch": 0.19658333333333333,
      "grad_norm": 0.812205970287323,
      "learning_rate": 0.0002732023813262986,
      "loss": 3.7488,
      "step": 94360
    },
    {
      "epoch": 0.19660416666666666,
      "grad_norm": 0.8565831780433655,
      "learning_rate": 0.0002731967574874606,
      "loss": 3.8708,
      "step": 94370
    },
    {
      "epoch": 0.196625,
      "grad_norm": 0.7425814867019653,
      "learning_rate": 0.00027319113311646126,
      "loss": 3.959,
      "step": 94380
    },
    {
      "epoch": 0.19664583333333333,
      "grad_norm": 0.9900192022323608,
      "learning_rate": 0.00027318550821332506,
      "loss": 4.0643,
      "step": 94390
    },
    {
      "epoch": 0.19666666666666666,
      "grad_norm": 0.832787275314331,
      "learning_rate": 0.00027317988277807614,
      "loss": 3.9747,
      "step": 94400
    },
    {
      "epoch": 0.1966875,
      "grad_norm": 0.9632630944252014,
      "learning_rate": 0.00027317425681073896,
      "loss": 4.1129,
      "step": 94410
    },
    {
      "epoch": 0.19670833333333335,
      "grad_norm": 0.7998073101043701,
      "learning_rate": 0.00027316863031133775,
      "loss": 3.9019,
      "step": 94420
    },
    {
      "epoch": 0.19672916666666668,
      "grad_norm": 0.7998934388160706,
      "learning_rate": 0.0002731630032798968,
      "loss": 4.076,
      "step": 94430
    },
    {
      "epoch": 0.19675,
      "grad_norm": 0.8293442726135254,
      "learning_rate": 0.0002731573757164404,
      "loss": 3.924,
      "step": 94440
    },
    {
      "epoch": 0.19677083333333334,
      "grad_norm": 0.7782034277915955,
      "learning_rate": 0.0002731517476209929,
      "loss": 3.8855,
      "step": 94450
    },
    {
      "epoch": 0.19679166666666667,
      "grad_norm": 0.7438388466835022,
      "learning_rate": 0.00027314611899357854,
      "loss": 3.9089,
      "step": 94460
    },
    {
      "epoch": 0.1968125,
      "grad_norm": 0.768671989440918,
      "learning_rate": 0.0002731404898342218,
      "loss": 3.9499,
      "step": 94470
    },
    {
      "epoch": 0.19683333333333333,
      "grad_norm": 0.7243049740791321,
      "learning_rate": 0.00027313486014294685,
      "loss": 3.9702,
      "step": 94480
    },
    {
      "epoch": 0.19685416666666666,
      "grad_norm": 0.8078787922859192,
      "learning_rate": 0.00027312922991977803,
      "loss": 3.8232,
      "step": 94490
    },
    {
      "epoch": 0.196875,
      "grad_norm": 0.8151666522026062,
      "learning_rate": 0.00027312359916473964,
      "loss": 4.1178,
      "step": 94500
    },
    {
      "epoch": 0.19689583333333333,
      "grad_norm": 0.7245591282844543,
      "learning_rate": 0.00027311796787785606,
      "loss": 3.8415,
      "step": 94510
    },
    {
      "epoch": 0.19691666666666666,
      "grad_norm": 0.7509301900863647,
      "learning_rate": 0.00027311233605915164,
      "loss": 3.7977,
      "step": 94520
    },
    {
      "epoch": 0.1969375,
      "grad_norm": 0.7546054124832153,
      "learning_rate": 0.0002731067037086506,
      "loss": 3.7631,
      "step": 94530
    },
    {
      "epoch": 0.19695833333333335,
      "grad_norm": 0.8203265070915222,
      "learning_rate": 0.00027310107082637736,
      "loss": 3.8932,
      "step": 94540
    },
    {
      "epoch": 0.19697916666666668,
      "grad_norm": 0.6537691354751587,
      "learning_rate": 0.00027309543741235623,
      "loss": 3.957,
      "step": 94550
    },
    {
      "epoch": 0.197,
      "grad_norm": 0.7701115608215332,
      "learning_rate": 0.0002730898034666115,
      "loss": 3.8988,
      "step": 94560
    },
    {
      "epoch": 0.19702083333333334,
      "grad_norm": 0.7552040815353394,
      "learning_rate": 0.00027308416898916754,
      "loss": 3.9089,
      "step": 94570
    },
    {
      "epoch": 0.19704166666666667,
      "grad_norm": 0.8950221538543701,
      "learning_rate": 0.0002730785339800487,
      "loss": 3.8939,
      "step": 94580
    },
    {
      "epoch": 0.1970625,
      "grad_norm": 0.6725966334342957,
      "learning_rate": 0.0002730728984392793,
      "loss": 3.8281,
      "step": 94590
    },
    {
      "epoch": 0.19708333333333333,
      "grad_norm": 0.7390570044517517,
      "learning_rate": 0.00027306726236688375,
      "loss": 3.8458,
      "step": 94600
    },
    {
      "epoch": 0.19710416666666666,
      "grad_norm": 0.9460276365280151,
      "learning_rate": 0.00027306162576288634,
      "loss": 4.0306,
      "step": 94610
    },
    {
      "epoch": 0.197125,
      "grad_norm": 0.7983285784721375,
      "learning_rate": 0.0002730559886273114,
      "loss": 4.0208,
      "step": 94620
    },
    {
      "epoch": 0.19714583333333333,
      "grad_norm": 0.7989623546600342,
      "learning_rate": 0.0002730503509601833,
      "loss": 4.0132,
      "step": 94630
    },
    {
      "epoch": 0.19716666666666666,
      "grad_norm": 0.8446179032325745,
      "learning_rate": 0.0002730447127615263,
      "loss": 3.8906,
      "step": 94640
    },
    {
      "epoch": 0.1971875,
      "grad_norm": 0.7612013220787048,
      "learning_rate": 0.0002730390740313649,
      "loss": 3.9187,
      "step": 94650
    },
    {
      "epoch": 0.19720833333333335,
      "grad_norm": 0.6686002612113953,
      "learning_rate": 0.0002730334347697235,
      "loss": 3.9897,
      "step": 94660
    },
    {
      "epoch": 0.19722916666666668,
      "grad_norm": 0.8132466077804565,
      "learning_rate": 0.0002730277949766262,
      "loss": 3.9706,
      "step": 94670
    },
    {
      "epoch": 0.19725,
      "grad_norm": 0.8219506144523621,
      "learning_rate": 0.00027302215465209765,
      "loss": 3.9559,
      "step": 94680
    },
    {
      "epoch": 0.19727083333333334,
      "grad_norm": 0.8895891308784485,
      "learning_rate": 0.00027301651379616203,
      "loss": 4.0325,
      "step": 94690
    },
    {
      "epoch": 0.19729166666666667,
      "grad_norm": 0.7913607358932495,
      "learning_rate": 0.0002730108724088438,
      "loss": 3.904,
      "step": 94700
    },
    {
      "epoch": 0.1973125,
      "grad_norm": 0.9104297757148743,
      "learning_rate": 0.00027300523049016726,
      "loss": 4.0778,
      "step": 94710
    },
    {
      "epoch": 0.19733333333333333,
      "grad_norm": 0.754450798034668,
      "learning_rate": 0.0002729995880401568,
      "loss": 3.9666,
      "step": 94720
    },
    {
      "epoch": 0.19735416666666666,
      "grad_norm": 0.646834671497345,
      "learning_rate": 0.0002729939450588368,
      "loss": 3.836,
      "step": 94730
    },
    {
      "epoch": 0.197375,
      "grad_norm": 0.7612391114234924,
      "learning_rate": 0.00027298830154623167,
      "loss": 3.8928,
      "step": 94740
    },
    {
      "epoch": 0.19739583333333333,
      "grad_norm": 0.8547986745834351,
      "learning_rate": 0.00027298265750236577,
      "loss": 3.9103,
      "step": 94750
    },
    {
      "epoch": 0.19741666666666666,
      "grad_norm": 0.8213331699371338,
      "learning_rate": 0.00027297701292726347,
      "loss": 4.0028,
      "step": 94760
    },
    {
      "epoch": 0.1974375,
      "grad_norm": 0.7758845090866089,
      "learning_rate": 0.00027297136782094915,
      "loss": 3.8489,
      "step": 94770
    },
    {
      "epoch": 0.19745833333333335,
      "grad_norm": 0.7645173668861389,
      "learning_rate": 0.00027296572218344717,
      "loss": 3.8653,
      "step": 94780
    },
    {
      "epoch": 0.19747916666666668,
      "grad_norm": 0.8325846195220947,
      "learning_rate": 0.00027296007601478197,
      "loss": 3.8926,
      "step": 94790
    },
    {
      "epoch": 0.1975,
      "grad_norm": 0.7507449388504028,
      "learning_rate": 0.0002729544293149779,
      "loss": 3.8006,
      "step": 94800
    },
    {
      "epoch": 0.19752083333333334,
      "grad_norm": 0.8223894238471985,
      "learning_rate": 0.00027294878208405937,
      "loss": 4.062,
      "step": 94810
    },
    {
      "epoch": 0.19754166666666667,
      "grad_norm": 0.6670302152633667,
      "learning_rate": 0.0002729431343220507,
      "loss": 3.9239,
      "step": 94820
    },
    {
      "epoch": 0.1975625,
      "grad_norm": 0.7052832841873169,
      "learning_rate": 0.00027293748602897646,
      "loss": 3.8612,
      "step": 94830
    },
    {
      "epoch": 0.19758333333333333,
      "grad_norm": 0.8444905281066895,
      "learning_rate": 0.00027293183720486096,
      "loss": 4.0202,
      "step": 94840
    },
    {
      "epoch": 0.19760416666666666,
      "grad_norm": 0.8753871321678162,
      "learning_rate": 0.0002729261878497285,
      "loss": 3.9907,
      "step": 94850
    },
    {
      "epoch": 0.197625,
      "grad_norm": 0.7703127264976501,
      "learning_rate": 0.0002729205379636036,
      "loss": 3.9846,
      "step": 94860
    },
    {
      "epoch": 0.19764583333333333,
      "grad_norm": 0.710654079914093,
      "learning_rate": 0.0002729148875465106,
      "loss": 3.8334,
      "step": 94870
    },
    {
      "epoch": 0.19766666666666666,
      "grad_norm": 0.792307436466217,
      "learning_rate": 0.00027290923659847394,
      "loss": 4.1345,
      "step": 94880
    },
    {
      "epoch": 0.1976875,
      "grad_norm": 0.8061255812644958,
      "learning_rate": 0.00027290358511951806,
      "loss": 3.9624,
      "step": 94890
    },
    {
      "epoch": 0.19770833333333335,
      "grad_norm": 0.736041247844696,
      "learning_rate": 0.0002728979331096673,
      "loss": 3.932,
      "step": 94900
    },
    {
      "epoch": 0.19772916666666668,
      "grad_norm": 0.7914325594902039,
      "learning_rate": 0.00027289228056894617,
      "loss": 3.9747,
      "step": 94910
    },
    {
      "epoch": 0.19775,
      "grad_norm": 0.7332755327224731,
      "learning_rate": 0.000272886627497379,
      "loss": 3.917,
      "step": 94920
    },
    {
      "epoch": 0.19777083333333334,
      "grad_norm": 0.7542585730552673,
      "learning_rate": 0.00027288097389499024,
      "loss": 4.1028,
      "step": 94930
    },
    {
      "epoch": 0.19779166666666667,
      "grad_norm": 0.750957727432251,
      "learning_rate": 0.00027287531976180433,
      "loss": 3.8554,
      "step": 94940
    },
    {
      "epoch": 0.1978125,
      "grad_norm": 0.8525398969650269,
      "learning_rate": 0.00027286966509784563,
      "loss": 4.1059,
      "step": 94950
    },
    {
      "epoch": 0.19783333333333333,
      "grad_norm": 0.7257283926010132,
      "learning_rate": 0.0002728640099031387,
      "loss": 3.8929,
      "step": 94960
    },
    {
      "epoch": 0.19785416666666666,
      "grad_norm": 0.7192295789718628,
      "learning_rate": 0.00027285835417770784,
      "loss": 3.7907,
      "step": 94970
    },
    {
      "epoch": 0.197875,
      "grad_norm": 0.7817862629890442,
      "learning_rate": 0.0002728526979215775,
      "loss": 4.0013,
      "step": 94980
    },
    {
      "epoch": 0.19789583333333333,
      "grad_norm": 0.7521064281463623,
      "learning_rate": 0.00027284704113477213,
      "loss": 3.9138,
      "step": 94990
    },
    {
      "epoch": 0.19791666666666666,
      "grad_norm": 0.8898777365684509,
      "learning_rate": 0.00027284138381731616,
      "loss": 3.9277,
      "step": 95000
    },
    {
      "epoch": 0.19791666666666666,
      "eval_loss": 4.271115779876709,
      "eval_runtime": 10.2343,
      "eval_samples_per_second": 0.977,
      "eval_steps_per_second": 0.293,
      "step": 95000
    },
    {
      "epoch": 0.1979375,
      "grad_norm": 0.6711692810058594,
      "learning_rate": 0.0002728357259692341,
      "loss": 3.9482,
      "step": 95010
    },
    {
      "epoch": 0.19795833333333332,
      "grad_norm": 0.7672122120857239,
      "learning_rate": 0.00027283006759055024,
      "loss": 3.939,
      "step": 95020
    },
    {
      "epoch": 0.19797916666666668,
      "grad_norm": 0.7526044249534607,
      "learning_rate": 0.00027282440868128913,
      "loss": 3.9021,
      "step": 95030
    },
    {
      "epoch": 0.198,
      "grad_norm": 0.7613542675971985,
      "learning_rate": 0.0002728187492414752,
      "loss": 4.023,
      "step": 95040
    },
    {
      "epoch": 0.19802083333333334,
      "grad_norm": 0.8219260573387146,
      "learning_rate": 0.00027281308927113297,
      "loss": 3.8358,
      "step": 95050
    },
    {
      "epoch": 0.19804166666666667,
      "grad_norm": 0.7035009264945984,
      "learning_rate": 0.0002728074287702867,
      "loss": 4.0996,
      "step": 95060
    },
    {
      "epoch": 0.1980625,
      "grad_norm": 0.7991828918457031,
      "learning_rate": 0.000272801767738961,
      "loss": 3.8931,
      "step": 95070
    },
    {
      "epoch": 0.19808333333333333,
      "grad_norm": 0.8352935910224915,
      "learning_rate": 0.0002727961061771803,
      "loss": 3.913,
      "step": 95080
    },
    {
      "epoch": 0.19810416666666666,
      "grad_norm": 0.6879733800888062,
      "learning_rate": 0.00027279044408496896,
      "loss": 3.7716,
      "step": 95090
    },
    {
      "epoch": 0.198125,
      "grad_norm": 0.7977094054222107,
      "learning_rate": 0.0002727847814623515,
      "loss": 3.9439,
      "step": 95100
    },
    {
      "epoch": 0.19814583333333333,
      "grad_norm": 0.8713047504425049,
      "learning_rate": 0.0002727791183093524,
      "loss": 3.7435,
      "step": 95110
    },
    {
      "epoch": 0.19816666666666666,
      "grad_norm": 0.8096645474433899,
      "learning_rate": 0.00027277345462599616,
      "loss": 4.0533,
      "step": 95120
    },
    {
      "epoch": 0.1981875,
      "grad_norm": 0.7325319051742554,
      "learning_rate": 0.00027276779041230715,
      "loss": 3.9595,
      "step": 95130
    },
    {
      "epoch": 0.19820833333333332,
      "grad_norm": 1.015947937965393,
      "learning_rate": 0.00027276212566830987,
      "loss": 3.9971,
      "step": 95140
    },
    {
      "epoch": 0.19822916666666668,
      "grad_norm": 0.9872867465019226,
      "learning_rate": 0.0002727564603940288,
      "loss": 3.9777,
      "step": 95150
    },
    {
      "epoch": 0.19825,
      "grad_norm": 0.6348692774772644,
      "learning_rate": 0.00027275079458948843,
      "loss": 4.1258,
      "step": 95160
    },
    {
      "epoch": 0.19827083333333334,
      "grad_norm": 0.7497531771659851,
      "learning_rate": 0.00027274512825471324,
      "loss": 4.0081,
      "step": 95170
    },
    {
      "epoch": 0.19829166666666667,
      "grad_norm": 0.7661571502685547,
      "learning_rate": 0.00027273946138972767,
      "loss": 3.8591,
      "step": 95180
    },
    {
      "epoch": 0.1983125,
      "grad_norm": 0.7939054369926453,
      "learning_rate": 0.0002727337939945562,
      "loss": 4.1012,
      "step": 95190
    },
    {
      "epoch": 0.19833333333333333,
      "grad_norm": 0.7353616952896118,
      "learning_rate": 0.0002727281260692233,
      "loss": 3.8836,
      "step": 95200
    },
    {
      "epoch": 0.19835416666666666,
      "grad_norm": 0.7423490881919861,
      "learning_rate": 0.0002727224576137535,
      "loss": 3.9224,
      "step": 95210
    },
    {
      "epoch": 0.198375,
      "grad_norm": 0.7997414469718933,
      "learning_rate": 0.0002727167886281713,
      "loss": 3.9208,
      "step": 95220
    },
    {
      "epoch": 0.19839583333333333,
      "grad_norm": 0.7954651713371277,
      "learning_rate": 0.00027271111911250103,
      "loss": 3.927,
      "step": 95230
    },
    {
      "epoch": 0.19841666666666666,
      "grad_norm": 0.710033118724823,
      "learning_rate": 0.00027270544906676737,
      "loss": 4.0043,
      "step": 95240
    },
    {
      "epoch": 0.1984375,
      "grad_norm": 0.8082271814346313,
      "learning_rate": 0.00027269977849099476,
      "loss": 3.9193,
      "step": 95250
    },
    {
      "epoch": 0.19845833333333332,
      "grad_norm": 0.8078631162643433,
      "learning_rate": 0.0002726941073852077,
      "loss": 3.7871,
      "step": 95260
    },
    {
      "epoch": 0.19847916666666668,
      "grad_norm": 0.7675504684448242,
      "learning_rate": 0.00027268843574943056,
      "loss": 3.993,
      "step": 95270
    },
    {
      "epoch": 0.1985,
      "grad_norm": 0.8192450404167175,
      "learning_rate": 0.00027268276358368804,
      "loss": 3.921,
      "step": 95280
    },
    {
      "epoch": 0.19852083333333334,
      "grad_norm": 0.7936809062957764,
      "learning_rate": 0.00027267709088800446,
      "loss": 3.9812,
      "step": 95290
    },
    {
      "epoch": 0.19854166666666667,
      "grad_norm": 0.8804940581321716,
      "learning_rate": 0.00027267141766240444,
      "loss": 3.8316,
      "step": 95300
    },
    {
      "epoch": 0.1985625,
      "grad_norm": 1.021031379699707,
      "learning_rate": 0.0002726657439069125,
      "loss": 3.9863,
      "step": 95310
    },
    {
      "epoch": 0.19858333333333333,
      "grad_norm": 0.9963385462760925,
      "learning_rate": 0.000272660069621553,
      "loss": 3.9901,
      "step": 95320
    },
    {
      "epoch": 0.19860416666666666,
      "grad_norm": 0.8169689774513245,
      "learning_rate": 0.00027265439480635064,
      "loss": 3.9198,
      "step": 95330
    },
    {
      "epoch": 0.198625,
      "grad_norm": 0.7887220978736877,
      "learning_rate": 0.00027264871946132977,
      "loss": 3.9599,
      "step": 95340
    },
    {
      "epoch": 0.19864583333333333,
      "grad_norm": 0.755453884601593,
      "learning_rate": 0.000272643043586515,
      "loss": 3.893,
      "step": 95350
    },
    {
      "epoch": 0.19866666666666666,
      "grad_norm": 0.8351927399635315,
      "learning_rate": 0.0002726373671819309,
      "loss": 4.0355,
      "step": 95360
    },
    {
      "epoch": 0.1986875,
      "grad_norm": 0.870010495185852,
      "learning_rate": 0.00027263169024760187,
      "loss": 3.9091,
      "step": 95370
    },
    {
      "epoch": 0.19870833333333332,
      "grad_norm": 0.8379443883895874,
      "learning_rate": 0.00027262601278355247,
      "loss": 3.94,
      "step": 95380
    },
    {
      "epoch": 0.19872916666666668,
      "grad_norm": 0.7221532464027405,
      "learning_rate": 0.00027262033478980726,
      "loss": 3.9911,
      "step": 95390
    },
    {
      "epoch": 0.19875,
      "grad_norm": 0.7765875458717346,
      "learning_rate": 0.0002726146562663907,
      "loss": 3.8333,
      "step": 95400
    },
    {
      "epoch": 0.19877083333333334,
      "grad_norm": 0.8983017802238464,
      "learning_rate": 0.0002726089772133274,
      "loss": 3.9037,
      "step": 95410
    },
    {
      "epoch": 0.19879166666666667,
      "grad_norm": 0.6565699577331543,
      "learning_rate": 0.0002726032976306418,
      "loss": 3.8885,
      "step": 95420
    },
    {
      "epoch": 0.1988125,
      "grad_norm": 0.870557963848114,
      "learning_rate": 0.0002725976175183585,
      "loss": 3.9318,
      "step": 95430
    },
    {
      "epoch": 0.19883333333333333,
      "grad_norm": 0.6848026514053345,
      "learning_rate": 0.00027259193687650203,
      "loss": 3.8416,
      "step": 95440
    },
    {
      "epoch": 0.19885416666666667,
      "grad_norm": 0.7527801990509033,
      "learning_rate": 0.0002725862557050969,
      "loss": 4.0907,
      "step": 95450
    },
    {
      "epoch": 0.198875,
      "grad_norm": 0.8276255130767822,
      "learning_rate": 0.00027258057400416773,
      "loss": 3.762,
      "step": 95460
    },
    {
      "epoch": 0.19889583333333333,
      "grad_norm": 0.9026311635971069,
      "learning_rate": 0.000272574891773739,
      "loss": 3.8851,
      "step": 95470
    },
    {
      "epoch": 0.19891666666666666,
      "grad_norm": 0.7340048551559448,
      "learning_rate": 0.0002725692090138352,
      "loss": 3.9971,
      "step": 95480
    },
    {
      "epoch": 0.1989375,
      "grad_norm": 0.8014360070228577,
      "learning_rate": 0.00027256352572448096,
      "loss": 4.0204,
      "step": 95490
    },
    {
      "epoch": 0.19895833333333332,
      "grad_norm": 0.8241854310035706,
      "learning_rate": 0.0002725578419057008,
      "loss": 3.9715,
      "step": 95500
    },
    {
      "epoch": 0.19897916666666668,
      "grad_norm": 0.7955034375190735,
      "learning_rate": 0.00027255215755751924,
      "loss": 3.8963,
      "step": 95510
    },
    {
      "epoch": 0.199,
      "grad_norm": 0.774272620677948,
      "learning_rate": 0.0002725464726799609,
      "loss": 4.0039,
      "step": 95520
    },
    {
      "epoch": 0.19902083333333334,
      "grad_norm": 0.8428143858909607,
      "learning_rate": 0.0002725407872730503,
      "loss": 3.8393,
      "step": 95530
    },
    {
      "epoch": 0.19904166666666667,
      "grad_norm": 0.7368664741516113,
      "learning_rate": 0.000272535101336812,
      "loss": 3.8077,
      "step": 95540
    },
    {
      "epoch": 0.1990625,
      "grad_norm": 0.7432920336723328,
      "learning_rate": 0.00027252941487127056,
      "loss": 4.0228,
      "step": 95550
    },
    {
      "epoch": 0.19908333333333333,
      "grad_norm": 0.720112144947052,
      "learning_rate": 0.0002725237278764506,
      "loss": 4.065,
      "step": 95560
    },
    {
      "epoch": 0.19910416666666667,
      "grad_norm": 0.7293336391448975,
      "learning_rate": 0.0002725180403523766,
      "loss": 3.8378,
      "step": 95570
    },
    {
      "epoch": 0.199125,
      "grad_norm": 0.7541269063949585,
      "learning_rate": 0.00027251235229907314,
      "loss": 3.9803,
      "step": 95580
    },
    {
      "epoch": 0.19914583333333333,
      "grad_norm": 0.7519063353538513,
      "learning_rate": 0.00027250666371656483,
      "loss": 4.0744,
      "step": 95590
    },
    {
      "epoch": 0.19916666666666666,
      "grad_norm": 0.74894779920578,
      "learning_rate": 0.0002725009746048762,
      "loss": 3.7719,
      "step": 95600
    },
    {
      "epoch": 0.1991875,
      "grad_norm": 0.7593650221824646,
      "learning_rate": 0.0002724952849640319,
      "loss": 3.811,
      "step": 95610
    },
    {
      "epoch": 0.19920833333333332,
      "grad_norm": 0.7517598867416382,
      "learning_rate": 0.0002724895947940564,
      "loss": 4.1314,
      "step": 95620
    },
    {
      "epoch": 0.19922916666666668,
      "grad_norm": 0.7260909080505371,
      "learning_rate": 0.00027248390409497435,
      "loss": 3.9499,
      "step": 95630
    },
    {
      "epoch": 0.19925,
      "grad_norm": 0.7088784575462341,
      "learning_rate": 0.0002724782128668103,
      "loss": 4.0847,
      "step": 95640
    },
    {
      "epoch": 0.19927083333333334,
      "grad_norm": 0.8258644938468933,
      "learning_rate": 0.0002724725211095889,
      "loss": 4.0237,
      "step": 95650
    },
    {
      "epoch": 0.19929166666666667,
      "grad_norm": 0.6923059821128845,
      "learning_rate": 0.0002724668288233347,
      "loss": 3.8894,
      "step": 95660
    },
    {
      "epoch": 0.1993125,
      "grad_norm": 0.8046190142631531,
      "learning_rate": 0.0002724611360080722,
      "loss": 3.92,
      "step": 95670
    },
    {
      "epoch": 0.19933333333333333,
      "grad_norm": 0.7987192273139954,
      "learning_rate": 0.0002724554426638261,
      "loss": 4.0126,
      "step": 95680
    },
    {
      "epoch": 0.19935416666666667,
      "grad_norm": 0.6852538585662842,
      "learning_rate": 0.000272449748790621,
      "loss": 3.8898,
      "step": 95690
    },
    {
      "epoch": 0.199375,
      "grad_norm": 0.7531848549842834,
      "learning_rate": 0.0002724440543884814,
      "loss": 3.9476,
      "step": 95700
    },
    {
      "epoch": 0.19939583333333333,
      "grad_norm": 0.8573852181434631,
      "learning_rate": 0.00027243835945743204,
      "loss": 3.9328,
      "step": 95710
    },
    {
      "epoch": 0.19941666666666666,
      "grad_norm": 0.8567180633544922,
      "learning_rate": 0.0002724326639974973,
      "loss": 3.803,
      "step": 95720
    },
    {
      "epoch": 0.1994375,
      "grad_norm": 0.7971590161323547,
      "learning_rate": 0.000272426968008702,
      "loss": 3.9547,
      "step": 95730
    },
    {
      "epoch": 0.19945833333333332,
      "grad_norm": 0.673969030380249,
      "learning_rate": 0.00027242127149107063,
      "loss": 3.8689,
      "step": 95740
    },
    {
      "epoch": 0.19947916666666668,
      "grad_norm": 0.7227053642272949,
      "learning_rate": 0.00027241557444462785,
      "loss": 3.9238,
      "step": 95750
    },
    {
      "epoch": 0.1995,
      "grad_norm": 0.8365728855133057,
      "learning_rate": 0.0002724098768693982,
      "loss": 3.8884,
      "step": 95760
    },
    {
      "epoch": 0.19952083333333334,
      "grad_norm": 0.7833431363105774,
      "learning_rate": 0.00027240417876540636,
      "loss": 4.0479,
      "step": 95770
    },
    {
      "epoch": 0.19954166666666667,
      "grad_norm": 0.7857282757759094,
      "learning_rate": 0.0002723984801326769,
      "loss": 4.031,
      "step": 95780
    },
    {
      "epoch": 0.1995625,
      "grad_norm": 0.7180692553520203,
      "learning_rate": 0.0002723927809712345,
      "loss": 3.7832,
      "step": 95790
    },
    {
      "epoch": 0.19958333333333333,
      "grad_norm": 0.7568239569664001,
      "learning_rate": 0.0002723870812811037,
      "loss": 4.0191,
      "step": 95800
    },
    {
      "epoch": 0.19960416666666667,
      "grad_norm": 1.0466986894607544,
      "learning_rate": 0.00027238138106230913,
      "loss": 4.0187,
      "step": 95810
    },
    {
      "epoch": 0.199625,
      "grad_norm": 0.7847929000854492,
      "learning_rate": 0.0002723756803148755,
      "loss": 3.9603,
      "step": 95820
    },
    {
      "epoch": 0.19964583333333333,
      "grad_norm": 0.6816434860229492,
      "learning_rate": 0.00027236997903882734,
      "loss": 3.8365,
      "step": 95830
    },
    {
      "epoch": 0.19966666666666666,
      "grad_norm": 0.7795352935791016,
      "learning_rate": 0.0002723642772341893,
      "loss": 3.8474,
      "step": 95840
    },
    {
      "epoch": 0.1996875,
      "grad_norm": 0.9082037806510925,
      "learning_rate": 0.000272358574900986,
      "loss": 3.9114,
      "step": 95850
    },
    {
      "epoch": 0.19970833333333332,
      "grad_norm": 0.786378800868988,
      "learning_rate": 0.0002723528720392421,
      "loss": 3.8308,
      "step": 95860
    },
    {
      "epoch": 0.19972916666666668,
      "grad_norm": 0.7490182518959045,
      "learning_rate": 0.00027234716864898224,
      "loss": 4.0144,
      "step": 95870
    },
    {
      "epoch": 0.19975,
      "grad_norm": 0.8036988377571106,
      "learning_rate": 0.000272341464730231,
      "loss": 3.8668,
      "step": 95880
    },
    {
      "epoch": 0.19977083333333334,
      "grad_norm": 0.9833376407623291,
      "learning_rate": 0.00027233576028301316,
      "loss": 3.8897,
      "step": 95890
    },
    {
      "epoch": 0.19979166666666667,
      "grad_norm": 0.8045269846916199,
      "learning_rate": 0.00027233005530735314,
      "loss": 3.8997,
      "step": 95900
    },
    {
      "epoch": 0.1998125,
      "grad_norm": 0.7489220499992371,
      "learning_rate": 0.00027232434980327576,
      "loss": 3.9744,
      "step": 95910
    },
    {
      "epoch": 0.19983333333333334,
      "grad_norm": 0.7048522233963013,
      "learning_rate": 0.0002723186437708056,
      "loss": 3.8358,
      "step": 95920
    },
    {
      "epoch": 0.19985416666666667,
      "grad_norm": 0.779782235622406,
      "learning_rate": 0.0002723129372099673,
      "loss": 3.8097,
      "step": 95930
    },
    {
      "epoch": 0.199875,
      "grad_norm": 1.021405577659607,
      "learning_rate": 0.00027230723012078555,
      "loss": 4.2053,
      "step": 95940
    },
    {
      "epoch": 0.19989583333333333,
      "grad_norm": 0.9189375638961792,
      "learning_rate": 0.000272301522503285,
      "loss": 3.9751,
      "step": 95950
    },
    {
      "epoch": 0.19991666666666666,
      "grad_norm": 0.8550997376441956,
      "learning_rate": 0.0002722958143574902,
      "loss": 3.9191,
      "step": 95960
    },
    {
      "epoch": 0.1999375,
      "grad_norm": 1.0112518072128296,
      "learning_rate": 0.000272290105683426,
      "loss": 3.9383,
      "step": 95970
    },
    {
      "epoch": 0.19995833333333332,
      "grad_norm": 0.9111433625221252,
      "learning_rate": 0.0002722843964811169,
      "loss": 3.868,
      "step": 95980
    },
    {
      "epoch": 0.19997916666666668,
      "grad_norm": 0.9547604918479919,
      "learning_rate": 0.00027227868675058764,
      "loss": 3.9079,
      "step": 95990
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7119100689888,
      "learning_rate": 0.00027227297649186274,
      "loss": 3.8974,
      "step": 96000
    },
    {
      "epoch": 0.2,
      "eval_loss": 4.269207000732422,
      "eval_runtime": 9.6444,
      "eval_samples_per_second": 1.037,
      "eval_steps_per_second": 0.311,
      "step": 96000
    },
    {
      "epoch": 0.20002083333333334,
      "grad_norm": 0.6749746799468994,
      "learning_rate": 0.0002722672657049671,
      "loss": 3.9385,
      "step": 96010
    },
    {
      "epoch": 0.20004166666666667,
      "grad_norm": 0.720657467842102,
      "learning_rate": 0.00027226155438992523,
      "loss": 3.8762,
      "step": 96020
    },
    {
      "epoch": 0.2000625,
      "grad_norm": 0.8139712810516357,
      "learning_rate": 0.00027225584254676185,
      "loss": 3.9956,
      "step": 96030
    },
    {
      "epoch": 0.20008333333333334,
      "grad_norm": 0.7231793403625488,
      "learning_rate": 0.0002722501301755016,
      "loss": 4.0713,
      "step": 96040
    },
    {
      "epoch": 0.20010416666666667,
      "grad_norm": 0.7793995141983032,
      "learning_rate": 0.0002722444172761692,
      "loss": 3.9339,
      "step": 96050
    },
    {
      "epoch": 0.200125,
      "grad_norm": 0.7356772422790527,
      "learning_rate": 0.00027223870384878926,
      "loss": 3.9066,
      "step": 96060
    },
    {
      "epoch": 0.20014583333333333,
      "grad_norm": 0.8260016441345215,
      "learning_rate": 0.0002722329898933865,
      "loss": 3.8784,
      "step": 96070
    },
    {
      "epoch": 0.20016666666666666,
      "grad_norm": 0.8359085321426392,
      "learning_rate": 0.0002722272754099857,
      "loss": 3.9533,
      "step": 96080
    },
    {
      "epoch": 0.2001875,
      "grad_norm": 0.7122097015380859,
      "learning_rate": 0.00027222156039861137,
      "loss": 3.9402,
      "step": 96090
    },
    {
      "epoch": 0.20020833333333332,
      "grad_norm": 0.833626925945282,
      "learning_rate": 0.00027221584485928835,
      "loss": 3.8526,
      "step": 96100
    },
    {
      "epoch": 0.20022916666666668,
      "grad_norm": 0.7518821954727173,
      "learning_rate": 0.0002722101287920412,
      "loss": 3.9381,
      "step": 96110
    },
    {
      "epoch": 0.20025,
      "grad_norm": 0.9906911253929138,
      "learning_rate": 0.00027220441219689463,
      "loss": 3.767,
      "step": 96120
    },
    {
      "epoch": 0.20027083333333334,
      "grad_norm": 0.7922478318214417,
      "learning_rate": 0.00027219869507387343,
      "loss": 3.9935,
      "step": 96130
    },
    {
      "epoch": 0.20029166666666667,
      "grad_norm": 0.8802465200424194,
      "learning_rate": 0.0002721929774230023,
      "loss": 3.999,
      "step": 96140
    },
    {
      "epoch": 0.2003125,
      "grad_norm": 0.753786563873291,
      "learning_rate": 0.0002721872592443057,
      "loss": 4.1773,
      "step": 96150
    },
    {
      "epoch": 0.20033333333333334,
      "grad_norm": 0.8047367334365845,
      "learning_rate": 0.00027218154053780866,
      "loss": 4.2498,
      "step": 96160
    },
    {
      "epoch": 0.20035416666666667,
      "grad_norm": 0.8207294940948486,
      "learning_rate": 0.00027217582130353564,
      "loss": 3.88,
      "step": 96170
    },
    {
      "epoch": 0.200375,
      "grad_norm": 0.8483783006668091,
      "learning_rate": 0.0002721701015415115,
      "loss": 3.913,
      "step": 96180
    },
    {
      "epoch": 0.20039583333333333,
      "grad_norm": 0.7812147736549377,
      "learning_rate": 0.0002721643812517608,
      "loss": 3.9171,
      "step": 96190
    },
    {
      "epoch": 0.20041666666666666,
      "grad_norm": 0.8235172033309937,
      "learning_rate": 0.0002721586604343084,
      "loss": 3.8888,
      "step": 96200
    },
    {
      "epoch": 0.2004375,
      "grad_norm": 0.8635163307189941,
      "learning_rate": 0.00027215293908917893,
      "loss": 3.7856,
      "step": 96210
    },
    {
      "epoch": 0.20045833333333332,
      "grad_norm": 0.7315236330032349,
      "learning_rate": 0.0002721472172163971,
      "loss": 3.9348,
      "step": 96220
    },
    {
      "epoch": 0.20047916666666668,
      "grad_norm": 0.7713849544525146,
      "learning_rate": 0.00027214149481598766,
      "loss": 3.911,
      "step": 96230
    },
    {
      "epoch": 0.2005,
      "grad_norm": 1.029566764831543,
      "learning_rate": 0.00027213577188797526,
      "loss": 3.933,
      "step": 96240
    },
    {
      "epoch": 0.20052083333333334,
      "grad_norm": 0.823090136051178,
      "learning_rate": 0.00027213004843238466,
      "loss": 4.0918,
      "step": 96250
    },
    {
      "epoch": 0.20054166666666667,
      "grad_norm": 0.7355145215988159,
      "learning_rate": 0.0002721243244492407,
      "loss": 3.841,
      "step": 96260
    },
    {
      "epoch": 0.2005625,
      "grad_norm": 0.7411622405052185,
      "learning_rate": 0.0002721185999385679,
      "loss": 3.9687,
      "step": 96270
    },
    {
      "epoch": 0.20058333333333334,
      "grad_norm": 0.770967960357666,
      "learning_rate": 0.00027211287490039115,
      "loss": 3.9921,
      "step": 96280
    },
    {
      "epoch": 0.20060416666666667,
      "grad_norm": 0.9157595634460449,
      "learning_rate": 0.00027210714933473506,
      "loss": 3.8543,
      "step": 96290
    },
    {
      "epoch": 0.200625,
      "grad_norm": 0.6340699791908264,
      "learning_rate": 0.0002721014232416245,
      "loss": 3.8014,
      "step": 96300
    },
    {
      "epoch": 0.20064583333333333,
      "grad_norm": 0.6797040104866028,
      "learning_rate": 0.00027209569662108404,
      "loss": 4.053,
      "step": 96310
    },
    {
      "epoch": 0.20066666666666666,
      "grad_norm": 0.8827582597732544,
      "learning_rate": 0.0002720899694731385,
      "loss": 3.9321,
      "step": 96320
    },
    {
      "epoch": 0.2006875,
      "grad_norm": 0.7410936951637268,
      "learning_rate": 0.00027208424179781264,
      "loss": 3.9641,
      "step": 96330
    },
    {
      "epoch": 0.20070833333333332,
      "grad_norm": 0.8671683669090271,
      "learning_rate": 0.0002720785135951312,
      "loss": 4.1283,
      "step": 96340
    },
    {
      "epoch": 0.20072916666666665,
      "grad_norm": 0.7476646900177002,
      "learning_rate": 0.00027207278486511885,
      "loss": 3.9762,
      "step": 96350
    },
    {
      "epoch": 0.20075,
      "grad_norm": 0.8110746741294861,
      "learning_rate": 0.00027206705560780045,
      "loss": 3.8652,
      "step": 96360
    },
    {
      "epoch": 0.20077083333333334,
      "grad_norm": 0.6852514743804932,
      "learning_rate": 0.0002720613258232007,
      "loss": 3.9914,
      "step": 96370
    },
    {
      "epoch": 0.20079166666666667,
      "grad_norm": 0.7378655076026917,
      "learning_rate": 0.0002720555955113443,
      "loss": 3.6811,
      "step": 96380
    },
    {
      "epoch": 0.2008125,
      "grad_norm": 0.7923538684844971,
      "learning_rate": 0.00027204986467225595,
      "loss": 3.9536,
      "step": 96390
    },
    {
      "epoch": 0.20083333333333334,
      "grad_norm": 0.7589314579963684,
      "learning_rate": 0.0002720441333059606,
      "loss": 3.7608,
      "step": 96400
    },
    {
      "epoch": 0.20085416666666667,
      "grad_norm": 0.7855508923530579,
      "learning_rate": 0.00027203840141248295,
      "loss": 3.9692,
      "step": 96410
    },
    {
      "epoch": 0.200875,
      "grad_norm": 0.8308335542678833,
      "learning_rate": 0.0002720326689918476,
      "loss": 3.7541,
      "step": 96420
    },
    {
      "epoch": 0.20089583333333333,
      "grad_norm": 0.8538427352905273,
      "learning_rate": 0.0002720269360440795,
      "loss": 4.0497,
      "step": 96430
    },
    {
      "epoch": 0.20091666666666666,
      "grad_norm": 0.7276864647865295,
      "learning_rate": 0.00027202120256920333,
      "loss": 4.0087,
      "step": 96440
    },
    {
      "epoch": 0.2009375,
      "grad_norm": 0.8275144100189209,
      "learning_rate": 0.00027201546856724383,
      "loss": 4.0622,
      "step": 96450
    },
    {
      "epoch": 0.20095833333333332,
      "grad_norm": 0.7370452284812927,
      "learning_rate": 0.00027200973403822585,
      "loss": 3.8801,
      "step": 96460
    },
    {
      "epoch": 0.20097916666666665,
      "grad_norm": 0.8280041217803955,
      "learning_rate": 0.00027200399898217405,
      "loss": 3.8309,
      "step": 96470
    },
    {
      "epoch": 0.201,
      "grad_norm": 0.8614276051521301,
      "learning_rate": 0.0002719982633991133,
      "loss": 4.0389,
      "step": 96480
    },
    {
      "epoch": 0.20102083333333334,
      "grad_norm": 0.7267210483551025,
      "learning_rate": 0.00027199252728906835,
      "loss": 3.9185,
      "step": 96490
    },
    {
      "epoch": 0.20104166666666667,
      "grad_norm": 0.7094448804855347,
      "learning_rate": 0.00027198679065206394,
      "loss": 3.9929,
      "step": 96500
    },
    {
      "epoch": 0.2010625,
      "grad_norm": 0.9102069735527039,
      "learning_rate": 0.0002719810534881249,
      "loss": 3.9923,
      "step": 96510
    },
    {
      "epoch": 0.20108333333333334,
      "grad_norm": 0.9140005111694336,
      "learning_rate": 0.000271975315797276,
      "loss": 3.861,
      "step": 96520
    },
    {
      "epoch": 0.20110416666666667,
      "grad_norm": 0.7833912372589111,
      "learning_rate": 0.0002719695775795421,
      "loss": 3.8002,
      "step": 96530
    },
    {
      "epoch": 0.201125,
      "grad_norm": 0.8272594809532166,
      "learning_rate": 0.00027196383883494775,
      "loss": 3.9008,
      "step": 96540
    },
    {
      "epoch": 0.20114583333333333,
      "grad_norm": 0.747657835483551,
      "learning_rate": 0.00027195809956351795,
      "loss": 3.9202,
      "step": 96550
    },
    {
      "epoch": 0.20116666666666666,
      "grad_norm": 0.8718542456626892,
      "learning_rate": 0.00027195235976527747,
      "loss": 3.9105,
      "step": 96560
    },
    {
      "epoch": 0.2011875,
      "grad_norm": 1.0046499967575073,
      "learning_rate": 0.000271946619440251,
      "loss": 4.0026,
      "step": 96570
    },
    {
      "epoch": 0.20120833333333332,
      "grad_norm": 0.7794237732887268,
      "learning_rate": 0.00027194087858846346,
      "loss": 3.9915,
      "step": 96580
    },
    {
      "epoch": 0.20122916666666665,
      "grad_norm": 0.8747658133506775,
      "learning_rate": 0.0002719351372099396,
      "loss": 3.881,
      "step": 96590
    },
    {
      "epoch": 0.20125,
      "grad_norm": 0.7785527110099792,
      "learning_rate": 0.0002719293953047042,
      "loss": 3.9765,
      "step": 96600
    },
    {
      "epoch": 0.20127083333333334,
      "grad_norm": 0.7424585223197937,
      "learning_rate": 0.0002719236528727821,
      "loss": 4.0881,
      "step": 96610
    },
    {
      "epoch": 0.20129166666666667,
      "grad_norm": 0.6733518838882446,
      "learning_rate": 0.00027191790991419796,
      "loss": 3.9841,
      "step": 96620
    },
    {
      "epoch": 0.2013125,
      "grad_norm": 0.8110787272453308,
      "learning_rate": 0.0002719121664289768,
      "loss": 4.0031,
      "step": 96630
    },
    {
      "epoch": 0.20133333333333334,
      "grad_norm": 0.7581105828285217,
      "learning_rate": 0.00027190642241714335,
      "loss": 3.7786,
      "step": 96640
    },
    {
      "epoch": 0.20135416666666667,
      "grad_norm": 0.6881938576698303,
      "learning_rate": 0.0002719006778787224,
      "loss": 3.8073,
      "step": 96650
    },
    {
      "epoch": 0.201375,
      "grad_norm": 0.8405342102050781,
      "learning_rate": 0.00027189493281373875,
      "loss": 4.0126,
      "step": 96660
    },
    {
      "epoch": 0.20139583333333333,
      "grad_norm": 0.7996871471405029,
      "learning_rate": 0.00027188918722221726,
      "loss": 4.0282,
      "step": 96670
    },
    {
      "epoch": 0.20141666666666666,
      "grad_norm": 0.7815754413604736,
      "learning_rate": 0.0002718834411041827,
      "loss": 3.8003,
      "step": 96680
    },
    {
      "epoch": 0.2014375,
      "grad_norm": 0.6517860889434814,
      "learning_rate": 0.00027187769445966,
      "loss": 4.0772,
      "step": 96690
    },
    {
      "epoch": 0.20145833333333332,
      "grad_norm": 0.870891273021698,
      "learning_rate": 0.0002718719472886738,
      "loss": 3.9419,
      "step": 96700
    },
    {
      "epoch": 0.20147916666666665,
      "grad_norm": 0.7152897715568542,
      "learning_rate": 0.000271866199591249,
      "loss": 3.9181,
      "step": 96710
    },
    {
      "epoch": 0.2015,
      "grad_norm": 0.688261866569519,
      "learning_rate": 0.0002718604513674106,
      "loss": 4.1037,
      "step": 96720
    },
    {
      "epoch": 0.20152083333333334,
      "grad_norm": 0.8328794240951538,
      "learning_rate": 0.0002718547026171832,
      "loss": 3.7863,
      "step": 96730
    },
    {
      "epoch": 0.20154166666666667,
      "grad_norm": 0.7212241291999817,
      "learning_rate": 0.00027184895334059173,
      "loss": 3.7936,
      "step": 96740
    },
    {
      "epoch": 0.2015625,
      "grad_norm": 0.8041657209396362,
      "learning_rate": 0.00027184320353766103,
      "loss": 3.9702,
      "step": 96750
    },
    {
      "epoch": 0.20158333333333334,
      "grad_norm": 0.7761883735656738,
      "learning_rate": 0.00027183745320841587,
      "loss": 3.8841,
      "step": 96760
    },
    {
      "epoch": 0.20160416666666667,
      "grad_norm": 0.7630966901779175,
      "learning_rate": 0.0002718317023528812,
      "loss": 3.988,
      "step": 96770
    },
    {
      "epoch": 0.201625,
      "grad_norm": 1.0216387510299683,
      "learning_rate": 0.00027182595097108173,
      "loss": 4.0325,
      "step": 96780
    },
    {
      "epoch": 0.20164583333333333,
      "grad_norm": 0.7563979029655457,
      "learning_rate": 0.00027182019906304245,
      "loss": 4.0333,
      "step": 96790
    },
    {
      "epoch": 0.20166666666666666,
      "grad_norm": 0.7872804403305054,
      "learning_rate": 0.00027181444662878804,
      "loss": 4.1554,
      "step": 96800
    },
    {
      "epoch": 0.2016875,
      "grad_norm": 0.732183039188385,
      "learning_rate": 0.00027180869366834353,
      "loss": 3.8076,
      "step": 96810
    },
    {
      "epoch": 0.20170833333333332,
      "grad_norm": 0.8412035703659058,
      "learning_rate": 0.00027180294018173365,
      "loss": 3.9898,
      "step": 96820
    },
    {
      "epoch": 0.20172916666666665,
      "grad_norm": 0.6848443746566772,
      "learning_rate": 0.0002717971861689833,
      "loss": 3.939,
      "step": 96830
    },
    {
      "epoch": 0.20175,
      "grad_norm": 0.7595687508583069,
      "learning_rate": 0.0002717914316301173,
      "loss": 3.9462,
      "step": 96840
    },
    {
      "epoch": 0.20177083333333334,
      "grad_norm": 0.7698736190795898,
      "learning_rate": 0.0002717856765651605,
      "loss": 3.8503,
      "step": 96850
    },
    {
      "epoch": 0.20179166666666667,
      "grad_norm": 0.7094859480857849,
      "learning_rate": 0.00027177992097413776,
      "loss": 3.8999,
      "step": 96860
    },
    {
      "epoch": 0.2018125,
      "grad_norm": 0.7424104809761047,
      "learning_rate": 0.000271774164857074,
      "loss": 3.9178,
      "step": 96870
    },
    {
      "epoch": 0.20183333333333334,
      "grad_norm": 0.8056774139404297,
      "learning_rate": 0.00027176840821399405,
      "loss": 4.1371,
      "step": 96880
    },
    {
      "epoch": 0.20185416666666667,
      "grad_norm": 0.9054586291313171,
      "learning_rate": 0.00027176265104492277,
      "loss": 3.8927,
      "step": 96890
    },
    {
      "epoch": 0.201875,
      "grad_norm": 0.730076014995575,
      "learning_rate": 0.00027175689334988507,
      "loss": 3.9444,
      "step": 96900
    },
    {
      "epoch": 0.20189583333333333,
      "grad_norm": 0.7134878635406494,
      "learning_rate": 0.00027175113512890577,
      "loss": 3.8593,
      "step": 96910
    },
    {
      "epoch": 0.20191666666666666,
      "grad_norm": 0.8196001648902893,
      "learning_rate": 0.0002717453763820097,
      "loss": 3.8333,
      "step": 96920
    },
    {
      "epoch": 0.2019375,
      "grad_norm": 0.7250441312789917,
      "learning_rate": 0.00027173961710922186,
      "loss": 3.9355,
      "step": 96930
    },
    {
      "epoch": 0.20195833333333332,
      "grad_norm": 0.7996559143066406,
      "learning_rate": 0.00027173385731056707,
      "loss": 3.8722,
      "step": 96940
    },
    {
      "epoch": 0.20197916666666665,
      "grad_norm": 0.8824446797370911,
      "learning_rate": 0.0002717280969860701,
      "loss": 3.962,
      "step": 96950
    },
    {
      "epoch": 0.202,
      "grad_norm": 0.7890738844871521,
      "learning_rate": 0.00027172233613575607,
      "loss": 4.0854,
      "step": 96960
    },
    {
      "epoch": 0.20202083333333334,
      "grad_norm": 0.7400267720222473,
      "learning_rate": 0.0002717165747596496,
      "loss": 3.7425,
      "step": 96970
    },
    {
      "epoch": 0.20204166666666667,
      "grad_norm": 0.6946665048599243,
      "learning_rate": 0.0002717108128577758,
      "loss": 3.8352,
      "step": 96980
    },
    {
      "epoch": 0.2020625,
      "grad_norm": 0.7933791279792786,
      "learning_rate": 0.00027170505043015947,
      "loss": 3.8984,
      "step": 96990
    },
    {
      "epoch": 0.20208333333333334,
      "grad_norm": 0.9109715819358826,
      "learning_rate": 0.0002716992874768254,
      "loss": 3.8104,
      "step": 97000
    },
    {
      "epoch": 0.20208333333333334,
      "eval_loss": 4.2821455001831055,
      "eval_runtime": 10.2029,
      "eval_samples_per_second": 0.98,
      "eval_steps_per_second": 0.294,
      "step": 97000
    },
    {
      "epoch": 0.20210416666666667,
      "grad_norm": 0.7184386849403381,
      "learning_rate": 0.00027169352399779865,
      "loss": 4.0512,
      "step": 97010
    },
    {
      "epoch": 0.202125,
      "grad_norm": 0.7090054154396057,
      "learning_rate": 0.00027168775999310404,
      "loss": 3.9147,
      "step": 97020
    },
    {
      "epoch": 0.20214583333333333,
      "grad_norm": 0.8819112777709961,
      "learning_rate": 0.00027168199546276654,
      "loss": 3.8482,
      "step": 97030
    },
    {
      "epoch": 0.20216666666666666,
      "grad_norm": 0.77251797914505,
      "learning_rate": 0.0002716762304068109,
      "loss": 3.8541,
      "step": 97040
    },
    {
      "epoch": 0.2021875,
      "grad_norm": 0.8518852591514587,
      "learning_rate": 0.0002716704648252621,
      "loss": 3.8788,
      "step": 97050
    },
    {
      "epoch": 0.20220833333333332,
      "grad_norm": 0.8591873645782471,
      "learning_rate": 0.0002716646987181451,
      "loss": 4.0258,
      "step": 97060
    },
    {
      "epoch": 0.20222916666666665,
      "grad_norm": 0.7187579870223999,
      "learning_rate": 0.00027165893208548473,
      "loss": 3.966,
      "step": 97070
    },
    {
      "epoch": 0.20225,
      "grad_norm": 0.8849664926528931,
      "learning_rate": 0.0002716531649273059,
      "loss": 3.8622,
      "step": 97080
    },
    {
      "epoch": 0.20227083333333334,
      "grad_norm": 0.7190258502960205,
      "learning_rate": 0.00027164739724363363,
      "loss": 4.0013,
      "step": 97090
    },
    {
      "epoch": 0.20229166666666668,
      "grad_norm": 0.7888973355293274,
      "learning_rate": 0.0002716416290344927,
      "loss": 3.9044,
      "step": 97100
    },
    {
      "epoch": 0.2023125,
      "grad_norm": 0.7764570713043213,
      "learning_rate": 0.00027163586029990813,
      "loss": 3.9109,
      "step": 97110
    },
    {
      "epoch": 0.20233333333333334,
      "grad_norm": 0.7124319672584534,
      "learning_rate": 0.0002716300910399047,
      "loss": 4.1086,
      "step": 97120
    },
    {
      "epoch": 0.20235416666666667,
      "grad_norm": 0.7800642251968384,
      "learning_rate": 0.0002716243212545075,
      "loss": 3.9384,
      "step": 97130
    },
    {
      "epoch": 0.202375,
      "grad_norm": 0.8160101175308228,
      "learning_rate": 0.00027161855094374137,
      "loss": 3.9939,
      "step": 97140
    },
    {
      "epoch": 0.20239583333333333,
      "grad_norm": 1.286986231803894,
      "learning_rate": 0.00027161278010763123,
      "loss": 3.8122,
      "step": 97150
    },
    {
      "epoch": 0.20241666666666666,
      "grad_norm": 0.7640390992164612,
      "learning_rate": 0.000271607008746202,
      "loss": 4.0387,
      "step": 97160
    },
    {
      "epoch": 0.2024375,
      "grad_norm": 0.8173478245735168,
      "learning_rate": 0.0002716012368594786,
      "loss": 3.8864,
      "step": 97170
    },
    {
      "epoch": 0.20245833333333332,
      "grad_norm": 0.7355332374572754,
      "learning_rate": 0.0002715954644474861,
      "loss": 3.802,
      "step": 97180
    },
    {
      "epoch": 0.20247916666666665,
      "grad_norm": 0.7653236389160156,
      "learning_rate": 0.0002715896915102492,
      "loss": 4.0003,
      "step": 97190
    },
    {
      "epoch": 0.2025,
      "grad_norm": 0.6865783929824829,
      "learning_rate": 0.00027158391804779305,
      "loss": 3.8954,
      "step": 97200
    },
    {
      "epoch": 0.20252083333333334,
      "grad_norm": 0.7461762428283691,
      "learning_rate": 0.0002715781440601424,
      "loss": 4.2432,
      "step": 97210
    },
    {
      "epoch": 0.20254166666666668,
      "grad_norm": 0.7023046612739563,
      "learning_rate": 0.0002715723695473224,
      "loss": 3.8207,
      "step": 97220
    },
    {
      "epoch": 0.2025625,
      "grad_norm": 0.7209023833274841,
      "learning_rate": 0.0002715665945093578,
      "loss": 3.8024,
      "step": 97230
    },
    {
      "epoch": 0.20258333333333334,
      "grad_norm": 0.8072795867919922,
      "learning_rate": 0.0002715608189462737,
      "loss": 3.878,
      "step": 97240
    },
    {
      "epoch": 0.20260416666666667,
      "grad_norm": 0.7748768329620361,
      "learning_rate": 0.00027155504285809493,
      "loss": 3.911,
      "step": 97250
    },
    {
      "epoch": 0.202625,
      "grad_norm": 0.7613902688026428,
      "learning_rate": 0.00027154926624484653,
      "loss": 3.9138,
      "step": 97260
    },
    {
      "epoch": 0.20264583333333333,
      "grad_norm": 0.7492506504058838,
      "learning_rate": 0.0002715434891065534,
      "loss": 3.9109,
      "step": 97270
    },
    {
      "epoch": 0.20266666666666666,
      "grad_norm": 0.8183521032333374,
      "learning_rate": 0.0002715377114432405,
      "loss": 3.9155,
      "step": 97280
    },
    {
      "epoch": 0.2026875,
      "grad_norm": 0.6761447191238403,
      "learning_rate": 0.0002715319332549328,
      "loss": 4.003,
      "step": 97290
    },
    {
      "epoch": 0.20270833333333332,
      "grad_norm": 0.8284725546836853,
      "learning_rate": 0.0002715261545416552,
      "loss": 3.9522,
      "step": 97300
    },
    {
      "epoch": 0.20272916666666665,
      "grad_norm": 0.9588183760643005,
      "learning_rate": 0.0002715203753034328,
      "loss": 3.9287,
      "step": 97310
    },
    {
      "epoch": 0.20275,
      "grad_norm": 0.8293543457984924,
      "learning_rate": 0.0002715145955402904,
      "loss": 3.8949,
      "step": 97320
    },
    {
      "epoch": 0.20277083333333334,
      "grad_norm": 0.7811524868011475,
      "learning_rate": 0.00027150881525225313,
      "loss": 3.8441,
      "step": 97330
    },
    {
      "epoch": 0.20279166666666668,
      "grad_norm": 0.7419423460960388,
      "learning_rate": 0.00027150303443934583,
      "loss": 4.0126,
      "step": 97340
    },
    {
      "epoch": 0.2028125,
      "grad_norm": 0.854369044303894,
      "learning_rate": 0.0002714972531015935,
      "loss": 3.9634,
      "step": 97350
    },
    {
      "epoch": 0.20283333333333334,
      "grad_norm": 0.8469094634056091,
      "learning_rate": 0.0002714914712390212,
      "loss": 3.885,
      "step": 97360
    },
    {
      "epoch": 0.20285416666666667,
      "grad_norm": 0.8944759368896484,
      "learning_rate": 0.00027148568885165374,
      "loss": 4.0116,
      "step": 97370
    },
    {
      "epoch": 0.202875,
      "grad_norm": 0.7014848589897156,
      "learning_rate": 0.00027147990593951626,
      "loss": 3.9866,
      "step": 97380
    },
    {
      "epoch": 0.20289583333333333,
      "grad_norm": 0.8370168805122375,
      "learning_rate": 0.00027147412250263364,
      "loss": 4.0335,
      "step": 97390
    },
    {
      "epoch": 0.20291666666666666,
      "grad_norm": 0.7997311949729919,
      "learning_rate": 0.0002714683385410309,
      "loss": 3.9079,
      "step": 97400
    },
    {
      "epoch": 0.2029375,
      "grad_norm": 0.7653656601905823,
      "learning_rate": 0.000271462554054733,
      "loss": 3.9678,
      "step": 97410
    },
    {
      "epoch": 0.20295833333333332,
      "grad_norm": 0.6855714321136475,
      "learning_rate": 0.000271456769043765,
      "loss": 3.9143,
      "step": 97420
    },
    {
      "epoch": 0.20297916666666665,
      "grad_norm": 0.8820379376411438,
      "learning_rate": 0.0002714509835081518,
      "loss": 4.0403,
      "step": 97430
    },
    {
      "epoch": 0.203,
      "grad_norm": 0.7624015212059021,
      "learning_rate": 0.00027144519744791835,
      "loss": 3.965,
      "step": 97440
    },
    {
      "epoch": 0.20302083333333334,
      "grad_norm": 0.7017776966094971,
      "learning_rate": 0.0002714394108630898,
      "loss": 4.1915,
      "step": 97450
    },
    {
      "epoch": 0.20304166666666668,
      "grad_norm": 0.8316776156425476,
      "learning_rate": 0.000271433623753691,
      "loss": 3.9246,
      "step": 97460
    },
    {
      "epoch": 0.2030625,
      "grad_norm": 0.8129537105560303,
      "learning_rate": 0.00027142783611974714,
      "loss": 3.881,
      "step": 97470
    },
    {
      "epoch": 0.20308333333333334,
      "grad_norm": 0.7926350831985474,
      "learning_rate": 0.000271422047961283,
      "loss": 3.9325,
      "step": 97480
    },
    {
      "epoch": 0.20310416666666667,
      "grad_norm": 0.8074626922607422,
      "learning_rate": 0.0002714162592783237,
      "loss": 3.977,
      "step": 97490
    },
    {
      "epoch": 0.203125,
      "grad_norm": 0.8846316337585449,
      "learning_rate": 0.0002714104700708942,
      "loss": 3.8196,
      "step": 97500
    },
    {
      "epoch": 0.20314583333333333,
      "grad_norm": 0.6884284019470215,
      "learning_rate": 0.00027140468033901954,
      "loss": 3.9149,
      "step": 97510
    },
    {
      "epoch": 0.20316666666666666,
      "grad_norm": 0.7488963603973389,
      "learning_rate": 0.0002713988900827247,
      "loss": 3.8872,
      "step": 97520
    },
    {
      "epoch": 0.2031875,
      "grad_norm": 0.6959220767021179,
      "learning_rate": 0.00027139309930203473,
      "loss": 3.9026,
      "step": 97530
    },
    {
      "epoch": 0.20320833333333332,
      "grad_norm": 0.8341795802116394,
      "learning_rate": 0.00027138730799697465,
      "loss": 4.0791,
      "step": 97540
    },
    {
      "epoch": 0.20322916666666666,
      "grad_norm": 0.8490181565284729,
      "learning_rate": 0.0002713815161675694,
      "loss": 4.0398,
      "step": 97550
    },
    {
      "epoch": 0.20325,
      "grad_norm": 0.6948962807655334,
      "learning_rate": 0.00027137572381384406,
      "loss": 3.8091,
      "step": 97560
    },
    {
      "epoch": 0.20327083333333335,
      "grad_norm": 0.709119439125061,
      "learning_rate": 0.00027136993093582364,
      "loss": 3.7727,
      "step": 97570
    },
    {
      "epoch": 0.20329166666666668,
      "grad_norm": 0.7375856637954712,
      "learning_rate": 0.00027136413753353313,
      "loss": 3.9572,
      "step": 97580
    },
    {
      "epoch": 0.2033125,
      "grad_norm": 0.7648619413375854,
      "learning_rate": 0.00027135834360699764,
      "loss": 3.9925,
      "step": 97590
    },
    {
      "epoch": 0.20333333333333334,
      "grad_norm": 0.7756049036979675,
      "learning_rate": 0.0002713525491562421,
      "loss": 3.93,
      "step": 97600
    },
    {
      "epoch": 0.20335416666666667,
      "grad_norm": 0.8068016767501831,
      "learning_rate": 0.0002713467541812916,
      "loss": 3.9425,
      "step": 97610
    },
    {
      "epoch": 0.203375,
      "grad_norm": 0.72282475233078,
      "learning_rate": 0.0002713409586821711,
      "loss": 3.8222,
      "step": 97620
    },
    {
      "epoch": 0.20339583333333333,
      "grad_norm": 0.7116051912307739,
      "learning_rate": 0.00027133516265890576,
      "loss": 3.9813,
      "step": 97630
    },
    {
      "epoch": 0.20341666666666666,
      "grad_norm": 0.8936026692390442,
      "learning_rate": 0.00027132936611152055,
      "loss": 3.8957,
      "step": 97640
    },
    {
      "epoch": 0.2034375,
      "grad_norm": 0.6795300841331482,
      "learning_rate": 0.0002713235690400405,
      "loss": 3.9239,
      "step": 97650
    },
    {
      "epoch": 0.20345833333333332,
      "grad_norm": 0.869817316532135,
      "learning_rate": 0.0002713177714444906,
      "loss": 4.0339,
      "step": 97660
    },
    {
      "epoch": 0.20347916666666666,
      "grad_norm": 0.6676619648933411,
      "learning_rate": 0.00027131197332489593,
      "loss": 3.8933,
      "step": 97670
    },
    {
      "epoch": 0.2035,
      "grad_norm": 0.7057666182518005,
      "learning_rate": 0.00027130617468128167,
      "loss": 4.0758,
      "step": 97680
    },
    {
      "epoch": 0.20352083333333335,
      "grad_norm": 0.7505435347557068,
      "learning_rate": 0.00027130037551367266,
      "loss": 4.0105,
      "step": 97690
    },
    {
      "epoch": 0.20354166666666668,
      "grad_norm": 0.7956533432006836,
      "learning_rate": 0.0002712945758220941,
      "loss": 3.8544,
      "step": 97700
    },
    {
      "epoch": 0.2035625,
      "grad_norm": 0.7448551058769226,
      "learning_rate": 0.00027128877560657095,
      "loss": 3.8635,
      "step": 97710
    },
    {
      "epoch": 0.20358333333333334,
      "grad_norm": 0.8416665196418762,
      "learning_rate": 0.0002712829748671283,
      "loss": 4.0299,
      "step": 97720
    },
    {
      "epoch": 0.20360416666666667,
      "grad_norm": 0.7655050158500671,
      "learning_rate": 0.00027127717360379117,
      "loss": 4.0655,
      "step": 97730
    },
    {
      "epoch": 0.203625,
      "grad_norm": 0.7575312852859497,
      "learning_rate": 0.0002712713718165847,
      "loss": 3.9177,
      "step": 97740
    },
    {
      "epoch": 0.20364583333333333,
      "grad_norm": 0.7807748317718506,
      "learning_rate": 0.0002712655695055339,
      "loss": 4.0441,
      "step": 97750
    },
    {
      "epoch": 0.20366666666666666,
      "grad_norm": 0.9041343927383423,
      "learning_rate": 0.00027125976667066384,
      "loss": 3.828,
      "step": 97760
    },
    {
      "epoch": 0.2036875,
      "grad_norm": 0.7137126922607422,
      "learning_rate": 0.0002712539633119996,
      "loss": 3.9601,
      "step": 97770
    },
    {
      "epoch": 0.20370833333333332,
      "grad_norm": 0.7491195797920227,
      "learning_rate": 0.0002712481594295662,
      "loss": 3.9191,
      "step": 97780
    },
    {
      "epoch": 0.20372916666666666,
      "grad_norm": 0.7567050457000732,
      "learning_rate": 0.00027124235502338877,
      "loss": 3.855,
      "step": 97790
    },
    {
      "epoch": 0.20375,
      "grad_norm": 0.8469628691673279,
      "learning_rate": 0.00027123655009349235,
      "loss": 3.9065,
      "step": 97800
    },
    {
      "epoch": 0.20377083333333335,
      "grad_norm": 0.8442763686180115,
      "learning_rate": 0.000271230744639902,
      "loss": 4.079,
      "step": 97810
    },
    {
      "epoch": 0.20379166666666668,
      "grad_norm": 0.7627809643745422,
      "learning_rate": 0.00027122493866264287,
      "loss": 4.0253,
      "step": 97820
    },
    {
      "epoch": 0.2038125,
      "grad_norm": 0.9450651407241821,
      "learning_rate": 0.00027121913216173995,
      "loss": 3.9751,
      "step": 97830
    },
    {
      "epoch": 0.20383333333333334,
      "grad_norm": 0.9559528231620789,
      "learning_rate": 0.0002712133251372184,
      "loss": 3.9703,
      "step": 97840
    },
    {
      "epoch": 0.20385416666666667,
      "grad_norm": 0.8710651397705078,
      "learning_rate": 0.00027120751758910323,
      "loss": 3.8856,
      "step": 97850
    },
    {
      "epoch": 0.203875,
      "grad_norm": 0.879367470741272,
      "learning_rate": 0.00027120170951741953,
      "loss": 3.9875,
      "step": 97860
    },
    {
      "epoch": 0.20389583333333333,
      "grad_norm": 0.8639014363288879,
      "learning_rate": 0.0002711959009221925,
      "loss": 3.8365,
      "step": 97870
    },
    {
      "epoch": 0.20391666666666666,
      "grad_norm": 0.8471252918243408,
      "learning_rate": 0.00027119009180344704,
      "loss": 3.9805,
      "step": 97880
    },
    {
      "epoch": 0.2039375,
      "grad_norm": 0.7566556334495544,
      "learning_rate": 0.00027118428216120846,
      "loss": 3.9799,
      "step": 97890
    },
    {
      "epoch": 0.20395833333333332,
      "grad_norm": 0.7058636546134949,
      "learning_rate": 0.0002711784719955017,
      "loss": 3.9915,
      "step": 97900
    },
    {
      "epoch": 0.20397916666666666,
      "grad_norm": 1.159803032875061,
      "learning_rate": 0.00027117266130635194,
      "loss": 3.8601,
      "step": 97910
    },
    {
      "epoch": 0.204,
      "grad_norm": 0.7626458406448364,
      "learning_rate": 0.00027116685009378425,
      "loss": 4.0315,
      "step": 97920
    },
    {
      "epoch": 0.20402083333333335,
      "grad_norm": 0.7354722619056702,
      "learning_rate": 0.00027116103835782366,
      "loss": 4.1317,
      "step": 97930
    },
    {
      "epoch": 0.20404166666666668,
      "grad_norm": 0.8794471025466919,
      "learning_rate": 0.00027115522609849537,
      "loss": 3.9106,
      "step": 97940
    },
    {
      "epoch": 0.2040625,
      "grad_norm": 0.7679542303085327,
      "learning_rate": 0.00027114941331582453,
      "loss": 3.8476,
      "step": 97950
    },
    {
      "epoch": 0.20408333333333334,
      "grad_norm": 0.7416098713874817,
      "learning_rate": 0.0002711436000098361,
      "loss": 3.8681,
      "step": 97960
    },
    {
      "epoch": 0.20410416666666667,
      "grad_norm": 0.8265259861946106,
      "learning_rate": 0.0002711377861805553,
      "loss": 3.7619,
      "step": 97970
    },
    {
      "epoch": 0.204125,
      "grad_norm": 0.7775449752807617,
      "learning_rate": 0.0002711319718280072,
      "loss": 4.1507,
      "step": 97980
    },
    {
      "epoch": 0.20414583333333333,
      "grad_norm": 0.666971743106842,
      "learning_rate": 0.00027112615695221696,
      "loss": 3.8885,
      "step": 97990
    },
    {
      "epoch": 0.20416666666666666,
      "grad_norm": 0.905532956123352,
      "learning_rate": 0.0002711203415532096,
      "loss": 3.9236,
      "step": 98000
    },
    {
      "epoch": 0.20416666666666666,
      "eval_loss": 4.271847724914551,
      "eval_runtime": 11.0625,
      "eval_samples_per_second": 0.904,
      "eval_steps_per_second": 0.271,
      "step": 98000
    },
    {
      "epoch": 0.2041875,
      "grad_norm": 0.7565674781799316,
      "learning_rate": 0.0002711145256310104,
      "loss": 3.8446,
      "step": 98010
    },
    {
      "epoch": 0.20420833333333333,
      "grad_norm": 0.8288971185684204,
      "learning_rate": 0.00027110870918564434,
      "loss": 4.0274,
      "step": 98020
    },
    {
      "epoch": 0.20422916666666666,
      "grad_norm": 0.7351484298706055,
      "learning_rate": 0.0002711028922171366,
      "loss": 3.998,
      "step": 98030
    },
    {
      "epoch": 0.20425,
      "grad_norm": 0.7573543787002563,
      "learning_rate": 0.0002710970747255123,
      "loss": 3.8923,
      "step": 98040
    },
    {
      "epoch": 0.20427083333333335,
      "grad_norm": 0.8019400238990784,
      "learning_rate": 0.0002710912567107965,
      "loss": 4.0546,
      "step": 98050
    },
    {
      "epoch": 0.20429166666666668,
      "grad_norm": 0.9333224892616272,
      "learning_rate": 0.00027108543817301454,
      "loss": 4.0017,
      "step": 98060
    },
    {
      "epoch": 0.2043125,
      "grad_norm": 0.8996326923370361,
      "learning_rate": 0.00027107961911219133,
      "loss": 4.1018,
      "step": 98070
    },
    {
      "epoch": 0.20433333333333334,
      "grad_norm": 0.9545336365699768,
      "learning_rate": 0.0002710737995283521,
      "loss": 3.9738,
      "step": 98080
    },
    {
      "epoch": 0.20435416666666667,
      "grad_norm": 0.7270487546920776,
      "learning_rate": 0.00027106797942152197,
      "loss": 3.9808,
      "step": 98090
    },
    {
      "epoch": 0.204375,
      "grad_norm": 0.7048183679580688,
      "learning_rate": 0.00027106215879172616,
      "loss": 4.1196,
      "step": 98100
    },
    {
      "epoch": 0.20439583333333333,
      "grad_norm": 0.7274428009986877,
      "learning_rate": 0.0002710563376389896,
      "loss": 3.9523,
      "step": 98110
    },
    {
      "epoch": 0.20441666666666666,
      "grad_norm": 0.8528040647506714,
      "learning_rate": 0.00027105051596333776,
      "loss": 4.0584,
      "step": 98120
    },
    {
      "epoch": 0.2044375,
      "grad_norm": 0.8082497715950012,
      "learning_rate": 0.00027104469376479546,
      "loss": 3.9875,
      "step": 98130
    },
    {
      "epoch": 0.20445833333333333,
      "grad_norm": 0.7904685735702515,
      "learning_rate": 0.0002710388710433881,
      "loss": 3.9763,
      "step": 98140
    },
    {
      "epoch": 0.20447916666666666,
      "grad_norm": 0.7936574220657349,
      "learning_rate": 0.0002710330477991407,
      "loss": 3.8748,
      "step": 98150
    },
    {
      "epoch": 0.2045,
      "grad_norm": 0.6941542029380798,
      "learning_rate": 0.0002710272240320784,
      "loss": 3.8785,
      "step": 98160
    },
    {
      "epoch": 0.20452083333333335,
      "grad_norm": 0.7061350345611572,
      "learning_rate": 0.00027102139974222644,
      "loss": 3.7852,
      "step": 98170
    },
    {
      "epoch": 0.20454166666666668,
      "grad_norm": 0.7819772362709045,
      "learning_rate": 0.0002710155749296099,
      "loss": 3.8965,
      "step": 98180
    },
    {
      "epoch": 0.2045625,
      "grad_norm": 0.762638509273529,
      "learning_rate": 0.00027100974959425397,
      "loss": 4.0542,
      "step": 98190
    },
    {
      "epoch": 0.20458333333333334,
      "grad_norm": 0.7688943147659302,
      "learning_rate": 0.00027100392373618387,
      "loss": 3.8433,
      "step": 98200
    },
    {
      "epoch": 0.20460416666666667,
      "grad_norm": 0.9404740929603577,
      "learning_rate": 0.00027099809735542466,
      "loss": 4.0874,
      "step": 98210
    },
    {
      "epoch": 0.204625,
      "grad_norm": 0.8107801079750061,
      "learning_rate": 0.0002709922704520016,
      "loss": 4.0638,
      "step": 98220
    },
    {
      "epoch": 0.20464583333333333,
      "grad_norm": 0.7169693112373352,
      "learning_rate": 0.00027098644302593985,
      "loss": 3.9551,
      "step": 98230
    },
    {
      "epoch": 0.20466666666666666,
      "grad_norm": 0.6465263962745667,
      "learning_rate": 0.00027098061507726455,
      "loss": 3.9921,
      "step": 98240
    },
    {
      "epoch": 0.2046875,
      "grad_norm": 0.7230799794197083,
      "learning_rate": 0.0002709747866060008,
      "loss": 4.0766,
      "step": 98250
    },
    {
      "epoch": 0.20470833333333333,
      "grad_norm": 0.8622190952301025,
      "learning_rate": 0.0002709689576121739,
      "loss": 4.0501,
      "step": 98260
    },
    {
      "epoch": 0.20472916666666666,
      "grad_norm": 0.6923192143440247,
      "learning_rate": 0.00027096312809580907,
      "loss": 3.9327,
      "step": 98270
    },
    {
      "epoch": 0.20475,
      "grad_norm": 0.8704793453216553,
      "learning_rate": 0.0002709572980569313,
      "loss": 3.9259,
      "step": 98280
    },
    {
      "epoch": 0.20477083333333335,
      "grad_norm": 0.8065400719642639,
      "learning_rate": 0.00027095146749556593,
      "loss": 4.0226,
      "step": 98290
    },
    {
      "epoch": 0.20479166666666668,
      "grad_norm": 0.7688430547714233,
      "learning_rate": 0.00027094563641173806,
      "loss": 3.9895,
      "step": 98300
    },
    {
      "epoch": 0.2048125,
      "grad_norm": 0.7918058633804321,
      "learning_rate": 0.00027093980480547296,
      "loss": 3.7162,
      "step": 98310
    },
    {
      "epoch": 0.20483333333333334,
      "grad_norm": 0.9288097620010376,
      "learning_rate": 0.00027093397267679577,
      "loss": 3.9202,
      "step": 98320
    },
    {
      "epoch": 0.20485416666666667,
      "grad_norm": 0.7767307162284851,
      "learning_rate": 0.00027092814002573166,
      "loss": 3.8106,
      "step": 98330
    },
    {
      "epoch": 0.204875,
      "grad_norm": 0.7230889201164246,
      "learning_rate": 0.00027092230685230587,
      "loss": 3.8489,
      "step": 98340
    },
    {
      "epoch": 0.20489583333333333,
      "grad_norm": 0.7469038963317871,
      "learning_rate": 0.0002709164731565436,
      "loss": 3.7774,
      "step": 98350
    },
    {
      "epoch": 0.20491666666666666,
      "grad_norm": 0.8063194155693054,
      "learning_rate": 0.00027091063893846997,
      "loss": 4.0771,
      "step": 98360
    },
    {
      "epoch": 0.2049375,
      "grad_norm": 0.7980257868766785,
      "learning_rate": 0.00027090480419811027,
      "loss": 3.7864,
      "step": 98370
    },
    {
      "epoch": 0.20495833333333333,
      "grad_norm": 0.8418265581130981,
      "learning_rate": 0.00027089896893548967,
      "loss": 3.8685,
      "step": 98380
    },
    {
      "epoch": 0.20497916666666666,
      "grad_norm": 0.8272743821144104,
      "learning_rate": 0.00027089313315063334,
      "loss": 3.8316,
      "step": 98390
    },
    {
      "epoch": 0.205,
      "grad_norm": 0.8037554621696472,
      "learning_rate": 0.0002708872968435666,
      "loss": 3.9302,
      "step": 98400
    },
    {
      "epoch": 0.20502083333333335,
      "grad_norm": 0.7613440155982971,
      "learning_rate": 0.00027088146001431456,
      "loss": 3.8078,
      "step": 98410
    },
    {
      "epoch": 0.20504166666666668,
      "grad_norm": 0.6807852387428284,
      "learning_rate": 0.0002708756226629025,
      "loss": 3.9171,
      "step": 98420
    },
    {
      "epoch": 0.2050625,
      "grad_norm": 0.8898691534996033,
      "learning_rate": 0.0002708697847893555,
      "loss": 3.9192,
      "step": 98430
    },
    {
      "epoch": 0.20508333333333334,
      "grad_norm": 1.0383068323135376,
      "learning_rate": 0.0002708639463936989,
      "loss": 4.13,
      "step": 98440
    },
    {
      "epoch": 0.20510416666666667,
      "grad_norm": 0.7596967220306396,
      "learning_rate": 0.00027085810747595794,
      "loss": 3.9496,
      "step": 98450
    },
    {
      "epoch": 0.205125,
      "grad_norm": 0.8368827700614929,
      "learning_rate": 0.0002708522680361578,
      "loss": 3.8706,
      "step": 98460
    },
    {
      "epoch": 0.20514583333333333,
      "grad_norm": 0.8472090363502502,
      "learning_rate": 0.00027084642807432364,
      "loss": 3.8723,
      "step": 98470
    },
    {
      "epoch": 0.20516666666666666,
      "grad_norm": 0.6975506544113159,
      "learning_rate": 0.0002708405875904808,
      "loss": 4.0444,
      "step": 98480
    },
    {
      "epoch": 0.2051875,
      "grad_norm": 0.7413138747215271,
      "learning_rate": 0.0002708347465846544,
      "loss": 3.8107,
      "step": 98490
    },
    {
      "epoch": 0.20520833333333333,
      "grad_norm": 0.8085603713989258,
      "learning_rate": 0.00027082890505686976,
      "loss": 3.8597,
      "step": 98500
    },
    {
      "epoch": 0.20522916666666666,
      "grad_norm": 0.7990094423294067,
      "learning_rate": 0.00027082306300715213,
      "loss": 3.9583,
      "step": 98510
    },
    {
      "epoch": 0.20525,
      "grad_norm": 0.815497636795044,
      "learning_rate": 0.0002708172204355266,
      "loss": 3.8412,
      "step": 98520
    },
    {
      "epoch": 0.20527083333333335,
      "grad_norm": 0.8414531350135803,
      "learning_rate": 0.0002708113773420185,
      "loss": 3.9133,
      "step": 98530
    },
    {
      "epoch": 0.20529166666666668,
      "grad_norm": 0.7307424545288086,
      "learning_rate": 0.00027080553372665314,
      "loss": 3.934,
      "step": 98540
    },
    {
      "epoch": 0.2053125,
      "grad_norm": 0.7242031097412109,
      "learning_rate": 0.00027079968958945564,
      "loss": 3.9665,
      "step": 98550
    },
    {
      "epoch": 0.20533333333333334,
      "grad_norm": 0.6844214797019958,
      "learning_rate": 0.00027079384493045136,
      "loss": 4.0102,
      "step": 98560
    },
    {
      "epoch": 0.20535416666666667,
      "grad_norm": 0.8357396721839905,
      "learning_rate": 0.0002707879997496654,
      "loss": 3.9911,
      "step": 98570
    },
    {
      "epoch": 0.205375,
      "grad_norm": 0.7856284976005554,
      "learning_rate": 0.00027078215404712316,
      "loss": 4.0185,
      "step": 98580
    },
    {
      "epoch": 0.20539583333333333,
      "grad_norm": 0.7562322616577148,
      "learning_rate": 0.00027077630782284975,
      "loss": 4.0263,
      "step": 98590
    },
    {
      "epoch": 0.20541666666666666,
      "grad_norm": 0.7089793086051941,
      "learning_rate": 0.00027077046107687057,
      "loss": 3.9613,
      "step": 98600
    },
    {
      "epoch": 0.2054375,
      "grad_norm": 0.7472154498100281,
      "learning_rate": 0.00027076461380921076,
      "loss": 3.9225,
      "step": 98610
    },
    {
      "epoch": 0.20545833333333333,
      "grad_norm": 0.7424056529998779,
      "learning_rate": 0.0002707587660198957,
      "loss": 3.9592,
      "step": 98620
    },
    {
      "epoch": 0.20547916666666666,
      "grad_norm": 0.8588979244232178,
      "learning_rate": 0.00027075291770895047,
      "loss": 4.0654,
      "step": 98630
    },
    {
      "epoch": 0.2055,
      "grad_norm": 0.8278164267539978,
      "learning_rate": 0.0002707470688764004,
      "loss": 3.868,
      "step": 98640
    },
    {
      "epoch": 0.20552083333333335,
      "grad_norm": 0.8227831125259399,
      "learning_rate": 0.00027074121952227093,
      "loss": 3.8261,
      "step": 98650
    },
    {
      "epoch": 0.20554166666666668,
      "grad_norm": 0.6942715644836426,
      "learning_rate": 0.00027073536964658713,
      "loss": 3.9182,
      "step": 98660
    },
    {
      "epoch": 0.2055625,
      "grad_norm": 0.7321028113365173,
      "learning_rate": 0.0002707295192493743,
      "loss": 3.8486,
      "step": 98670
    },
    {
      "epoch": 0.20558333333333334,
      "grad_norm": 0.7090244293212891,
      "learning_rate": 0.0002707236683306577,
      "loss": 3.9105,
      "step": 98680
    },
    {
      "epoch": 0.20560416666666667,
      "grad_norm": 0.7848743200302124,
      "learning_rate": 0.0002707178168904627,
      "loss": 3.7812,
      "step": 98690
    },
    {
      "epoch": 0.205625,
      "grad_norm": 0.6596819758415222,
      "learning_rate": 0.00027071196492881445,
      "loss": 3.9523,
      "step": 98700
    },
    {
      "epoch": 0.20564583333333333,
      "grad_norm": 0.7594568133354187,
      "learning_rate": 0.0002707061124457384,
      "loss": 4.0017,
      "step": 98710
    },
    {
      "epoch": 0.20566666666666666,
      "grad_norm": 0.7677954435348511,
      "learning_rate": 0.0002707002594412596,
      "loss": 4.0189,
      "step": 98720
    },
    {
      "epoch": 0.2056875,
      "grad_norm": 0.7099378108978271,
      "learning_rate": 0.00027069440591540354,
      "loss": 3.9764,
      "step": 98730
    },
    {
      "epoch": 0.20570833333333333,
      "grad_norm": 0.7382763028144836,
      "learning_rate": 0.0002706885518681954,
      "loss": 4.0356,
      "step": 98740
    },
    {
      "epoch": 0.20572916666666666,
      "grad_norm": 0.7353635430335999,
      "learning_rate": 0.00027068269729966046,
      "loss": 3.9533,
      "step": 98750
    },
    {
      "epoch": 0.20575,
      "grad_norm": 0.8146982192993164,
      "learning_rate": 0.00027067684220982404,
      "loss": 3.8992,
      "step": 98760
    },
    {
      "epoch": 0.20577083333333332,
      "grad_norm": 0.70722496509552,
      "learning_rate": 0.00027067098659871146,
      "loss": 3.9481,
      "step": 98770
    },
    {
      "epoch": 0.20579166666666668,
      "grad_norm": 0.7846710085868835,
      "learning_rate": 0.00027066513046634797,
      "loss": 3.9041,
      "step": 98780
    },
    {
      "epoch": 0.2058125,
      "grad_norm": 0.772275984287262,
      "learning_rate": 0.0002706592738127589,
      "loss": 3.8238,
      "step": 98790
    },
    {
      "epoch": 0.20583333333333334,
      "grad_norm": 0.7178471088409424,
      "learning_rate": 0.0002706534166379695,
      "loss": 4.0251,
      "step": 98800
    },
    {
      "epoch": 0.20585416666666667,
      "grad_norm": 0.6998826861381531,
      "learning_rate": 0.0002706475589420051,
      "loss": 4.0017,
      "step": 98810
    },
    {
      "epoch": 0.205875,
      "grad_norm": 0.7184035778045654,
      "learning_rate": 0.000270641700724891,
      "loss": 3.8719,
      "step": 98820
    },
    {
      "epoch": 0.20589583333333333,
      "grad_norm": 0.7043710350990295,
      "learning_rate": 0.0002706358419866525,
      "loss": 3.9978,
      "step": 98830
    },
    {
      "epoch": 0.20591666666666666,
      "grad_norm": 0.7312883734703064,
      "learning_rate": 0.00027062998272731493,
      "loss": 3.8651,
      "step": 98840
    },
    {
      "epoch": 0.2059375,
      "grad_norm": 0.7845483422279358,
      "learning_rate": 0.0002706241229469036,
      "loss": 4.0236,
      "step": 98850
    },
    {
      "epoch": 0.20595833333333333,
      "grad_norm": 0.838993489742279,
      "learning_rate": 0.0002706182626454438,
      "loss": 3.8165,
      "step": 98860
    },
    {
      "epoch": 0.20597916666666666,
      "grad_norm": 0.7243244051933289,
      "learning_rate": 0.0002706124018229608,
      "loss": 4.0019,
      "step": 98870
    },
    {
      "epoch": 0.206,
      "grad_norm": 0.7149066925048828,
      "learning_rate": 0.00027060654047948,
      "loss": 3.9474,
      "step": 98880
    },
    {
      "epoch": 0.20602083333333332,
      "grad_norm": 0.8560032248497009,
      "learning_rate": 0.0002706006786150267,
      "loss": 3.9406,
      "step": 98890
    },
    {
      "epoch": 0.20604166666666668,
      "grad_norm": 0.7061344385147095,
      "learning_rate": 0.0002705948162296262,
      "loss": 3.8974,
      "step": 98900
    },
    {
      "epoch": 0.2060625,
      "grad_norm": 0.7748035192489624,
      "learning_rate": 0.0002705889533233038,
      "loss": 3.9183,
      "step": 98910
    },
    {
      "epoch": 0.20608333333333334,
      "grad_norm": 0.7170754075050354,
      "learning_rate": 0.0002705830898960849,
      "loss": 3.9709,
      "step": 98920
    },
    {
      "epoch": 0.20610416666666667,
      "grad_norm": 0.9497849345207214,
      "learning_rate": 0.0002705772259479947,
      "loss": 3.854,
      "step": 98930
    },
    {
      "epoch": 0.206125,
      "grad_norm": 0.7901989817619324,
      "learning_rate": 0.0002705713614790587,
      "loss": 3.7728,
      "step": 98940
    },
    {
      "epoch": 0.20614583333333333,
      "grad_norm": 0.696816086769104,
      "learning_rate": 0.0002705654964893021,
      "loss": 3.9173,
      "step": 98950
    },
    {
      "epoch": 0.20616666666666666,
      "grad_norm": 0.8627177476882935,
      "learning_rate": 0.0002705596309787503,
      "loss": 4.1863,
      "step": 98960
    },
    {
      "epoch": 0.2061875,
      "grad_norm": 0.720314085483551,
      "learning_rate": 0.00027055376494742857,
      "loss": 3.9828,
      "step": 98970
    },
    {
      "epoch": 0.20620833333333333,
      "grad_norm": 0.9319507479667664,
      "learning_rate": 0.00027054789839536233,
      "loss": 4.0786,
      "step": 98980
    },
    {
      "epoch": 0.20622916666666666,
      "grad_norm": 0.7610898613929749,
      "learning_rate": 0.0002705420313225769,
      "loss": 4.0303,
      "step": 98990
    },
    {
      "epoch": 0.20625,
      "grad_norm": 0.7480223178863525,
      "learning_rate": 0.0002705361637290976,
      "loss": 3.9511,
      "step": 99000
    },
    {
      "epoch": 0.20625,
      "eval_loss": 4.256772518157959,
      "eval_runtime": 10.6841,
      "eval_samples_per_second": 0.936,
      "eval_steps_per_second": 0.281,
      "step": 99000
    },
    {
      "epoch": 0.20627083333333332,
      "grad_norm": 0.7145761251449585,
      "learning_rate": 0.00027053029561494973,
      "loss": 3.8698,
      "step": 99010
    },
    {
      "epoch": 0.20629166666666668,
      "grad_norm": 0.8016746640205383,
      "learning_rate": 0.00027052442698015876,
      "loss": 3.9707,
      "step": 99020
    },
    {
      "epoch": 0.2063125,
      "grad_norm": 0.7398425340652466,
      "learning_rate": 0.00027051855782474996,
      "loss": 3.7976,
      "step": 99030
    },
    {
      "epoch": 0.20633333333333334,
      "grad_norm": 0.8325860500335693,
      "learning_rate": 0.0002705126881487487,
      "loss": 3.8547,
      "step": 99040
    },
    {
      "epoch": 0.20635416666666667,
      "grad_norm": 0.7015655636787415,
      "learning_rate": 0.0002705068179521803,
      "loss": 3.9988,
      "step": 99050
    },
    {
      "epoch": 0.206375,
      "grad_norm": 0.7375438213348389,
      "learning_rate": 0.00027050094723507013,
      "loss": 3.887,
      "step": 99060
    },
    {
      "epoch": 0.20639583333333333,
      "grad_norm": 0.7197336554527283,
      "learning_rate": 0.0002704950759974436,
      "loss": 4.0264,
      "step": 99070
    },
    {
      "epoch": 0.20641666666666666,
      "grad_norm": 0.6974433064460754,
      "learning_rate": 0.00027048920423932603,
      "loss": 3.7938,
      "step": 99080
    },
    {
      "epoch": 0.2064375,
      "grad_norm": 0.727984607219696,
      "learning_rate": 0.0002704833319607428,
      "loss": 3.9127,
      "step": 99090
    },
    {
      "epoch": 0.20645833333333333,
      "grad_norm": 0.6545091867446899,
      "learning_rate": 0.00027047745916171926,
      "loss": 3.9321,
      "step": 99100
    },
    {
      "epoch": 0.20647916666666666,
      "grad_norm": 0.7326334118843079,
      "learning_rate": 0.00027047158584228077,
      "loss": 3.9295,
      "step": 99110
    },
    {
      "epoch": 0.2065,
      "grad_norm": 0.995898425579071,
      "learning_rate": 0.00027046571200245277,
      "loss": 3.955,
      "step": 99120
    },
    {
      "epoch": 0.20652083333333332,
      "grad_norm": 0.7142347097396851,
      "learning_rate": 0.00027045983764226053,
      "loss": 3.7772,
      "step": 99130
    },
    {
      "epoch": 0.20654166666666668,
      "grad_norm": 0.9536827206611633,
      "learning_rate": 0.0002704539627617295,
      "loss": 4.0604,
      "step": 99140
    },
    {
      "epoch": 0.2065625,
      "grad_norm": 0.9706093072891235,
      "learning_rate": 0.000270448087360885,
      "loss": 3.897,
      "step": 99150
    },
    {
      "epoch": 0.20658333333333334,
      "grad_norm": 0.8020411729812622,
      "learning_rate": 0.0002704422114397524,
      "loss": 3.924,
      "step": 99160
    },
    {
      "epoch": 0.20660416666666667,
      "grad_norm": 0.7228273153305054,
      "learning_rate": 0.0002704363349983572,
      "loss": 3.9452,
      "step": 99170
    },
    {
      "epoch": 0.206625,
      "grad_norm": 0.7467770576477051,
      "learning_rate": 0.00027043045803672465,
      "loss": 3.8599,
      "step": 99180
    },
    {
      "epoch": 0.20664583333333333,
      "grad_norm": 0.6662198901176453,
      "learning_rate": 0.0002704245805548802,
      "loss": 3.9531,
      "step": 99190
    },
    {
      "epoch": 0.20666666666666667,
      "grad_norm": 0.7636839151382446,
      "learning_rate": 0.00027041870255284926,
      "loss": 3.9873,
      "step": 99200
    },
    {
      "epoch": 0.2066875,
      "grad_norm": 0.8352934718132019,
      "learning_rate": 0.00027041282403065717,
      "loss": 3.9992,
      "step": 99210
    },
    {
      "epoch": 0.20670833333333333,
      "grad_norm": 0.9625530242919922,
      "learning_rate": 0.00027040694498832934,
      "loss": 3.9511,
      "step": 99220
    },
    {
      "epoch": 0.20672916666666666,
      "grad_norm": 0.8624677062034607,
      "learning_rate": 0.00027040106542589124,
      "loss": 3.8357,
      "step": 99230
    },
    {
      "epoch": 0.20675,
      "grad_norm": 0.7134447693824768,
      "learning_rate": 0.0002703951853433681,
      "loss": 3.891,
      "step": 99240
    },
    {
      "epoch": 0.20677083333333332,
      "grad_norm": 0.7797545194625854,
      "learning_rate": 0.00027038930474078545,
      "loss": 3.9734,
      "step": 99250
    },
    {
      "epoch": 0.20679166666666668,
      "grad_norm": 0.7862750887870789,
      "learning_rate": 0.00027038342361816866,
      "loss": 4.0491,
      "step": 99260
    },
    {
      "epoch": 0.2068125,
      "grad_norm": 0.7302650213241577,
      "learning_rate": 0.0002703775419755431,
      "loss": 4.1421,
      "step": 99270
    },
    {
      "epoch": 0.20683333333333334,
      "grad_norm": 0.7886211276054382,
      "learning_rate": 0.00027037165981293426,
      "loss": 3.8874,
      "step": 99280
    },
    {
      "epoch": 0.20685416666666667,
      "grad_norm": 0.7321017384529114,
      "learning_rate": 0.00027036577713036744,
      "loss": 4.0311,
      "step": 99290
    },
    {
      "epoch": 0.206875,
      "grad_norm": 0.664029061794281,
      "learning_rate": 0.0002703598939278681,
      "loss": 3.868,
      "step": 99300
    },
    {
      "epoch": 0.20689583333333333,
      "grad_norm": 0.6837591528892517,
      "learning_rate": 0.00027035401020546174,
      "loss": 4.122,
      "step": 99310
    },
    {
      "epoch": 0.20691666666666667,
      "grad_norm": 0.7312952876091003,
      "learning_rate": 0.00027034812596317366,
      "loss": 3.9522,
      "step": 99320
    },
    {
      "epoch": 0.2069375,
      "grad_norm": 0.8689932823181152,
      "learning_rate": 0.0002703422412010293,
      "loss": 4.1706,
      "step": 99330
    },
    {
      "epoch": 0.20695833333333333,
      "grad_norm": 0.7996540665626526,
      "learning_rate": 0.0002703363559190541,
      "loss": 3.8171,
      "step": 99340
    },
    {
      "epoch": 0.20697916666666666,
      "grad_norm": 0.864711344242096,
      "learning_rate": 0.00027033047011727345,
      "loss": 3.9487,
      "step": 99350
    },
    {
      "epoch": 0.207,
      "grad_norm": 0.8300389647483826,
      "learning_rate": 0.0002703245837957128,
      "loss": 4.0347,
      "step": 99360
    },
    {
      "epoch": 0.20702083333333332,
      "grad_norm": 0.7777196168899536,
      "learning_rate": 0.00027031869695439765,
      "loss": 3.8458,
      "step": 99370
    },
    {
      "epoch": 0.20704166666666668,
      "grad_norm": 0.8874353170394897,
      "learning_rate": 0.0002703128095933533,
      "loss": 3.8151,
      "step": 99380
    },
    {
      "epoch": 0.2070625,
      "grad_norm": 0.852321207523346,
      "learning_rate": 0.0002703069217126052,
      "loss": 3.9535,
      "step": 99390
    },
    {
      "epoch": 0.20708333333333334,
      "grad_norm": 0.7844010591506958,
      "learning_rate": 0.0002703010333121789,
      "loss": 3.9026,
      "step": 99400
    },
    {
      "epoch": 0.20710416666666667,
      "grad_norm": 0.78663170337677,
      "learning_rate": 0.0002702951443920996,
      "loss": 3.8403,
      "step": 99410
    },
    {
      "epoch": 0.207125,
      "grad_norm": 0.6776803731918335,
      "learning_rate": 0.000270289254952393,
      "loss": 3.9337,
      "step": 99420
    },
    {
      "epoch": 0.20714583333333333,
      "grad_norm": 0.7785733938217163,
      "learning_rate": 0.0002702833649930845,
      "loss": 3.9292,
      "step": 99430
    },
    {
      "epoch": 0.20716666666666667,
      "grad_norm": 0.7961976528167725,
      "learning_rate": 0.0002702774745141994,
      "loss": 3.6678,
      "step": 99440
    },
    {
      "epoch": 0.2071875,
      "grad_norm": 0.7589039206504822,
      "learning_rate": 0.00027027158351576326,
      "loss": 3.9324,
      "step": 99450
    },
    {
      "epoch": 0.20720833333333333,
      "grad_norm": 0.7436046004295349,
      "learning_rate": 0.0002702656919978014,
      "loss": 4.034,
      "step": 99460
    },
    {
      "epoch": 0.20722916666666666,
      "grad_norm": 0.7713046669960022,
      "learning_rate": 0.0002702597999603394,
      "loss": 3.9752,
      "step": 99470
    },
    {
      "epoch": 0.20725,
      "grad_norm": 0.7547160983085632,
      "learning_rate": 0.0002702539074034027,
      "loss": 3.8981,
      "step": 99480
    },
    {
      "epoch": 0.20727083333333332,
      "grad_norm": 0.6990825533866882,
      "learning_rate": 0.0002702480143270167,
      "loss": 3.8734,
      "step": 99490
    },
    {
      "epoch": 0.20729166666666668,
      "grad_norm": 1.0489686727523804,
      "learning_rate": 0.00027024212073120684,
      "loss": 3.8486,
      "step": 99500
    },
    {
      "epoch": 0.2073125,
      "grad_norm": 0.8936699032783508,
      "learning_rate": 0.0002702362266159987,
      "loss": 3.9086,
      "step": 99510
    },
    {
      "epoch": 0.20733333333333334,
      "grad_norm": 0.7443354725837708,
      "learning_rate": 0.00027023033198141756,
      "loss": 3.8542,
      "step": 99520
    },
    {
      "epoch": 0.20735416666666667,
      "grad_norm": 0.7970522046089172,
      "learning_rate": 0.000270224436827489,
      "loss": 4.0252,
      "step": 99530
    },
    {
      "epoch": 0.207375,
      "grad_norm": 0.7859051823616028,
      "learning_rate": 0.0002702185411542385,
      "loss": 3.8541,
      "step": 99540
    },
    {
      "epoch": 0.20739583333333333,
      "grad_norm": 0.7349193692207336,
      "learning_rate": 0.00027021264496169146,
      "loss": 3.8772,
      "step": 99550
    },
    {
      "epoch": 0.20741666666666667,
      "grad_norm": 0.8676632642745972,
      "learning_rate": 0.00027020674824987335,
      "loss": 4.0154,
      "step": 99560
    },
    {
      "epoch": 0.2074375,
      "grad_norm": 0.7305377125740051,
      "learning_rate": 0.00027020085101880974,
      "loss": 3.6887,
      "step": 99570
    },
    {
      "epoch": 0.20745833333333333,
      "grad_norm": 0.8315433859825134,
      "learning_rate": 0.000270194953268526,
      "loss": 3.9902,
      "step": 99580
    },
    {
      "epoch": 0.20747916666666666,
      "grad_norm": 0.7022918462753296,
      "learning_rate": 0.00027018905499904763,
      "loss": 3.8534,
      "step": 99590
    },
    {
      "epoch": 0.2075,
      "grad_norm": 0.8246311545372009,
      "learning_rate": 0.0002701831562104001,
      "loss": 3.8297,
      "step": 99600
    },
    {
      "epoch": 0.20752083333333332,
      "grad_norm": 0.6984212398529053,
      "learning_rate": 0.0002701772569026089,
      "loss": 3.8181,
      "step": 99610
    },
    {
      "epoch": 0.20754166666666668,
      "grad_norm": 1.0341120958328247,
      "learning_rate": 0.00027017135707569956,
      "loss": 4.0088,
      "step": 99620
    },
    {
      "epoch": 0.2075625,
      "grad_norm": 0.6557123064994812,
      "learning_rate": 0.0002701654567296975,
      "loss": 3.9247,
      "step": 99630
    },
    {
      "epoch": 0.20758333333333334,
      "grad_norm": 0.7157204151153564,
      "learning_rate": 0.00027015955586462827,
      "loss": 4.0549,
      "step": 99640
    },
    {
      "epoch": 0.20760416666666667,
      "grad_norm": 0.8681158423423767,
      "learning_rate": 0.0002701536544805173,
      "loss": 3.9496,
      "step": 99650
    },
    {
      "epoch": 0.207625,
      "grad_norm": 0.7297716736793518,
      "learning_rate": 0.00027014775257739004,
      "loss": 3.7612,
      "step": 99660
    },
    {
      "epoch": 0.20764583333333334,
      "grad_norm": 0.7475490570068359,
      "learning_rate": 0.00027014185015527214,
      "loss": 3.9153,
      "step": 99670
    },
    {
      "epoch": 0.20766666666666667,
      "grad_norm": 0.731817364692688,
      "learning_rate": 0.00027013594721418894,
      "loss": 3.9172,
      "step": 99680
    },
    {
      "epoch": 0.2076875,
      "grad_norm": 0.7607062458992004,
      "learning_rate": 0.000270130043754166,
      "loss": 3.938,
      "step": 99690
    },
    {
      "epoch": 0.20770833333333333,
      "grad_norm": 0.6940791010856628,
      "learning_rate": 0.0002701241397752289,
      "loss": 3.7932,
      "step": 99700
    },
    {
      "epoch": 0.20772916666666666,
      "grad_norm": 0.8961820602416992,
      "learning_rate": 0.00027011823527740294,
      "loss": 3.9808,
      "step": 99710
    },
    {
      "epoch": 0.20775,
      "grad_norm": 0.7839245200157166,
      "learning_rate": 0.0002701123302607139,
      "loss": 3.9306,
      "step": 99720
    },
    {
      "epoch": 0.20777083333333332,
      "grad_norm": 0.7979865670204163,
      "learning_rate": 0.000270106424725187,
      "loss": 3.9324,
      "step": 99730
    },
    {
      "epoch": 0.20779166666666668,
      "grad_norm": 0.915101945400238,
      "learning_rate": 0.0002701005186708479,
      "loss": 3.9982,
      "step": 99740
    },
    {
      "epoch": 0.2078125,
      "grad_norm": 0.6369365453720093,
      "learning_rate": 0.0002700946120977222,
      "loss": 3.9639,
      "step": 99750
    },
    {
      "epoch": 0.20783333333333334,
      "grad_norm": 0.9562554359436035,
      "learning_rate": 0.0002700887050058352,
      "loss": 3.9891,
      "step": 99760
    },
    {
      "epoch": 0.20785416666666667,
      "grad_norm": 0.7328503131866455,
      "learning_rate": 0.0002700827973952126,
      "loss": 3.8668,
      "step": 99770
    },
    {
      "epoch": 0.207875,
      "grad_norm": 0.756215512752533,
      "learning_rate": 0.00027007688926587985,
      "loss": 3.8251,
      "step": 99780
    },
    {
      "epoch": 0.20789583333333334,
      "grad_norm": 0.8910409808158875,
      "learning_rate": 0.00027007098061786243,
      "loss": 3.8036,
      "step": 99790
    },
    {
      "epoch": 0.20791666666666667,
      "grad_norm": 0.7314499020576477,
      "learning_rate": 0.00027006507145118595,
      "loss": 3.8405,
      "step": 99800
    },
    {
      "epoch": 0.2079375,
      "grad_norm": 0.8136187195777893,
      "learning_rate": 0.0002700591617658758,
      "loss": 3.9835,
      "step": 99810
    },
    {
      "epoch": 0.20795833333333333,
      "grad_norm": 0.7605281472206116,
      "learning_rate": 0.0002700532515619577,
      "loss": 3.9367,
      "step": 99820
    },
    {
      "epoch": 0.20797916666666666,
      "grad_norm": 0.7892848253250122,
      "learning_rate": 0.000270047340839457,
      "loss": 3.9309,
      "step": 99830
    },
    {
      "epoch": 0.208,
      "grad_norm": 0.9768999218940735,
      "learning_rate": 0.00027004142959839933,
      "loss": 3.9541,
      "step": 99840
    },
    {
      "epoch": 0.20802083333333332,
      "grad_norm": 0.7073710560798645,
      "learning_rate": 0.0002700355178388102,
      "loss": 4.0636,
      "step": 99850
    },
    {
      "epoch": 0.20804166666666668,
      "grad_norm": 0.8323172926902771,
      "learning_rate": 0.0002700296055607152,
      "loss": 3.9064,
      "step": 99860
    },
    {
      "epoch": 0.2080625,
      "grad_norm": 0.7948471307754517,
      "learning_rate": 0.00027002369276413977,
      "loss": 3.927,
      "step": 99870
    },
    {
      "epoch": 0.20808333333333334,
      "grad_norm": 0.9191707968711853,
      "learning_rate": 0.0002700177794491095,
      "loss": 4.0282,
      "step": 99880
    },
    {
      "epoch": 0.20810416666666667,
      "grad_norm": 0.7243791222572327,
      "learning_rate": 0.00027001186561564987,
      "loss": 3.9953,
      "step": 99890
    },
    {
      "epoch": 0.208125,
      "grad_norm": 0.7418065667152405,
      "learning_rate": 0.0002700059512637865,
      "loss": 3.8674,
      "step": 99900
    },
    {
      "epoch": 0.20814583333333334,
      "grad_norm": 0.8340119123458862,
      "learning_rate": 0.000270000036393545,
      "loss": 4.0167,
      "step": 99910
    },
    {
      "epoch": 0.20816666666666667,
      "grad_norm": 0.7639809250831604,
      "learning_rate": 0.00026999412100495076,
      "loss": 4.0151,
      "step": 99920
    },
    {
      "epoch": 0.2081875,
      "grad_norm": 0.6915614008903503,
      "learning_rate": 0.0002699882050980294,
      "loss": 4.0189,
      "step": 99930
    },
    {
      "epoch": 0.20820833333333333,
      "grad_norm": 0.7375022172927856,
      "learning_rate": 0.00026998228867280657,
      "loss": 3.8826,
      "step": 99940
    },
    {
      "epoch": 0.20822916666666666,
      "grad_norm": 0.7793653011322021,
      "learning_rate": 0.0002699763717293077,
      "loss": 3.9433,
      "step": 99950
    },
    {
      "epoch": 0.20825,
      "grad_norm": 0.7699088454246521,
      "learning_rate": 0.00026997045426755843,
      "loss": 3.9484,
      "step": 99960
    },
    {
      "epoch": 0.20827083333333332,
      "grad_norm": 0.7179043889045715,
      "learning_rate": 0.00026996453628758425,
      "loss": 3.8454,
      "step": 99970
    },
    {
      "epoch": 0.20829166666666668,
      "grad_norm": 0.9166111946105957,
      "learning_rate": 0.00026995861778941077,
      "loss": 3.9953,
      "step": 99980
    },
    {
      "epoch": 0.2083125,
      "grad_norm": 0.7917600274085999,
      "learning_rate": 0.00026995269877306356,
      "loss": 3.9487,
      "step": 99990
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 0.6542020440101624,
      "learning_rate": 0.0002699467792385681,
      "loss": 3.9057,
      "step": 100000
    },
    {
      "epoch": 0.20833333333333334,
      "eval_loss": 4.271517276763916,
      "eval_runtime": 10.24,
      "eval_samples_per_second": 0.977,
      "eval_steps_per_second": 0.293,
      "step": 100000
    },
    {
      "epoch": 0.20835416666666667,
      "grad_norm": 1.0828955173492432,
      "learning_rate": 0.0002699408591859501,
      "loss": 4.0128,
      "step": 100010
    },
    {
      "epoch": 0.208375,
      "grad_norm": 0.7887589931488037,
      "learning_rate": 0.0002699349386152351,
      "loss": 3.9277,
      "step": 100020
    },
    {
      "epoch": 0.20839583333333334,
      "grad_norm": 0.8306854367256165,
      "learning_rate": 0.0002699290175264486,
      "loss": 3.8462,
      "step": 100030
    },
    {
      "epoch": 0.20841666666666667,
      "grad_norm": 0.7744120359420776,
      "learning_rate": 0.0002699230959196162,
      "loss": 3.7912,
      "step": 100040
    },
    {
      "epoch": 0.2084375,
      "grad_norm": 0.8196149468421936,
      "learning_rate": 0.00026991717379476346,
      "loss": 3.9621,
      "step": 100050
    },
    {
      "epoch": 0.20845833333333333,
      "grad_norm": 0.9614679217338562,
      "learning_rate": 0.00026991125115191606,
      "loss": 3.9956,
      "step": 100060
    },
    {
      "epoch": 0.20847916666666666,
      "grad_norm": 0.7675607204437256,
      "learning_rate": 0.00026990532799109953,
      "loss": 3.8525,
      "step": 100070
    },
    {
      "epoch": 0.2085,
      "grad_norm": 0.6666399240493774,
      "learning_rate": 0.00026989940431233934,
      "loss": 3.9395,
      "step": 100080
    },
    {
      "epoch": 0.20852083333333332,
      "grad_norm": 0.7078964710235596,
      "learning_rate": 0.0002698934801156613,
      "loss": 4.0353,
      "step": 100090
    },
    {
      "epoch": 0.20854166666666665,
      "grad_norm": 0.7129538059234619,
      "learning_rate": 0.00026988755540109085,
      "loss": 3.9099,
      "step": 100100
    },
    {
      "epoch": 0.2085625,
      "grad_norm": 0.7828505039215088,
      "learning_rate": 0.00026988163016865356,
      "loss": 3.9194,
      "step": 100110
    },
    {
      "epoch": 0.20858333333333334,
      "grad_norm": 0.7264589071273804,
      "learning_rate": 0.0002698757044183752,
      "loss": 3.7734,
      "step": 100120
    },
    {
      "epoch": 0.20860416666666667,
      "grad_norm": 0.7864357829093933,
      "learning_rate": 0.0002698697781502811,
      "loss": 3.9147,
      "step": 100130
    },
    {
      "epoch": 0.208625,
      "grad_norm": 0.7802590727806091,
      "learning_rate": 0.0002698638513643971,
      "loss": 3.8665,
      "step": 100140
    },
    {
      "epoch": 0.20864583333333334,
      "grad_norm": 0.7286370396614075,
      "learning_rate": 0.0002698579240607487,
      "loss": 3.9713,
      "step": 100150
    },
    {
      "epoch": 0.20866666666666667,
      "grad_norm": 0.7840452194213867,
      "learning_rate": 0.00026985199623936145,
      "loss": 4.0005,
      "step": 100160
    },
    {
      "epoch": 0.2086875,
      "grad_norm": 0.7470037937164307,
      "learning_rate": 0.00026984606790026106,
      "loss": 4.0358,
      "step": 100170
    },
    {
      "epoch": 0.20870833333333333,
      "grad_norm": 0.7604383230209351,
      "learning_rate": 0.0002698401390434731,
      "loss": 3.9874,
      "step": 100180
    },
    {
      "epoch": 0.20872916666666666,
      "grad_norm": 0.9223660230636597,
      "learning_rate": 0.0002698342096690232,
      "loss": 3.9044,
      "step": 100190
    },
    {
      "epoch": 0.20875,
      "grad_norm": 0.7254631519317627,
      "learning_rate": 0.0002698282797769369,
      "loss": 4.0262,
      "step": 100200
    },
    {
      "epoch": 0.20877083333333332,
      "grad_norm": 0.7557848691940308,
      "learning_rate": 0.0002698223493672399,
      "loss": 3.8807,
      "step": 100210
    },
    {
      "epoch": 0.20879166666666665,
      "grad_norm": 0.8035601377487183,
      "learning_rate": 0.00026981641843995774,
      "loss": 3.8338,
      "step": 100220
    },
    {
      "epoch": 0.2088125,
      "grad_norm": 0.690593957901001,
      "learning_rate": 0.0002698104869951161,
      "loss": 3.7943,
      "step": 100230
    },
    {
      "epoch": 0.20883333333333334,
      "grad_norm": 0.7185525894165039,
      "learning_rate": 0.0002698045550327406,
      "loss": 3.7232,
      "step": 100240
    },
    {
      "epoch": 0.20885416666666667,
      "grad_norm": 0.7602024078369141,
      "learning_rate": 0.00026979862255285684,
      "loss": 3.8471,
      "step": 100250
    },
    {
      "epoch": 0.208875,
      "grad_norm": 0.8257759809494019,
      "learning_rate": 0.0002697926895554904,
      "loss": 3.9443,
      "step": 100260
    },
    {
      "epoch": 0.20889583333333334,
      "grad_norm": 0.6884680986404419,
      "learning_rate": 0.00026978675604066697,
      "loss": 3.7723,
      "step": 100270
    },
    {
      "epoch": 0.20891666666666667,
      "grad_norm": 0.7183137536048889,
      "learning_rate": 0.0002697808220084122,
      "loss": 4.1249,
      "step": 100280
    },
    {
      "epoch": 0.2089375,
      "grad_norm": 0.7529290914535522,
      "learning_rate": 0.0002697748874587517,
      "loss": 3.7536,
      "step": 100290
    },
    {
      "epoch": 0.20895833333333333,
      "grad_norm": 0.7425618171691895,
      "learning_rate": 0.00026976895239171105,
      "loss": 3.9431,
      "step": 100300
    },
    {
      "epoch": 0.20897916666666666,
      "grad_norm": 0.8318856954574585,
      "learning_rate": 0.000269763016807316,
      "loss": 4.0213,
      "step": 100310
    },
    {
      "epoch": 0.209,
      "grad_norm": 0.8090575933456421,
      "learning_rate": 0.0002697570807055921,
      "loss": 3.8451,
      "step": 100320
    },
    {
      "epoch": 0.20902083333333332,
      "grad_norm": 0.906082034111023,
      "learning_rate": 0.000269751144086565,
      "loss": 3.9551,
      "step": 100330
    },
    {
      "epoch": 0.20904166666666665,
      "grad_norm": 0.7665221691131592,
      "learning_rate": 0.0002697452069502603,
      "loss": 3.9767,
      "step": 100340
    },
    {
      "epoch": 0.2090625,
      "grad_norm": 0.6740334630012512,
      "learning_rate": 0.00026973926929670377,
      "loss": 3.9988,
      "step": 100350
    },
    {
      "epoch": 0.20908333333333334,
      "grad_norm": 0.7616051435470581,
      "learning_rate": 0.00026973333112592104,
      "loss": 3.8608,
      "step": 100360
    },
    {
      "epoch": 0.20910416666666667,
      "grad_norm": 0.7959082722663879,
      "learning_rate": 0.00026972739243793766,
      "loss": 3.6754,
      "step": 100370
    },
    {
      "epoch": 0.209125,
      "grad_norm": 0.7682712078094482,
      "learning_rate": 0.00026972145323277927,
      "loss": 4.0071,
      "step": 100380
    },
    {
      "epoch": 0.20914583333333334,
      "grad_norm": 0.7272965312004089,
      "learning_rate": 0.0002697155135104717,
      "loss": 3.8289,
      "step": 100390
    },
    {
      "epoch": 0.20916666666666667,
      "grad_norm": 0.7779249548912048,
      "learning_rate": 0.0002697095732710404,
      "loss": 3.8347,
      "step": 100400
    },
    {
      "epoch": 0.2091875,
      "grad_norm": 0.8291679620742798,
      "learning_rate": 0.00026970363251451124,
      "loss": 3.9626,
      "step": 100410
    },
    {
      "epoch": 0.20920833333333333,
      "grad_norm": 0.7357811331748962,
      "learning_rate": 0.00026969769124090973,
      "loss": 3.7216,
      "step": 100420
    },
    {
      "epoch": 0.20922916666666666,
      "grad_norm": 0.734731912612915,
      "learning_rate": 0.0002696917494502615,
      "loss": 3.8712,
      "step": 100430
    },
    {
      "epoch": 0.20925,
      "grad_norm": 0.7748503088951111,
      "learning_rate": 0.0002696858071425924,
      "loss": 3.9399,
      "step": 100440
    },
    {
      "epoch": 0.20927083333333332,
      "grad_norm": 0.7709073424339294,
      "learning_rate": 0.00026967986431792793,
      "loss": 3.9281,
      "step": 100450
    },
    {
      "epoch": 0.20929166666666665,
      "grad_norm": 0.7457091212272644,
      "learning_rate": 0.0002696739209762938,
      "loss": 3.9381,
      "step": 100460
    },
    {
      "epoch": 0.2093125,
      "grad_norm": 0.7326961755752563,
      "learning_rate": 0.00026966797711771575,
      "loss": 3.9665,
      "step": 100470
    },
    {
      "epoch": 0.20933333333333334,
      "grad_norm": 0.7713673710823059,
      "learning_rate": 0.00026966203274221936,
      "loss": 4.0613,
      "step": 100480
    },
    {
      "epoch": 0.20935416666666667,
      "grad_norm": 0.7172417640686035,
      "learning_rate": 0.0002696560878498304,
      "loss": 3.8364,
      "step": 100490
    },
    {
      "epoch": 0.209375,
      "grad_norm": 0.6862996220588684,
      "learning_rate": 0.00026965014244057444,
      "loss": 3.9679,
      "step": 100500
    },
    {
      "epoch": 0.20939583333333334,
      "grad_norm": 0.7821856737136841,
      "learning_rate": 0.00026964419651447725,
      "loss": 3.9259,
      "step": 100510
    },
    {
      "epoch": 0.20941666666666667,
      "grad_norm": 0.6646330952644348,
      "learning_rate": 0.0002696382500715645,
      "loss": 3.897,
      "step": 100520
    },
    {
      "epoch": 0.2094375,
      "grad_norm": 0.906822144985199,
      "learning_rate": 0.0002696323031118619,
      "loss": 3.8748,
      "step": 100530
    },
    {
      "epoch": 0.20945833333333333,
      "grad_norm": 1.0426373481750488,
      "learning_rate": 0.00026962635563539507,
      "loss": 3.9749,
      "step": 100540
    },
    {
      "epoch": 0.20947916666666666,
      "grad_norm": 0.754717230796814,
      "learning_rate": 0.00026962040764218974,
      "loss": 3.79,
      "step": 100550
    },
    {
      "epoch": 0.2095,
      "grad_norm": 0.6997254490852356,
      "learning_rate": 0.00026961445913227164,
      "loss": 4.051,
      "step": 100560
    },
    {
      "epoch": 0.20952083333333332,
      "grad_norm": 0.8067952394485474,
      "learning_rate": 0.0002696085101056664,
      "loss": 3.9121,
      "step": 100570
    },
    {
      "epoch": 0.20954166666666665,
      "grad_norm": 0.7852560877799988,
      "learning_rate": 0.00026960256056239964,
      "loss": 3.8683,
      "step": 100580
    },
    {
      "epoch": 0.2095625,
      "grad_norm": 0.8277136087417603,
      "learning_rate": 0.0002695966105024973,
      "loss": 4.0107,
      "step": 100590
    },
    {
      "epoch": 0.20958333333333334,
      "grad_norm": 0.8291253447532654,
      "learning_rate": 0.00026959065992598484,
      "loss": 4.0464,
      "step": 100600
    },
    {
      "epoch": 0.20960416666666667,
      "grad_norm": 0.7416697144508362,
      "learning_rate": 0.0002695847088328881,
      "loss": 3.8658,
      "step": 100610
    },
    {
      "epoch": 0.209625,
      "grad_norm": 0.7298949360847473,
      "learning_rate": 0.00026957875722323277,
      "loss": 3.9691,
      "step": 100620
    },
    {
      "epoch": 0.20964583333333334,
      "grad_norm": 0.7824665904045105,
      "learning_rate": 0.0002695728050970445,
      "loss": 3.9395,
      "step": 100630
    },
    {
      "epoch": 0.20966666666666667,
      "grad_norm": 0.7905336022377014,
      "learning_rate": 0.00026956685245434913,
      "loss": 3.9125,
      "step": 100640
    },
    {
      "epoch": 0.2096875,
      "grad_norm": 0.7508228421211243,
      "learning_rate": 0.0002695608992951722,
      "loss": 4.1603,
      "step": 100650
    },
    {
      "epoch": 0.20970833333333333,
      "grad_norm": 0.7187749743461609,
      "learning_rate": 0.00026955494561953957,
      "loss": 4.0474,
      "step": 100660
    },
    {
      "epoch": 0.20972916666666666,
      "grad_norm": 0.8792694807052612,
      "learning_rate": 0.00026954899142747683,
      "loss": 3.9919,
      "step": 100670
    },
    {
      "epoch": 0.20975,
      "grad_norm": 0.7819789052009583,
      "learning_rate": 0.00026954303671900985,
      "loss": 3.8618,
      "step": 100680
    },
    {
      "epoch": 0.20977083333333332,
      "grad_norm": 0.9502438902854919,
      "learning_rate": 0.0002695370814941642,
      "loss": 4.0189,
      "step": 100690
    },
    {
      "epoch": 0.20979166666666665,
      "grad_norm": 0.691494882106781,
      "learning_rate": 0.0002695311257529657,
      "loss": 4.2064,
      "step": 100700
    },
    {
      "epoch": 0.2098125,
      "grad_norm": 0.7997622489929199,
      "learning_rate": 0.00026952516949544004,
      "loss": 4.0938,
      "step": 100710
    },
    {
      "epoch": 0.20983333333333334,
      "grad_norm": 0.794265627861023,
      "learning_rate": 0.00026951921272161297,
      "loss": 3.9638,
      "step": 100720
    },
    {
      "epoch": 0.20985416666666667,
      "grad_norm": 0.72667396068573,
      "learning_rate": 0.00026951325543151023,
      "loss": 3.9497,
      "step": 100730
    },
    {
      "epoch": 0.209875,
      "grad_norm": 0.8311936259269714,
      "learning_rate": 0.0002695072976251575,
      "loss": 3.922,
      "step": 100740
    },
    {
      "epoch": 0.20989583333333334,
      "grad_norm": 1.1751930713653564,
      "learning_rate": 0.00026950133930258056,
      "loss": 4.0144,
      "step": 100750
    },
    {
      "epoch": 0.20991666666666667,
      "grad_norm": 0.7665546536445618,
      "learning_rate": 0.0002694953804638052,
      "loss": 3.9702,
      "step": 100760
    },
    {
      "epoch": 0.2099375,
      "grad_norm": 0.7720737457275391,
      "learning_rate": 0.00026948942110885697,
      "loss": 3.886,
      "step": 100770
    },
    {
      "epoch": 0.20995833333333333,
      "grad_norm": 0.8131123781204224,
      "learning_rate": 0.0002694834612377618,
      "loss": 3.7739,
      "step": 100780
    },
    {
      "epoch": 0.20997916666666666,
      "grad_norm": 0.7736006379127502,
      "learning_rate": 0.0002694775008505454,
      "loss": 3.9595,
      "step": 100790
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7683284878730774,
      "learning_rate": 0.0002694715399472335,
      "loss": 3.937,
      "step": 100800
    },
    {
      "epoch": 0.21002083333333332,
      "grad_norm": 0.7940028309822083,
      "learning_rate": 0.00026946557852785175,
      "loss": 3.7637,
      "step": 100810
    },
    {
      "epoch": 0.21004166666666665,
      "grad_norm": 0.7502275705337524,
      "learning_rate": 0.00026945961659242604,
      "loss": 4.0259,
      "step": 100820
    },
    {
      "epoch": 0.2100625,
      "grad_norm": 0.8072684407234192,
      "learning_rate": 0.00026945365414098206,
      "loss": 3.8897,
      "step": 100830
    },
    {
      "epoch": 0.21008333333333334,
      "grad_norm": 0.8077104091644287,
      "learning_rate": 0.0002694476911735456,
      "loss": 4.2664,
      "step": 100840
    },
    {
      "epoch": 0.21010416666666668,
      "grad_norm": 0.7347311973571777,
      "learning_rate": 0.0002694417276901424,
      "loss": 3.9618,
      "step": 100850
    },
    {
      "epoch": 0.210125,
      "grad_norm": 0.7142252326011658,
      "learning_rate": 0.00026943576369079815,
      "loss": 3.7406,
      "step": 100860
    },
    {
      "epoch": 0.21014583333333334,
      "grad_norm": 1.0674288272857666,
      "learning_rate": 0.00026942979917553875,
      "loss": 3.8193,
      "step": 100870
    },
    {
      "epoch": 0.21016666666666667,
      "grad_norm": 1.098987102508545,
      "learning_rate": 0.00026942383414438987,
      "loss": 3.923,
      "step": 100880
    },
    {
      "epoch": 0.2101875,
      "grad_norm": 0.7651236653327942,
      "learning_rate": 0.00026941786859737733,
      "loss": 4.0019,
      "step": 100890
    },
    {
      "epoch": 0.21020833333333333,
      "grad_norm": 0.727094292640686,
      "learning_rate": 0.0002694119025345268,
      "loss": 3.9892,
      "step": 100900
    },
    {
      "epoch": 0.21022916666666666,
      "grad_norm": 0.7321663498878479,
      "learning_rate": 0.00026940593595586415,
      "loss": 3.9087,
      "step": 100910
    },
    {
      "epoch": 0.21025,
      "grad_norm": 0.7765200138092041,
      "learning_rate": 0.0002693999688614151,
      "loss": 3.9409,
      "step": 100920
    },
    {
      "epoch": 0.21027083333333332,
      "grad_norm": 0.8324688673019409,
      "learning_rate": 0.00026939400125120547,
      "loss": 3.9192,
      "step": 100930
    },
    {
      "epoch": 0.21029166666666665,
      "grad_norm": 0.7404791712760925,
      "learning_rate": 0.000269388033125261,
      "loss": 3.8032,
      "step": 100940
    },
    {
      "epoch": 0.2103125,
      "grad_norm": 0.7649177312850952,
      "learning_rate": 0.0002693820644836075,
      "loss": 3.7753,
      "step": 100950
    },
    {
      "epoch": 0.21033333333333334,
      "grad_norm": 0.6972590088844299,
      "learning_rate": 0.00026937609532627074,
      "loss": 3.8639,
      "step": 100960
    },
    {
      "epoch": 0.21035416666666668,
      "grad_norm": 0.8903745412826538,
      "learning_rate": 0.00026937012565327647,
      "loss": 3.8775,
      "step": 100970
    },
    {
      "epoch": 0.210375,
      "grad_norm": 0.7859228849411011,
      "learning_rate": 0.00026936415546465056,
      "loss": 3.8872,
      "step": 100980
    },
    {
      "epoch": 0.21039583333333334,
      "grad_norm": 0.6667293310165405,
      "learning_rate": 0.0002693581847604187,
      "loss": 3.7461,
      "step": 100990
    },
    {
      "epoch": 0.21041666666666667,
      "grad_norm": 0.7079753875732422,
      "learning_rate": 0.00026935221354060674,
      "loss": 3.9731,
      "step": 101000
    },
    {
      "epoch": 0.21041666666666667,
      "eval_loss": 4.2596330642700195,
      "eval_runtime": 9.2584,
      "eval_samples_per_second": 1.08,
      "eval_steps_per_second": 0.324,
      "step": 101000
    },
    {
      "epoch": 0.2104375,
      "grad_norm": 0.7572210431098938,
      "learning_rate": 0.0002693462418052405,
      "loss": 3.8059,
      "step": 101010
    },
    {
      "epoch": 0.21045833333333333,
      "grad_norm": 0.6829994916915894,
      "learning_rate": 0.00026934026955434566,
      "loss": 3.9567,
      "step": 101020
    },
    {
      "epoch": 0.21047916666666666,
      "grad_norm": 0.7596521973609924,
      "learning_rate": 0.00026933429678794815,
      "loss": 3.9586,
      "step": 101030
    },
    {
      "epoch": 0.2105,
      "grad_norm": 0.965099036693573,
      "learning_rate": 0.00026932832350607365,
      "loss": 4.0766,
      "step": 101040
    },
    {
      "epoch": 0.21052083333333332,
      "grad_norm": 0.7780905961990356,
      "learning_rate": 0.0002693223497087481,
      "loss": 4.0123,
      "step": 101050
    },
    {
      "epoch": 0.21054166666666665,
      "grad_norm": 0.7070611715316772,
      "learning_rate": 0.00026931637539599724,
      "loss": 3.868,
      "step": 101060
    },
    {
      "epoch": 0.2105625,
      "grad_norm": 0.7427692413330078,
      "learning_rate": 0.0002693104005678468,
      "loss": 3.8343,
      "step": 101070
    },
    {
      "epoch": 0.21058333333333334,
      "grad_norm": 0.9417982697486877,
      "learning_rate": 0.00026930442522432265,
      "loss": 4.0149,
      "step": 101080
    },
    {
      "epoch": 0.21060416666666668,
      "grad_norm": 0.8123637437820435,
      "learning_rate": 0.0002692984493654507,
      "loss": 3.9279,
      "step": 101090
    },
    {
      "epoch": 0.210625,
      "grad_norm": 0.7978792190551758,
      "learning_rate": 0.0002692924729912566,
      "loss": 3.996,
      "step": 101100
    },
    {
      "epoch": 0.21064583333333334,
      "grad_norm": 0.7046129107475281,
      "learning_rate": 0.0002692864961017662,
      "loss": 3.8943,
      "step": 101110
    },
    {
      "epoch": 0.21066666666666667,
      "grad_norm": 0.9492311477661133,
      "learning_rate": 0.00026928051869700543,
      "loss": 3.9427,
      "step": 101120
    },
    {
      "epoch": 0.2106875,
      "grad_norm": 0.7446462512016296,
      "learning_rate": 0.00026927454077699996,
      "loss": 3.987,
      "step": 101130
    },
    {
      "epoch": 0.21070833333333333,
      "grad_norm": 0.7630727291107178,
      "learning_rate": 0.00026926856234177576,
      "loss": 3.9315,
      "step": 101140
    },
    {
      "epoch": 0.21072916666666666,
      "grad_norm": 0.7730732560157776,
      "learning_rate": 0.00026926258339135854,
      "loss": 3.8829,
      "step": 101150
    },
    {
      "epoch": 0.21075,
      "grad_norm": 0.7772974371910095,
      "learning_rate": 0.0002692566039257742,
      "loss": 3.8147,
      "step": 101160
    },
    {
      "epoch": 0.21077083333333332,
      "grad_norm": 0.8188722133636475,
      "learning_rate": 0.00026925062394504847,
      "loss": 3.833,
      "step": 101170
    },
    {
      "epoch": 0.21079166666666665,
      "grad_norm": 0.7402281165122986,
      "learning_rate": 0.0002692446434492073,
      "loss": 3.8346,
      "step": 101180
    },
    {
      "epoch": 0.2108125,
      "grad_norm": 0.8557885885238647,
      "learning_rate": 0.0002692386624382765,
      "loss": 3.9747,
      "step": 101190
    },
    {
      "epoch": 0.21083333333333334,
      "grad_norm": 0.8117541670799255,
      "learning_rate": 0.0002692326809122818,
      "loss": 3.8675,
      "step": 101200
    },
    {
      "epoch": 0.21085416666666668,
      "grad_norm": 0.7949894070625305,
      "learning_rate": 0.00026922669887124913,
      "loss": 3.8146,
      "step": 101210
    },
    {
      "epoch": 0.210875,
      "grad_norm": 0.7698141932487488,
      "learning_rate": 0.0002692207163152044,
      "loss": 3.9943,
      "step": 101220
    },
    {
      "epoch": 0.21089583333333334,
      "grad_norm": 0.8617931604385376,
      "learning_rate": 0.00026921473324417327,
      "loss": 3.9423,
      "step": 101230
    },
    {
      "epoch": 0.21091666666666667,
      "grad_norm": 0.7801691293716431,
      "learning_rate": 0.0002692087496581817,
      "loss": 3.9933,
      "step": 101240
    },
    {
      "epoch": 0.2109375,
      "grad_norm": 0.7268981337547302,
      "learning_rate": 0.0002692027655572555,
      "loss": 3.9493,
      "step": 101250
    },
    {
      "epoch": 0.21095833333333333,
      "grad_norm": 0.8417555093765259,
      "learning_rate": 0.0002691967809414206,
      "loss": 3.9974,
      "step": 101260
    },
    {
      "epoch": 0.21097916666666666,
      "grad_norm": 0.7841132283210754,
      "learning_rate": 0.00026919079581070275,
      "loss": 4.0388,
      "step": 101270
    },
    {
      "epoch": 0.211,
      "grad_norm": 0.7825107574462891,
      "learning_rate": 0.00026918481016512786,
      "loss": 3.8295,
      "step": 101280
    },
    {
      "epoch": 0.21102083333333332,
      "grad_norm": 0.9452253580093384,
      "learning_rate": 0.00026917882400472173,
      "loss": 4.0078,
      "step": 101290
    },
    {
      "epoch": 0.21104166666666666,
      "grad_norm": 0.773239016532898,
      "learning_rate": 0.00026917283732951034,
      "loss": 3.8739,
      "step": 101300
    },
    {
      "epoch": 0.2110625,
      "grad_norm": 0.7082853317260742,
      "learning_rate": 0.0002691668501395194,
      "loss": 3.8803,
      "step": 101310
    },
    {
      "epoch": 0.21108333333333335,
      "grad_norm": 0.8155280947685242,
      "learning_rate": 0.00026916086243477475,
      "loss": 4.1947,
      "step": 101320
    },
    {
      "epoch": 0.21110416666666668,
      "grad_norm": 0.6907743811607361,
      "learning_rate": 0.0002691548742153025,
      "loss": 3.8008,
      "step": 101330
    },
    {
      "epoch": 0.211125,
      "grad_norm": 0.8461233377456665,
      "learning_rate": 0.00026914888548112823,
      "loss": 4.0174,
      "step": 101340
    },
    {
      "epoch": 0.21114583333333334,
      "grad_norm": 0.9016892910003662,
      "learning_rate": 0.000269142896232278,
      "loss": 4.026,
      "step": 101350
    },
    {
      "epoch": 0.21116666666666667,
      "grad_norm": 0.736811101436615,
      "learning_rate": 0.00026913690646877765,
      "loss": 3.9046,
      "step": 101360
    },
    {
      "epoch": 0.2111875,
      "grad_norm": 0.8122937083244324,
      "learning_rate": 0.000269130916190653,
      "loss": 3.9382,
      "step": 101370
    },
    {
      "epoch": 0.21120833333333333,
      "grad_norm": 0.7200863361358643,
      "learning_rate": 0.00026912492539792987,
      "loss": 3.7608,
      "step": 101380
    },
    {
      "epoch": 0.21122916666666666,
      "grad_norm": 0.6763854026794434,
      "learning_rate": 0.0002691189340906343,
      "loss": 3.9085,
      "step": 101390
    },
    {
      "epoch": 0.21125,
      "grad_norm": 0.6256564855575562,
      "learning_rate": 0.0002691129422687921,
      "loss": 3.8341,
      "step": 101400
    },
    {
      "epoch": 0.21127083333333332,
      "grad_norm": 0.7168192863464355,
      "learning_rate": 0.00026910694993242907,
      "loss": 3.7341,
      "step": 101410
    },
    {
      "epoch": 0.21129166666666666,
      "grad_norm": 0.773725688457489,
      "learning_rate": 0.0002691009570815712,
      "loss": 3.9621,
      "step": 101420
    },
    {
      "epoch": 0.2113125,
      "grad_norm": 0.7964165806770325,
      "learning_rate": 0.00026909496371624433,
      "loss": 3.7952,
      "step": 101430
    },
    {
      "epoch": 0.21133333333333335,
      "grad_norm": 0.7489926815032959,
      "learning_rate": 0.0002690889698364744,
      "loss": 4.0362,
      "step": 101440
    },
    {
      "epoch": 0.21135416666666668,
      "grad_norm": 0.6828926205635071,
      "learning_rate": 0.0002690829754422872,
      "loss": 3.98,
      "step": 101450
    },
    {
      "epoch": 0.211375,
      "grad_norm": 0.7501125335693359,
      "learning_rate": 0.0002690769805337086,
      "loss": 3.8035,
      "step": 101460
    },
    {
      "epoch": 0.21139583333333334,
      "grad_norm": 0.7287818789482117,
      "learning_rate": 0.00026907098511076477,
      "loss": 3.9405,
      "step": 101470
    },
    {
      "epoch": 0.21141666666666667,
      "grad_norm": 0.8872655630111694,
      "learning_rate": 0.0002690649891734813,
      "loss": 3.9516,
      "step": 101480
    },
    {
      "epoch": 0.2114375,
      "grad_norm": 0.8197237849235535,
      "learning_rate": 0.0002690589927218842,
      "loss": 3.8783,
      "step": 101490
    },
    {
      "epoch": 0.21145833333333333,
      "grad_norm": 0.727516233921051,
      "learning_rate": 0.00026905299575599945,
      "loss": 3.7657,
      "step": 101500
    },
    {
      "epoch": 0.21147916666666666,
      "grad_norm": 0.7150389552116394,
      "learning_rate": 0.0002690469982758528,
      "loss": 4.0368,
      "step": 101510
    },
    {
      "epoch": 0.2115,
      "grad_norm": 0.7241448163986206,
      "learning_rate": 0.0002690410002814703,
      "loss": 4.0007,
      "step": 101520
    },
    {
      "epoch": 0.21152083333333332,
      "grad_norm": 0.7516583800315857,
      "learning_rate": 0.0002690350017728778,
      "loss": 3.7458,
      "step": 101530
    },
    {
      "epoch": 0.21154166666666666,
      "grad_norm": 0.6799235939979553,
      "learning_rate": 0.0002690290027501012,
      "loss": 4.0149,
      "step": 101540
    },
    {
      "epoch": 0.2115625,
      "grad_norm": 0.8281518220901489,
      "learning_rate": 0.0002690230032131664,
      "loss": 4.0347,
      "step": 101550
    },
    {
      "epoch": 0.21158333333333335,
      "grad_norm": 0.7532950043678284,
      "learning_rate": 0.00026901700316209936,
      "loss": 4.0255,
      "step": 101560
    },
    {
      "epoch": 0.21160416666666668,
      "grad_norm": 0.87919020652771,
      "learning_rate": 0.0002690110025969259,
      "loss": 3.9045,
      "step": 101570
    },
    {
      "epoch": 0.211625,
      "grad_norm": 0.7727704644203186,
      "learning_rate": 0.00026900500151767217,
      "loss": 3.8065,
      "step": 101580
    },
    {
      "epoch": 0.21164583333333334,
      "grad_norm": 0.7319427728652954,
      "learning_rate": 0.0002689989999243638,
      "loss": 3.9018,
      "step": 101590
    },
    {
      "epoch": 0.21166666666666667,
      "grad_norm": 0.8042263984680176,
      "learning_rate": 0.00026899299781702694,
      "loss": 3.9037,
      "step": 101600
    },
    {
      "epoch": 0.2116875,
      "grad_norm": 0.785496711730957,
      "learning_rate": 0.0002689869951956874,
      "loss": 3.9505,
      "step": 101610
    },
    {
      "epoch": 0.21170833333333333,
      "grad_norm": 0.7060412764549255,
      "learning_rate": 0.0002689809920603711,
      "loss": 3.8536,
      "step": 101620
    },
    {
      "epoch": 0.21172916666666666,
      "grad_norm": 0.8036321997642517,
      "learning_rate": 0.00026897498841110405,
      "loss": 3.8078,
      "step": 101630
    },
    {
      "epoch": 0.21175,
      "grad_norm": 0.7490014433860779,
      "learning_rate": 0.00026896898424791214,
      "loss": 3.8779,
      "step": 101640
    },
    {
      "epoch": 0.21177083333333332,
      "grad_norm": 0.7449133992195129,
      "learning_rate": 0.00026896297957082135,
      "loss": 4.0354,
      "step": 101650
    },
    {
      "epoch": 0.21179166666666666,
      "grad_norm": 0.7575647830963135,
      "learning_rate": 0.0002689569743798575,
      "loss": 3.8706,
      "step": 101660
    },
    {
      "epoch": 0.2118125,
      "grad_norm": 0.6808041334152222,
      "learning_rate": 0.00026895096867504665,
      "loss": 3.776,
      "step": 101670
    },
    {
      "epoch": 0.21183333333333335,
      "grad_norm": 0.705390214920044,
      "learning_rate": 0.0002689449624564147,
      "loss": 3.8117,
      "step": 101680
    },
    {
      "epoch": 0.21185416666666668,
      "grad_norm": 0.7704113125801086,
      "learning_rate": 0.0002689389557239876,
      "loss": 3.7795,
      "step": 101690
    },
    {
      "epoch": 0.211875,
      "grad_norm": 0.8617448806762695,
      "learning_rate": 0.00026893294847779125,
      "loss": 3.8507,
      "step": 101700
    },
    {
      "epoch": 0.21189583333333334,
      "grad_norm": 0.9044981002807617,
      "learning_rate": 0.00026892694071785166,
      "loss": 4.0114,
      "step": 101710
    },
    {
      "epoch": 0.21191666666666667,
      "grad_norm": 0.8212941288948059,
      "learning_rate": 0.0002689209324441948,
      "loss": 4.0032,
      "step": 101720
    },
    {
      "epoch": 0.2119375,
      "grad_norm": 0.917941153049469,
      "learning_rate": 0.0002689149236568465,
      "loss": 3.9251,
      "step": 101730
    },
    {
      "epoch": 0.21195833333333333,
      "grad_norm": 0.7857261896133423,
      "learning_rate": 0.00026890891435583285,
      "loss": 3.8619,
      "step": 101740
    },
    {
      "epoch": 0.21197916666666666,
      "grad_norm": 1.1743850708007812,
      "learning_rate": 0.00026890290454117976,
      "loss": 3.992,
      "step": 101750
    },
    {
      "epoch": 0.212,
      "grad_norm": 0.8144389390945435,
      "learning_rate": 0.0002688968942129132,
      "loss": 4.0246,
      "step": 101760
    },
    {
      "epoch": 0.21202083333333333,
      "grad_norm": 0.827150821685791,
      "learning_rate": 0.0002688908833710591,
      "loss": 4.0306,
      "step": 101770
    },
    {
      "epoch": 0.21204166666666666,
      "grad_norm": 0.7052580118179321,
      "learning_rate": 0.00026888487201564345,
      "loss": 3.9917,
      "step": 101780
    },
    {
      "epoch": 0.2120625,
      "grad_norm": 0.8677448630332947,
      "learning_rate": 0.0002688788601466922,
      "loss": 3.9206,
      "step": 101790
    },
    {
      "epoch": 0.21208333333333335,
      "grad_norm": 0.6731429696083069,
      "learning_rate": 0.00026887284776423134,
      "loss": 3.8156,
      "step": 101800
    },
    {
      "epoch": 0.21210416666666668,
      "grad_norm": 0.8419640064239502,
      "learning_rate": 0.00026886683486828685,
      "loss": 3.755,
      "step": 101810
    },
    {
      "epoch": 0.212125,
      "grad_norm": 0.8198195099830627,
      "learning_rate": 0.00026886082145888464,
      "loss": 3.8881,
      "step": 101820
    },
    {
      "epoch": 0.21214583333333334,
      "grad_norm": 0.8400870561599731,
      "learning_rate": 0.0002688548075360508,
      "loss": 3.9401,
      "step": 101830
    },
    {
      "epoch": 0.21216666666666667,
      "grad_norm": 0.7324418425559998,
      "learning_rate": 0.00026884879309981116,
      "loss": 4.0222,
      "step": 101840
    },
    {
      "epoch": 0.2121875,
      "grad_norm": 0.7792113423347473,
      "learning_rate": 0.00026884277815019184,
      "loss": 4.0837,
      "step": 101850
    },
    {
      "epoch": 0.21220833333333333,
      "grad_norm": 0.8094585537910461,
      "learning_rate": 0.0002688367626872187,
      "loss": 3.8978,
      "step": 101860
    },
    {
      "epoch": 0.21222916666666666,
      "grad_norm": 0.6523857712745667,
      "learning_rate": 0.00026883074671091783,
      "loss": 3.9772,
      "step": 101870
    },
    {
      "epoch": 0.21225,
      "grad_norm": 0.7404894232749939,
      "learning_rate": 0.00026882473022131514,
      "loss": 3.9345,
      "step": 101880
    },
    {
      "epoch": 0.21227083333333333,
      "grad_norm": 0.7448127269744873,
      "learning_rate": 0.00026881871321843666,
      "loss": 3.9813,
      "step": 101890
    },
    {
      "epoch": 0.21229166666666666,
      "grad_norm": 0.8063109517097473,
      "learning_rate": 0.00026881269570230837,
      "loss": 3.8895,
      "step": 101900
    },
    {
      "epoch": 0.2123125,
      "grad_norm": 0.7606075406074524,
      "learning_rate": 0.0002688066776729563,
      "loss": 3.9711,
      "step": 101910
    },
    {
      "epoch": 0.21233333333333335,
      "grad_norm": 0.7763221263885498,
      "learning_rate": 0.0002688006591304063,
      "loss": 3.7966,
      "step": 101920
    },
    {
      "epoch": 0.21235416666666668,
      "grad_norm": 0.9131444692611694,
      "learning_rate": 0.00026879464007468465,
      "loss": 3.9333,
      "step": 101930
    },
    {
      "epoch": 0.212375,
      "grad_norm": 0.7246547937393188,
      "learning_rate": 0.00026878862050581703,
      "loss": 3.6485,
      "step": 101940
    },
    {
      "epoch": 0.21239583333333334,
      "grad_norm": 0.8146539926528931,
      "learning_rate": 0.00026878260042382965,
      "loss": 4.0253,
      "step": 101950
    },
    {
      "epoch": 0.21241666666666667,
      "grad_norm": 0.7101246118545532,
      "learning_rate": 0.0002687765798287484,
      "loss": 3.8005,
      "step": 101960
    },
    {
      "epoch": 0.2124375,
      "grad_norm": 0.7135463953018188,
      "learning_rate": 0.0002687705587205994,
      "loss": 3.9231,
      "step": 101970
    },
    {
      "epoch": 0.21245833333333333,
      "grad_norm": 0.7801119089126587,
      "learning_rate": 0.00026876453709940857,
      "loss": 3.8731,
      "step": 101980
    },
    {
      "epoch": 0.21247916666666666,
      "grad_norm": 0.7425222992897034,
      "learning_rate": 0.000268758514965202,
      "loss": 4.0029,
      "step": 101990
    },
    {
      "epoch": 0.2125,
      "grad_norm": 0.7243941426277161,
      "learning_rate": 0.0002687524923180056,
      "loss": 3.9541,
      "step": 102000
    },
    {
      "epoch": 0.2125,
      "eval_loss": 4.257933139801025,
      "eval_runtime": 10.5741,
      "eval_samples_per_second": 0.946,
      "eval_steps_per_second": 0.284,
      "step": 102000
    },
    {
      "epoch": 0.21252083333333333,
      "grad_norm": 0.7978315949440002,
      "learning_rate": 0.0002687464691578455,
      "loss": 3.92,
      "step": 102010
    },
    {
      "epoch": 0.21254166666666666,
      "grad_norm": 0.681343138217926,
      "learning_rate": 0.00026874044548474757,
      "loss": 4.0246,
      "step": 102020
    },
    {
      "epoch": 0.2125625,
      "grad_norm": 0.7588603496551514,
      "learning_rate": 0.000268734421298738,
      "loss": 3.916,
      "step": 102030
    },
    {
      "epoch": 0.21258333333333335,
      "grad_norm": 0.8589641451835632,
      "learning_rate": 0.0002687283965998426,
      "loss": 4.0735,
      "step": 102040
    },
    {
      "epoch": 0.21260416666666668,
      "grad_norm": 0.7631565928459167,
      "learning_rate": 0.00026872237138808765,
      "loss": 4.1029,
      "step": 102050
    },
    {
      "epoch": 0.212625,
      "grad_norm": 0.8590434789657593,
      "learning_rate": 0.000268716345663499,
      "loss": 3.9569,
      "step": 102060
    },
    {
      "epoch": 0.21264583333333334,
      "grad_norm": 0.838293731212616,
      "learning_rate": 0.0002687103194261028,
      "loss": 4.0072,
      "step": 102070
    },
    {
      "epoch": 0.21266666666666667,
      "grad_norm": 0.7529684901237488,
      "learning_rate": 0.00026870429267592487,
      "loss": 3.817,
      "step": 102080
    },
    {
      "epoch": 0.2126875,
      "grad_norm": 0.7946373224258423,
      "learning_rate": 0.00026869826541299144,
      "loss": 3.8726,
      "step": 102090
    },
    {
      "epoch": 0.21270833333333333,
      "grad_norm": 0.9467531442642212,
      "learning_rate": 0.00026869223763732855,
      "loss": 3.9858,
      "step": 102100
    },
    {
      "epoch": 0.21272916666666666,
      "grad_norm": 0.7930809855461121,
      "learning_rate": 0.0002686862093489621,
      "loss": 3.9987,
      "step": 102110
    },
    {
      "epoch": 0.21275,
      "grad_norm": 0.761275589466095,
      "learning_rate": 0.00026868018054791823,
      "loss": 4.1218,
      "step": 102120
    },
    {
      "epoch": 0.21277083333333333,
      "grad_norm": 0.7149988412857056,
      "learning_rate": 0.000268674151234223,
      "loss": 4.0132,
      "step": 102130
    },
    {
      "epoch": 0.21279166666666666,
      "grad_norm": 0.8866239190101624,
      "learning_rate": 0.00026866812140790235,
      "loss": 4.0156,
      "step": 102140
    },
    {
      "epoch": 0.2128125,
      "grad_norm": 0.7645127773284912,
      "learning_rate": 0.00026866209106898246,
      "loss": 3.8962,
      "step": 102150
    },
    {
      "epoch": 0.21283333333333335,
      "grad_norm": 0.7490736246109009,
      "learning_rate": 0.0002686560602174892,
      "loss": 3.9405,
      "step": 102160
    },
    {
      "epoch": 0.21285416666666668,
      "grad_norm": 0.7333042621612549,
      "learning_rate": 0.0002686500288534488,
      "loss": 3.8867,
      "step": 102170
    },
    {
      "epoch": 0.212875,
      "grad_norm": 0.7217627167701721,
      "learning_rate": 0.0002686439969768872,
      "loss": 3.927,
      "step": 102180
    },
    {
      "epoch": 0.21289583333333334,
      "grad_norm": 0.7511118054389954,
      "learning_rate": 0.00026863796458783057,
      "loss": 3.8395,
      "step": 102190
    },
    {
      "epoch": 0.21291666666666667,
      "grad_norm": 0.76315838098526,
      "learning_rate": 0.0002686319316863048,
      "loss": 4.1199,
      "step": 102200
    },
    {
      "epoch": 0.2129375,
      "grad_norm": 0.873668909072876,
      "learning_rate": 0.0002686258982723361,
      "loss": 3.9224,
      "step": 102210
    },
    {
      "epoch": 0.21295833333333333,
      "grad_norm": 0.6979446411132812,
      "learning_rate": 0.00026861986434595044,
      "loss": 3.9083,
      "step": 102220
    },
    {
      "epoch": 0.21297916666666666,
      "grad_norm": 0.7413837909698486,
      "learning_rate": 0.00026861382990717397,
      "loss": 3.8842,
      "step": 102230
    },
    {
      "epoch": 0.213,
      "grad_norm": 0.7603200674057007,
      "learning_rate": 0.00026860779495603267,
      "loss": 3.8725,
      "step": 102240
    },
    {
      "epoch": 0.21302083333333333,
      "grad_norm": 0.8010658025741577,
      "learning_rate": 0.0002686017594925526,
      "loss": 3.8885,
      "step": 102250
    },
    {
      "epoch": 0.21304166666666666,
      "grad_norm": 0.8114608526229858,
      "learning_rate": 0.00026859572351675996,
      "loss": 4.0786,
      "step": 102260
    },
    {
      "epoch": 0.2130625,
      "grad_norm": 0.7454273104667664,
      "learning_rate": 0.0002685896870286807,
      "loss": 3.8122,
      "step": 102270
    },
    {
      "epoch": 0.21308333333333335,
      "grad_norm": 0.7505452632904053,
      "learning_rate": 0.00026858365002834097,
      "loss": 3.8651,
      "step": 102280
    },
    {
      "epoch": 0.21310416666666668,
      "grad_norm": 0.6873261332511902,
      "learning_rate": 0.0002685776125157667,
      "loss": 3.869,
      "step": 102290
    },
    {
      "epoch": 0.213125,
      "grad_norm": 0.7360709309577942,
      "learning_rate": 0.0002685715744909842,
      "loss": 3.8295,
      "step": 102300
    },
    {
      "epoch": 0.21314583333333334,
      "grad_norm": 0.7566107511520386,
      "learning_rate": 0.00026856553595401935,
      "loss": 3.956,
      "step": 102310
    },
    {
      "epoch": 0.21316666666666667,
      "grad_norm": 0.7553548216819763,
      "learning_rate": 0.0002685594969048984,
      "loss": 3.989,
      "step": 102320
    },
    {
      "epoch": 0.2131875,
      "grad_norm": 0.7375275492668152,
      "learning_rate": 0.00026855345734364726,
      "loss": 3.9449,
      "step": 102330
    },
    {
      "epoch": 0.21320833333333333,
      "grad_norm": 0.9017612338066101,
      "learning_rate": 0.0002685474172702922,
      "loss": 3.8942,
      "step": 102340
    },
    {
      "epoch": 0.21322916666666666,
      "grad_norm": 0.764139711856842,
      "learning_rate": 0.00026854137668485916,
      "loss": 3.8897,
      "step": 102350
    },
    {
      "epoch": 0.21325,
      "grad_norm": 0.7723730206489563,
      "learning_rate": 0.0002685353355873743,
      "loss": 3.9012,
      "step": 102360
    },
    {
      "epoch": 0.21327083333333333,
      "grad_norm": 0.6823552846908569,
      "learning_rate": 0.00026852929397786374,
      "loss": 3.9441,
      "step": 102370
    },
    {
      "epoch": 0.21329166666666666,
      "grad_norm": 0.7374151349067688,
      "learning_rate": 0.00026852325185635354,
      "loss": 3.8815,
      "step": 102380
    },
    {
      "epoch": 0.2133125,
      "grad_norm": 0.7097358107566833,
      "learning_rate": 0.0002685172092228698,
      "loss": 3.9217,
      "step": 102390
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 0.9499896764755249,
      "learning_rate": 0.0002685111660774386,
      "loss": 3.9072,
      "step": 102400
    },
    {
      "epoch": 0.21335416666666668,
      "grad_norm": 0.7470501661300659,
      "learning_rate": 0.0002685051224200861,
      "loss": 3.8578,
      "step": 102410
    },
    {
      "epoch": 0.213375,
      "grad_norm": 0.7761180996894836,
      "learning_rate": 0.0002684990782508384,
      "loss": 4.0244,
      "step": 102420
    },
    {
      "epoch": 0.21339583333333334,
      "grad_norm": 0.8002363443374634,
      "learning_rate": 0.0002684930335697215,
      "loss": 3.873,
      "step": 102430
    },
    {
      "epoch": 0.21341666666666667,
      "grad_norm": 0.8261585235595703,
      "learning_rate": 0.00026848698837676175,
      "loss": 4.1082,
      "step": 102440
    },
    {
      "epoch": 0.2134375,
      "grad_norm": 0.79581618309021,
      "learning_rate": 0.000268480942671985,
      "loss": 3.9881,
      "step": 102450
    },
    {
      "epoch": 0.21345833333333333,
      "grad_norm": 1.0859493017196655,
      "learning_rate": 0.0002684748964554175,
      "loss": 3.9886,
      "step": 102460
    },
    {
      "epoch": 0.21347916666666666,
      "grad_norm": 0.8346890211105347,
      "learning_rate": 0.00026846884972708536,
      "loss": 4.0271,
      "step": 102470
    },
    {
      "epoch": 0.2135,
      "grad_norm": 0.6516628265380859,
      "learning_rate": 0.00026846280248701463,
      "loss": 3.9529,
      "step": 102480
    },
    {
      "epoch": 0.21352083333333333,
      "grad_norm": 0.8331006765365601,
      "learning_rate": 0.00026845675473523154,
      "loss": 3.9675,
      "step": 102490
    },
    {
      "epoch": 0.21354166666666666,
      "grad_norm": 0.7599084973335266,
      "learning_rate": 0.0002684507064717621,
      "loss": 3.9758,
      "step": 102500
    },
    {
      "epoch": 0.2135625,
      "grad_norm": 0.7038829326629639,
      "learning_rate": 0.0002684446576966325,
      "loss": 3.898,
      "step": 102510
    },
    {
      "epoch": 0.21358333333333332,
      "grad_norm": 0.7360091209411621,
      "learning_rate": 0.00026843860840986895,
      "loss": 3.8368,
      "step": 102520
    },
    {
      "epoch": 0.21360416666666668,
      "grad_norm": 0.7361437678337097,
      "learning_rate": 0.00026843255861149737,
      "loss": 4.0167,
      "step": 102530
    },
    {
      "epoch": 0.213625,
      "grad_norm": 0.9330411553382874,
      "learning_rate": 0.00026842650830154413,
      "loss": 4.0012,
      "step": 102540
    },
    {
      "epoch": 0.21364583333333334,
      "grad_norm": 0.8259146213531494,
      "learning_rate": 0.0002684204574800352,
      "loss": 3.9611,
      "step": 102550
    },
    {
      "epoch": 0.21366666666666667,
      "grad_norm": 0.6997962594032288,
      "learning_rate": 0.0002684144061469968,
      "loss": 3.9073,
      "step": 102560
    },
    {
      "epoch": 0.2136875,
      "grad_norm": 0.9808492064476013,
      "learning_rate": 0.000268408354302455,
      "loss": 3.8694,
      "step": 102570
    },
    {
      "epoch": 0.21370833333333333,
      "grad_norm": 0.8506420850753784,
      "learning_rate": 0.00026840230194643595,
      "loss": 3.8944,
      "step": 102580
    },
    {
      "epoch": 0.21372916666666666,
      "grad_norm": 0.7658294439315796,
      "learning_rate": 0.00026839624907896585,
      "loss": 3.7559,
      "step": 102590
    },
    {
      "epoch": 0.21375,
      "grad_norm": 0.7188820242881775,
      "learning_rate": 0.0002683901957000708,
      "loss": 3.9622,
      "step": 102600
    },
    {
      "epoch": 0.21377083333333333,
      "grad_norm": 0.6906453371047974,
      "learning_rate": 0.000268384141809777,
      "loss": 3.721,
      "step": 102610
    },
    {
      "epoch": 0.21379166666666666,
      "grad_norm": 0.7976897358894348,
      "learning_rate": 0.0002683780874081106,
      "loss": 3.8533,
      "step": 102620
    },
    {
      "epoch": 0.2138125,
      "grad_norm": 0.821456789970398,
      "learning_rate": 0.00026837203249509766,
      "loss": 4.0668,
      "step": 102630
    },
    {
      "epoch": 0.21383333333333332,
      "grad_norm": 0.7323678135871887,
      "learning_rate": 0.00026836597707076437,
      "loss": 3.8987,
      "step": 102640
    },
    {
      "epoch": 0.21385416666666668,
      "grad_norm": 0.846759557723999,
      "learning_rate": 0.00026835992113513705,
      "loss": 4.096,
      "step": 102650
    },
    {
      "epoch": 0.213875,
      "grad_norm": 0.7387557625770569,
      "learning_rate": 0.00026835386468824156,
      "loss": 3.9384,
      "step": 102660
    },
    {
      "epoch": 0.21389583333333334,
      "grad_norm": 0.8009338974952698,
      "learning_rate": 0.0002683478077301043,
      "loss": 3.7237,
      "step": 102670
    },
    {
      "epoch": 0.21391666666666667,
      "grad_norm": 0.7991369962692261,
      "learning_rate": 0.0002683417502607513,
      "loss": 4.1183,
      "step": 102680
    },
    {
      "epoch": 0.2139375,
      "grad_norm": 0.7126520276069641,
      "learning_rate": 0.0002683356922802089,
      "loss": 3.7857,
      "step": 102690
    },
    {
      "epoch": 0.21395833333333333,
      "grad_norm": 0.689676821231842,
      "learning_rate": 0.00026832963378850306,
      "loss": 3.8488,
      "step": 102700
    },
    {
      "epoch": 0.21397916666666666,
      "grad_norm": 0.8616625666618347,
      "learning_rate": 0.00026832357478566004,
      "loss": 3.9005,
      "step": 102710
    },
    {
      "epoch": 0.214,
      "grad_norm": 0.8223869800567627,
      "learning_rate": 0.000268317515271706,
      "loss": 3.9147,
      "step": 102720
    },
    {
      "epoch": 0.21402083333333333,
      "grad_norm": 0.7108721733093262,
      "learning_rate": 0.00026831145524666716,
      "loss": 3.7697,
      "step": 102730
    },
    {
      "epoch": 0.21404166666666666,
      "grad_norm": 0.7605945467948914,
      "learning_rate": 0.00026830539471056966,
      "loss": 3.8239,
      "step": 102740
    },
    {
      "epoch": 0.2140625,
      "grad_norm": 0.776104211807251,
      "learning_rate": 0.0002682993336634397,
      "loss": 3.9029,
      "step": 102750
    },
    {
      "epoch": 0.21408333333333332,
      "grad_norm": 0.9401202201843262,
      "learning_rate": 0.0002682932721053035,
      "loss": 3.9727,
      "step": 102760
    },
    {
      "epoch": 0.21410416666666668,
      "grad_norm": 0.7934325933456421,
      "learning_rate": 0.00026828721003618704,
      "loss": 4.1223,
      "step": 102770
    },
    {
      "epoch": 0.214125,
      "grad_norm": 0.6608116626739502,
      "learning_rate": 0.00026828114745611675,
      "loss": 3.7889,
      "step": 102780
    },
    {
      "epoch": 0.21414583333333334,
      "grad_norm": 0.714304506778717,
      "learning_rate": 0.0002682750843651187,
      "loss": 3.9216,
      "step": 102790
    },
    {
      "epoch": 0.21416666666666667,
      "grad_norm": 0.8999590277671814,
      "learning_rate": 0.00026826902076321907,
      "loss": 4.0489,
      "step": 102800
    },
    {
      "epoch": 0.2141875,
      "grad_norm": 0.7042125463485718,
      "learning_rate": 0.00026826295665044415,
      "loss": 3.9472,
      "step": 102810
    },
    {
      "epoch": 0.21420833333333333,
      "grad_norm": 0.698754608631134,
      "learning_rate": 0.00026825689202682,
      "loss": 3.7831,
      "step": 102820
    },
    {
      "epoch": 0.21422916666666666,
      "grad_norm": 0.7814480066299438,
      "learning_rate": 0.000268250826892373,
      "loss": 4.0915,
      "step": 102830
    },
    {
      "epoch": 0.21425,
      "grad_norm": 0.7854883074760437,
      "learning_rate": 0.0002682447612471291,
      "loss": 4.0275,
      "step": 102840
    },
    {
      "epoch": 0.21427083333333333,
      "grad_norm": 0.6874034404754639,
      "learning_rate": 0.00026823869509111473,
      "loss": 3.886,
      "step": 102850
    },
    {
      "epoch": 0.21429166666666666,
      "grad_norm": 0.6771194338798523,
      "learning_rate": 0.00026823262842435593,
      "loss": 3.7821,
      "step": 102860
    },
    {
      "epoch": 0.2143125,
      "grad_norm": 0.8384600281715393,
      "learning_rate": 0.00026822656124687904,
      "loss": 3.972,
      "step": 102870
    },
    {
      "epoch": 0.21433333333333332,
      "grad_norm": 0.6740886569023132,
      "learning_rate": 0.00026822049355871013,
      "loss": 3.9947,
      "step": 102880
    },
    {
      "epoch": 0.21435416666666668,
      "grad_norm": 0.884361207485199,
      "learning_rate": 0.00026821442535987554,
      "loss": 3.7558,
      "step": 102890
    },
    {
      "epoch": 0.214375,
      "grad_norm": 0.7294917106628418,
      "learning_rate": 0.0002682083566504014,
      "loss": 4.0087,
      "step": 102900
    },
    {
      "epoch": 0.21439583333333334,
      "grad_norm": 0.7637292146682739,
      "learning_rate": 0.00026820228743031397,
      "loss": 3.9769,
      "step": 102910
    },
    {
      "epoch": 0.21441666666666667,
      "grad_norm": 0.74226975440979,
      "learning_rate": 0.00026819621769963946,
      "loss": 3.975,
      "step": 102920
    },
    {
      "epoch": 0.2144375,
      "grad_norm": 0.6588453054428101,
      "learning_rate": 0.000268190147458404,
      "loss": 4.0354,
      "step": 102930
    },
    {
      "epoch": 0.21445833333333333,
      "grad_norm": 0.8250126242637634,
      "learning_rate": 0.00026818407670663397,
      "loss": 3.9471,
      "step": 102940
    },
    {
      "epoch": 0.21447916666666667,
      "grad_norm": 0.8836731314659119,
      "learning_rate": 0.00026817800544435546,
      "loss": 3.966,
      "step": 102950
    },
    {
      "epoch": 0.2145,
      "grad_norm": 0.6795853972434998,
      "learning_rate": 0.0002681719336715948,
      "loss": 3.9269,
      "step": 102960
    },
    {
      "epoch": 0.21452083333333333,
      "grad_norm": 0.9713950157165527,
      "learning_rate": 0.00026816586138837806,
      "loss": 3.8463,
      "step": 102970
    },
    {
      "epoch": 0.21454166666666666,
      "grad_norm": 0.7444133758544922,
      "learning_rate": 0.00026815978859473164,
      "loss": 3.8646,
      "step": 102980
    },
    {
      "epoch": 0.2145625,
      "grad_norm": 0.7613767385482788,
      "learning_rate": 0.0002681537152906817,
      "loss": 4.0952,
      "step": 102990
    },
    {
      "epoch": 0.21458333333333332,
      "grad_norm": 0.7502779364585876,
      "learning_rate": 0.0002681476414762545,
      "loss": 3.838,
      "step": 103000
    },
    {
      "epoch": 0.21458333333333332,
      "eval_loss": 4.260862827301025,
      "eval_runtime": 10.4569,
      "eval_samples_per_second": 0.956,
      "eval_steps_per_second": 0.287,
      "step": 103000
    },
    {
      "epoch": 0.21460416666666668,
      "grad_norm": 0.6982792615890503,
      "learning_rate": 0.00026814156715147623,
      "loss": 3.9598,
      "step": 103010
    },
    {
      "epoch": 0.214625,
      "grad_norm": 0.7814749479293823,
      "learning_rate": 0.00026813549231637313,
      "loss": 3.7586,
      "step": 103020
    },
    {
      "epoch": 0.21464583333333334,
      "grad_norm": 0.8365145921707153,
      "learning_rate": 0.0002681294169709715,
      "loss": 3.8582,
      "step": 103030
    },
    {
      "epoch": 0.21466666666666667,
      "grad_norm": 0.8170823454856873,
      "learning_rate": 0.0002681233411152975,
      "loss": 3.9467,
      "step": 103040
    },
    {
      "epoch": 0.2146875,
      "grad_norm": 0.8920000791549683,
      "learning_rate": 0.0002681172647493775,
      "loss": 3.7777,
      "step": 103050
    },
    {
      "epoch": 0.21470833333333333,
      "grad_norm": 0.85231614112854,
      "learning_rate": 0.0002681111878732376,
      "loss": 3.8396,
      "step": 103060
    },
    {
      "epoch": 0.21472916666666667,
      "grad_norm": 0.717993438243866,
      "learning_rate": 0.00026810511048690417,
      "loss": 3.9329,
      "step": 103070
    },
    {
      "epoch": 0.21475,
      "grad_norm": 0.7576789855957031,
      "learning_rate": 0.0002680990325904034,
      "loss": 3.8043,
      "step": 103080
    },
    {
      "epoch": 0.21477083333333333,
      "grad_norm": 0.8052340149879456,
      "learning_rate": 0.0002680929541837615,
      "loss": 3.8089,
      "step": 103090
    },
    {
      "epoch": 0.21479166666666666,
      "grad_norm": 0.6904061436653137,
      "learning_rate": 0.0002680868752670049,
      "loss": 3.8332,
      "step": 103100
    },
    {
      "epoch": 0.2148125,
      "grad_norm": 0.7217944264411926,
      "learning_rate": 0.00026808079584015964,
      "loss": 3.8662,
      "step": 103110
    },
    {
      "epoch": 0.21483333333333332,
      "grad_norm": 0.8178644180297852,
      "learning_rate": 0.0002680747159032521,
      "loss": 3.8935,
      "step": 103120
    },
    {
      "epoch": 0.21485416666666668,
      "grad_norm": 0.6505054831504822,
      "learning_rate": 0.0002680686354563085,
      "loss": 3.9768,
      "step": 103130
    },
    {
      "epoch": 0.214875,
      "grad_norm": 0.8037826418876648,
      "learning_rate": 0.0002680625544993552,
      "loss": 3.9203,
      "step": 103140
    },
    {
      "epoch": 0.21489583333333334,
      "grad_norm": 0.7412013411521912,
      "learning_rate": 0.0002680564730324184,
      "loss": 3.948,
      "step": 103150
    },
    {
      "epoch": 0.21491666666666667,
      "grad_norm": 0.7569954991340637,
      "learning_rate": 0.0002680503910555243,
      "loss": 3.9984,
      "step": 103160
    },
    {
      "epoch": 0.2149375,
      "grad_norm": 0.7454707622528076,
      "learning_rate": 0.00026804430856869924,
      "loss": 3.7551,
      "step": 103170
    },
    {
      "epoch": 0.21495833333333333,
      "grad_norm": 0.7634373903274536,
      "learning_rate": 0.00026803822557196953,
      "loss": 3.9429,
      "step": 103180
    },
    {
      "epoch": 0.21497916666666667,
      "grad_norm": 0.7058666944503784,
      "learning_rate": 0.0002680321420653614,
      "loss": 4.0497,
      "step": 103190
    },
    {
      "epoch": 0.215,
      "grad_norm": 0.7659200429916382,
      "learning_rate": 0.0002680260580489012,
      "loss": 3.9494,
      "step": 103200
    },
    {
      "epoch": 0.21502083333333333,
      "grad_norm": 0.8120572566986084,
      "learning_rate": 0.000268019973522615,
      "loss": 3.7899,
      "step": 103210
    },
    {
      "epoch": 0.21504166666666666,
      "grad_norm": 0.8189850449562073,
      "learning_rate": 0.00026801388848652935,
      "loss": 3.8968,
      "step": 103220
    },
    {
      "epoch": 0.2150625,
      "grad_norm": 0.7041645646095276,
      "learning_rate": 0.00026800780294067034,
      "loss": 3.8132,
      "step": 103230
    },
    {
      "epoch": 0.21508333333333332,
      "grad_norm": 0.7610019445419312,
      "learning_rate": 0.0002680017168850644,
      "loss": 4.0651,
      "step": 103240
    },
    {
      "epoch": 0.21510416666666668,
      "grad_norm": 0.8385465741157532,
      "learning_rate": 0.00026799563031973774,
      "loss": 4.0106,
      "step": 103250
    },
    {
      "epoch": 0.215125,
      "grad_norm": 0.754497766494751,
      "learning_rate": 0.0002679895432447166,
      "loss": 3.9309,
      "step": 103260
    },
    {
      "epoch": 0.21514583333333334,
      "grad_norm": 0.7783034443855286,
      "learning_rate": 0.0002679834556600274,
      "loss": 3.9577,
      "step": 103270
    },
    {
      "epoch": 0.21516666666666667,
      "grad_norm": 0.7606397271156311,
      "learning_rate": 0.0002679773675656964,
      "loss": 3.9848,
      "step": 103280
    },
    {
      "epoch": 0.2151875,
      "grad_norm": 0.77164226770401,
      "learning_rate": 0.0002679712789617498,
      "loss": 3.8466,
      "step": 103290
    },
    {
      "epoch": 0.21520833333333333,
      "grad_norm": 0.801077127456665,
      "learning_rate": 0.00026796518984821397,
      "loss": 3.8626,
      "step": 103300
    },
    {
      "epoch": 0.21522916666666667,
      "grad_norm": 0.8006694316864014,
      "learning_rate": 0.0002679591002251152,
      "loss": 3.8977,
      "step": 103310
    },
    {
      "epoch": 0.21525,
      "grad_norm": 0.7246871590614319,
      "learning_rate": 0.0002679530100924799,
      "loss": 3.8405,
      "step": 103320
    },
    {
      "epoch": 0.21527083333333333,
      "grad_norm": 0.7989106178283691,
      "learning_rate": 0.0002679469194503342,
      "loss": 3.8341,
      "step": 103330
    },
    {
      "epoch": 0.21529166666666666,
      "grad_norm": 1.6239168643951416,
      "learning_rate": 0.0002679408282987045,
      "loss": 4.0622,
      "step": 103340
    },
    {
      "epoch": 0.2153125,
      "grad_norm": 0.9158325791358948,
      "learning_rate": 0.00026793473663761717,
      "loss": 3.9563,
      "step": 103350
    },
    {
      "epoch": 0.21533333333333332,
      "grad_norm": 0.6992232799530029,
      "learning_rate": 0.0002679286444670984,
      "loss": 3.7751,
      "step": 103360
    },
    {
      "epoch": 0.21535416666666668,
      "grad_norm": 0.7879667282104492,
      "learning_rate": 0.00026792255178717463,
      "loss": 3.9625,
      "step": 103370
    },
    {
      "epoch": 0.215375,
      "grad_norm": 0.7148048281669617,
      "learning_rate": 0.00026791645859787207,
      "loss": 3.9527,
      "step": 103380
    },
    {
      "epoch": 0.21539583333333334,
      "grad_norm": 0.7951317429542542,
      "learning_rate": 0.00026791036489921707,
      "loss": 3.921,
      "step": 103390
    },
    {
      "epoch": 0.21541666666666667,
      "grad_norm": 0.7236343622207642,
      "learning_rate": 0.000267904270691236,
      "loss": 3.9359,
      "step": 103400
    },
    {
      "epoch": 0.2154375,
      "grad_norm": 0.7318707704544067,
      "learning_rate": 0.0002678981759739551,
      "loss": 3.8841,
      "step": 103410
    },
    {
      "epoch": 0.21545833333333334,
      "grad_norm": 0.774462103843689,
      "learning_rate": 0.0002678920807474008,
      "loss": 3.9174,
      "step": 103420
    },
    {
      "epoch": 0.21547916666666667,
      "grad_norm": 0.8632633090019226,
      "learning_rate": 0.00026788598501159935,
      "loss": 3.8909,
      "step": 103430
    },
    {
      "epoch": 0.2155,
      "grad_norm": 0.7106120586395264,
      "learning_rate": 0.0002678798887665771,
      "loss": 3.9104,
      "step": 103440
    },
    {
      "epoch": 0.21552083333333333,
      "grad_norm": 0.7379701137542725,
      "learning_rate": 0.00026787379201236044,
      "loss": 3.9152,
      "step": 103450
    },
    {
      "epoch": 0.21554166666666666,
      "grad_norm": 0.7571840882301331,
      "learning_rate": 0.00026786769474897556,
      "loss": 3.9346,
      "step": 103460
    },
    {
      "epoch": 0.2155625,
      "grad_norm": 0.6822111010551453,
      "learning_rate": 0.000267861596976449,
      "loss": 3.8323,
      "step": 103470
    },
    {
      "epoch": 0.21558333333333332,
      "grad_norm": 0.7523879408836365,
      "learning_rate": 0.0002678554986948069,
      "loss": 3.8893,
      "step": 103480
    },
    {
      "epoch": 0.21560416666666668,
      "grad_norm": 0.7549329996109009,
      "learning_rate": 0.00026784939990407575,
      "loss": 3.8454,
      "step": 103490
    },
    {
      "epoch": 0.215625,
      "grad_norm": 0.6732136011123657,
      "learning_rate": 0.00026784330060428184,
      "loss": 3.92,
      "step": 103500
    },
    {
      "epoch": 0.21564583333333334,
      "grad_norm": 0.7138423323631287,
      "learning_rate": 0.0002678372007954515,
      "loss": 3.766,
      "step": 103510
    },
    {
      "epoch": 0.21566666666666667,
      "grad_norm": 0.653668224811554,
      "learning_rate": 0.0002678311004776111,
      "loss": 4.0385,
      "step": 103520
    },
    {
      "epoch": 0.2156875,
      "grad_norm": 0.8782212138175964,
      "learning_rate": 0.000267824999650787,
      "loss": 3.8297,
      "step": 103530
    },
    {
      "epoch": 0.21570833333333334,
      "grad_norm": 0.7806443572044373,
      "learning_rate": 0.00026781889831500557,
      "loss": 3.7766,
      "step": 103540
    },
    {
      "epoch": 0.21572916666666667,
      "grad_norm": 0.7511743307113647,
      "learning_rate": 0.00026781279647029307,
      "loss": 3.9426,
      "step": 103550
    },
    {
      "epoch": 0.21575,
      "grad_norm": 0.7026357054710388,
      "learning_rate": 0.00026780669411667596,
      "loss": 3.8873,
      "step": 103560
    },
    {
      "epoch": 0.21577083333333333,
      "grad_norm": 0.8051574230194092,
      "learning_rate": 0.00026780059125418055,
      "loss": 3.8866,
      "step": 103570
    },
    {
      "epoch": 0.21579166666666666,
      "grad_norm": 0.8536532521247864,
      "learning_rate": 0.0002677944878828332,
      "loss": 3.9817,
      "step": 103580
    },
    {
      "epoch": 0.2158125,
      "grad_norm": 0.7482403516769409,
      "learning_rate": 0.0002677883840026603,
      "loss": 3.9137,
      "step": 103590
    },
    {
      "epoch": 0.21583333333333332,
      "grad_norm": 0.948333203792572,
      "learning_rate": 0.0002677822796136882,
      "loss": 3.9617,
      "step": 103600
    },
    {
      "epoch": 0.21585416666666668,
      "grad_norm": 0.7991553544998169,
      "learning_rate": 0.00026777617471594327,
      "loss": 3.7469,
      "step": 103610
    },
    {
      "epoch": 0.215875,
      "grad_norm": 0.8696415424346924,
      "learning_rate": 0.0002677700693094519,
      "loss": 3.8768,
      "step": 103620
    },
    {
      "epoch": 0.21589583333333334,
      "grad_norm": 0.8170913457870483,
      "learning_rate": 0.0002677639633942405,
      "loss": 3.8417,
      "step": 103630
    },
    {
      "epoch": 0.21591666666666667,
      "grad_norm": 0.7533899545669556,
      "learning_rate": 0.00026775785697033533,
      "loss": 3.8518,
      "step": 103640
    },
    {
      "epoch": 0.2159375,
      "grad_norm": 0.773405909538269,
      "learning_rate": 0.00026775175003776285,
      "loss": 3.8078,
      "step": 103650
    },
    {
      "epoch": 0.21595833333333334,
      "grad_norm": 0.7714802026748657,
      "learning_rate": 0.0002677456425965494,
      "loss": 3.8635,
      "step": 103660
    },
    {
      "epoch": 0.21597916666666667,
      "grad_norm": 0.7386381030082703,
      "learning_rate": 0.00026773953464672134,
      "loss": 3.9024,
      "step": 103670
    },
    {
      "epoch": 0.216,
      "grad_norm": 0.7434378266334534,
      "learning_rate": 0.00026773342618830517,
      "loss": 3.9514,
      "step": 103680
    },
    {
      "epoch": 0.21602083333333333,
      "grad_norm": 0.7749361991882324,
      "learning_rate": 0.00026772731722132716,
      "loss": 3.891,
      "step": 103690
    },
    {
      "epoch": 0.21604166666666666,
      "grad_norm": 0.7133052349090576,
      "learning_rate": 0.0002677212077458138,
      "loss": 3.8808,
      "step": 103700
    },
    {
      "epoch": 0.2160625,
      "grad_norm": 0.7226802110671997,
      "learning_rate": 0.0002677150977617913,
      "loss": 4.0399,
      "step": 103710
    },
    {
      "epoch": 0.21608333333333332,
      "grad_norm": 0.7969832420349121,
      "learning_rate": 0.0002677089872692863,
      "loss": 3.8664,
      "step": 103720
    },
    {
      "epoch": 0.21610416666666668,
      "grad_norm": 0.7299691438674927,
      "learning_rate": 0.00026770287626832497,
      "loss": 3.8752,
      "step": 103730
    },
    {
      "epoch": 0.216125,
      "grad_norm": 0.8858870267868042,
      "learning_rate": 0.0002676967647589339,
      "loss": 4.0339,
      "step": 103740
    },
    {
      "epoch": 0.21614583333333334,
      "grad_norm": 0.711050271987915,
      "learning_rate": 0.0002676906527411393,
      "loss": 3.8653,
      "step": 103750
    },
    {
      "epoch": 0.21616666666666667,
      "grad_norm": 0.7966354489326477,
      "learning_rate": 0.0002676845402149677,
      "loss": 3.9269,
      "step": 103760
    },
    {
      "epoch": 0.2161875,
      "grad_norm": 0.6632649898529053,
      "learning_rate": 0.00026767842718044546,
      "loss": 3.9883,
      "step": 103770
    },
    {
      "epoch": 0.21620833333333334,
      "grad_norm": 0.7212406396865845,
      "learning_rate": 0.00026767231363759907,
      "loss": 3.8808,
      "step": 103780
    },
    {
      "epoch": 0.21622916666666667,
      "grad_norm": 0.754252016544342,
      "learning_rate": 0.0002676661995864548,
      "loss": 3.9677,
      "step": 103790
    },
    {
      "epoch": 0.21625,
      "grad_norm": 0.7198277711868286,
      "learning_rate": 0.00026766008502703914,
      "loss": 3.9638,
      "step": 103800
    },
    {
      "epoch": 0.21627083333333333,
      "grad_norm": 0.7945812940597534,
      "learning_rate": 0.00026765396995937846,
      "loss": 3.9757,
      "step": 103810
    },
    {
      "epoch": 0.21629166666666666,
      "grad_norm": 0.7051178216934204,
      "learning_rate": 0.0002676478543834992,
      "loss": 3.8648,
      "step": 103820
    },
    {
      "epoch": 0.2163125,
      "grad_norm": 0.8302850127220154,
      "learning_rate": 0.0002676417382994278,
      "loss": 3.8902,
      "step": 103830
    },
    {
      "epoch": 0.21633333333333332,
      "grad_norm": 1.052733302116394,
      "learning_rate": 0.0002676356217071906,
      "loss": 3.9098,
      "step": 103840
    },
    {
      "epoch": 0.21635416666666665,
      "grad_norm": 0.8028723001480103,
      "learning_rate": 0.00026762950460681415,
      "loss": 3.9258,
      "step": 103850
    },
    {
      "epoch": 0.216375,
      "grad_norm": 0.7772068977355957,
      "learning_rate": 0.00026762338699832475,
      "loss": 3.7869,
      "step": 103860
    },
    {
      "epoch": 0.21639583333333334,
      "grad_norm": 0.781239926815033,
      "learning_rate": 0.00026761726888174895,
      "loss": 3.9336,
      "step": 103870
    },
    {
      "epoch": 0.21641666666666667,
      "grad_norm": 0.8122050762176514,
      "learning_rate": 0.000267611150257113,
      "loss": 3.9407,
      "step": 103880
    },
    {
      "epoch": 0.2164375,
      "grad_norm": 0.7631456851959229,
      "learning_rate": 0.00026760503112444354,
      "loss": 4.1303,
      "step": 103890
    },
    {
      "epoch": 0.21645833333333334,
      "grad_norm": 0.7108595967292786,
      "learning_rate": 0.00026759891148376685,
      "loss": 4.0887,
      "step": 103900
    },
    {
      "epoch": 0.21647916666666667,
      "grad_norm": 0.6934673190116882,
      "learning_rate": 0.0002675927913351094,
      "loss": 3.7694,
      "step": 103910
    },
    {
      "epoch": 0.2165,
      "grad_norm": 0.7208923697471619,
      "learning_rate": 0.00026758667067849765,
      "loss": 3.8423,
      "step": 103920
    },
    {
      "epoch": 0.21652083333333333,
      "grad_norm": 0.7249716520309448,
      "learning_rate": 0.000267580549513958,
      "loss": 3.882,
      "step": 103930
    },
    {
      "epoch": 0.21654166666666666,
      "grad_norm": 0.7159674167633057,
      "learning_rate": 0.00026757442784151696,
      "loss": 3.8892,
      "step": 103940
    },
    {
      "epoch": 0.2165625,
      "grad_norm": 0.7205800414085388,
      "learning_rate": 0.00026756830566120087,
      "loss": 3.7883,
      "step": 103950
    },
    {
      "epoch": 0.21658333333333332,
      "grad_norm": 0.7518658638000488,
      "learning_rate": 0.0002675621829730363,
      "loss": 4.0217,
      "step": 103960
    },
    {
      "epoch": 0.21660416666666665,
      "grad_norm": 0.7917511463165283,
      "learning_rate": 0.00026755605977704964,
      "loss": 3.8776,
      "step": 103970
    },
    {
      "epoch": 0.216625,
      "grad_norm": 0.8439042568206787,
      "learning_rate": 0.0002675499360732673,
      "loss": 3.942,
      "step": 103980
    },
    {
      "epoch": 0.21664583333333334,
      "grad_norm": 0.8198758363723755,
      "learning_rate": 0.00026754381186171574,
      "loss": 3.8107,
      "step": 103990
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 0.7065703272819519,
      "learning_rate": 0.0002675376871424215,
      "loss": 3.8423,
      "step": 104000
    },
    {
      "epoch": 0.21666666666666667,
      "eval_loss": 4.274416923522949,
      "eval_runtime": 12.4571,
      "eval_samples_per_second": 0.803,
      "eval_steps_per_second": 0.241,
      "step": 104000
    },
    {
      "epoch": 0.2166875,
      "grad_norm": 0.7423152327537537,
      "learning_rate": 0.00026753156191541095,
      "loss": 3.9345,
      "step": 104010
    },
    {
      "epoch": 0.21670833333333334,
      "grad_norm": 0.7986307740211487,
      "learning_rate": 0.0002675254361807106,
      "loss": 3.9252,
      "step": 104020
    },
    {
      "epoch": 0.21672916666666667,
      "grad_norm": 0.9137560129165649,
      "learning_rate": 0.0002675193099383468,
      "loss": 3.9921,
      "step": 104030
    },
    {
      "epoch": 0.21675,
      "grad_norm": 0.8167948722839355,
      "learning_rate": 0.0002675131831883462,
      "loss": 3.9545,
      "step": 104040
    },
    {
      "epoch": 0.21677083333333333,
      "grad_norm": 0.791115403175354,
      "learning_rate": 0.00026750705593073514,
      "loss": 3.8376,
      "step": 104050
    },
    {
      "epoch": 0.21679166666666666,
      "grad_norm": 0.8448063731193542,
      "learning_rate": 0.00026750092816554003,
      "loss": 4.0255,
      "step": 104060
    },
    {
      "epoch": 0.2168125,
      "grad_norm": 0.7388009428977966,
      "learning_rate": 0.00026749479989278754,
      "loss": 4.0163,
      "step": 104070
    },
    {
      "epoch": 0.21683333333333332,
      "grad_norm": 0.782379150390625,
      "learning_rate": 0.0002674886711125039,
      "loss": 3.9002,
      "step": 104080
    },
    {
      "epoch": 0.21685416666666665,
      "grad_norm": 0.697393536567688,
      "learning_rate": 0.0002674825418247158,
      "loss": 3.8552,
      "step": 104090
    },
    {
      "epoch": 0.216875,
      "grad_norm": 0.7120442986488342,
      "learning_rate": 0.0002674764120294496,
      "loss": 4.0263,
      "step": 104100
    },
    {
      "epoch": 0.21689583333333334,
      "grad_norm": 0.8131166100502014,
      "learning_rate": 0.00026747028172673175,
      "loss": 3.8023,
      "step": 104110
    },
    {
      "epoch": 0.21691666666666667,
      "grad_norm": 0.7342423796653748,
      "learning_rate": 0.0002674641509165889,
      "loss": 4.049,
      "step": 104120
    },
    {
      "epoch": 0.2169375,
      "grad_norm": 0.806699275970459,
      "learning_rate": 0.00026745801959904725,
      "loss": 3.7946,
      "step": 104130
    },
    {
      "epoch": 0.21695833333333334,
      "grad_norm": 0.7331568002700806,
      "learning_rate": 0.0002674518877741336,
      "loss": 3.8278,
      "step": 104140
    },
    {
      "epoch": 0.21697916666666667,
      "grad_norm": 0.7831412553787231,
      "learning_rate": 0.0002674457554418742,
      "loss": 4.0529,
      "step": 104150
    },
    {
      "epoch": 0.217,
      "grad_norm": 0.7117398977279663,
      "learning_rate": 0.00026743962260229563,
      "loss": 3.9099,
      "step": 104160
    },
    {
      "epoch": 0.21702083333333333,
      "grad_norm": 0.6962454915046692,
      "learning_rate": 0.00026743348925542445,
      "loss": 4.0312,
      "step": 104170
    },
    {
      "epoch": 0.21704166666666666,
      "grad_norm": 0.6746824383735657,
      "learning_rate": 0.000267427355401287,
      "loss": 3.925,
      "step": 104180
    },
    {
      "epoch": 0.2170625,
      "grad_norm": 0.9637673497200012,
      "learning_rate": 0.00026742122103990985,
      "loss": 3.9378,
      "step": 104190
    },
    {
      "epoch": 0.21708333333333332,
      "grad_norm": 0.8229334950447083,
      "learning_rate": 0.00026741508617131955,
      "loss": 4.0395,
      "step": 104200
    },
    {
      "epoch": 0.21710416666666665,
      "grad_norm": 0.7581438422203064,
      "learning_rate": 0.0002674089507955425,
      "loss": 3.8309,
      "step": 104210
    },
    {
      "epoch": 0.217125,
      "grad_norm": 0.849983274936676,
      "learning_rate": 0.0002674028149126053,
      "loss": 3.8995,
      "step": 104220
    },
    {
      "epoch": 0.21714583333333334,
      "grad_norm": 0.6840772032737732,
      "learning_rate": 0.0002673966785225344,
      "loss": 4.0081,
      "step": 104230
    },
    {
      "epoch": 0.21716666666666667,
      "grad_norm": 0.8355234861373901,
      "learning_rate": 0.0002673905416253563,
      "loss": 3.9356,
      "step": 104240
    },
    {
      "epoch": 0.2171875,
      "grad_norm": 0.7818974852561951,
      "learning_rate": 0.0002673844042210976,
      "loss": 4.0173,
      "step": 104250
    },
    {
      "epoch": 0.21720833333333334,
      "grad_norm": 0.7823631167411804,
      "learning_rate": 0.00026737826630978464,
      "loss": 3.9927,
      "step": 104260
    },
    {
      "epoch": 0.21722916666666667,
      "grad_norm": 0.8428428769111633,
      "learning_rate": 0.0002673721278914441,
      "loss": 3.8545,
      "step": 104270
    },
    {
      "epoch": 0.21725,
      "grad_norm": 0.7690878510475159,
      "learning_rate": 0.0002673659889661024,
      "loss": 4.0338,
      "step": 104280
    },
    {
      "epoch": 0.21727083333333333,
      "grad_norm": 0.7697757482528687,
      "learning_rate": 0.0002673598495337861,
      "loss": 4.1381,
      "step": 104290
    },
    {
      "epoch": 0.21729166666666666,
      "grad_norm": 0.7954941391944885,
      "learning_rate": 0.00026735370959452166,
      "loss": 3.7662,
      "step": 104300
    },
    {
      "epoch": 0.2173125,
      "grad_norm": 0.8215659856796265,
      "learning_rate": 0.0002673475691483357,
      "loss": 3.8771,
      "step": 104310
    },
    {
      "epoch": 0.21733333333333332,
      "grad_norm": 0.8557404279708862,
      "learning_rate": 0.00026734142819525463,
      "loss": 3.9002,
      "step": 104320
    },
    {
      "epoch": 0.21735416666666665,
      "grad_norm": 0.8209974765777588,
      "learning_rate": 0.0002673352867353051,
      "loss": 3.9765,
      "step": 104330
    },
    {
      "epoch": 0.217375,
      "grad_norm": 0.8450025320053101,
      "learning_rate": 0.00026732914476851354,
      "loss": 3.8594,
      "step": 104340
    },
    {
      "epoch": 0.21739583333333334,
      "grad_norm": 0.9227427840232849,
      "learning_rate": 0.00026732300229490654,
      "loss": 4.0199,
      "step": 104350
    },
    {
      "epoch": 0.21741666666666667,
      "grad_norm": 0.7749657034873962,
      "learning_rate": 0.0002673168593145106,
      "loss": 3.8585,
      "step": 104360
    },
    {
      "epoch": 0.2174375,
      "grad_norm": 0.7021118402481079,
      "learning_rate": 0.00026731071582735224,
      "loss": 3.773,
      "step": 104370
    },
    {
      "epoch": 0.21745833333333334,
      "grad_norm": 0.8828438520431519,
      "learning_rate": 0.0002673045718334581,
      "loss": 3.8008,
      "step": 104380
    },
    {
      "epoch": 0.21747916666666667,
      "grad_norm": 0.7635529041290283,
      "learning_rate": 0.00026729842733285456,
      "loss": 4.0125,
      "step": 104390
    },
    {
      "epoch": 0.2175,
      "grad_norm": 0.7537969350814819,
      "learning_rate": 0.0002672922823255682,
      "loss": 4.0364,
      "step": 104400
    },
    {
      "epoch": 0.21752083333333333,
      "grad_norm": 0.826253354549408,
      "learning_rate": 0.0002672861368116257,
      "loss": 3.8463,
      "step": 104410
    },
    {
      "epoch": 0.21754166666666666,
      "grad_norm": 0.761141836643219,
      "learning_rate": 0.0002672799907910535,
      "loss": 4.0086,
      "step": 104420
    },
    {
      "epoch": 0.2175625,
      "grad_norm": 0.7776395082473755,
      "learning_rate": 0.00026727384426387816,
      "loss": 4.0605,
      "step": 104430
    },
    {
      "epoch": 0.21758333333333332,
      "grad_norm": 0.7577017545700073,
      "learning_rate": 0.00026726769723012624,
      "loss": 3.9474,
      "step": 104440
    },
    {
      "epoch": 0.21760416666666665,
      "grad_norm": 0.6962851285934448,
      "learning_rate": 0.00026726154968982423,
      "loss": 3.8337,
      "step": 104450
    },
    {
      "epoch": 0.217625,
      "grad_norm": 0.7821736931800842,
      "learning_rate": 0.0002672554016429988,
      "loss": 3.8815,
      "step": 104460
    },
    {
      "epoch": 0.21764583333333334,
      "grad_norm": 0.7570845484733582,
      "learning_rate": 0.00026724925308967644,
      "loss": 3.9793,
      "step": 104470
    },
    {
      "epoch": 0.21766666666666667,
      "grad_norm": 0.7696646451950073,
      "learning_rate": 0.00026724310402988374,
      "loss": 3.9362,
      "step": 104480
    },
    {
      "epoch": 0.2176875,
      "grad_norm": 1.0080870389938354,
      "learning_rate": 0.00026723695446364724,
      "loss": 3.9891,
      "step": 104490
    },
    {
      "epoch": 0.21770833333333334,
      "grad_norm": 0.7530809640884399,
      "learning_rate": 0.00026723080439099346,
      "loss": 3.8873,
      "step": 104500
    },
    {
      "epoch": 0.21772916666666667,
      "grad_norm": 0.9744793772697449,
      "learning_rate": 0.000267224653811949,
      "loss": 4.0277,
      "step": 104510
    },
    {
      "epoch": 0.21775,
      "grad_norm": 0.7277044653892517,
      "learning_rate": 0.00026721850272654047,
      "loss": 3.9071,
      "step": 104520
    },
    {
      "epoch": 0.21777083333333333,
      "grad_norm": 0.778976559638977,
      "learning_rate": 0.0002672123511347944,
      "loss": 3.9885,
      "step": 104530
    },
    {
      "epoch": 0.21779166666666666,
      "grad_norm": 0.7113878130912781,
      "learning_rate": 0.0002672061990367373,
      "loss": 3.8071,
      "step": 104540
    },
    {
      "epoch": 0.2178125,
      "grad_norm": 0.7919794321060181,
      "learning_rate": 0.0002672000464323959,
      "loss": 3.9251,
      "step": 104550
    },
    {
      "epoch": 0.21783333333333332,
      "grad_norm": 0.7412070631980896,
      "learning_rate": 0.0002671938933217966,
      "loss": 3.8941,
      "step": 104560
    },
    {
      "epoch": 0.21785416666666665,
      "grad_norm": 0.7718671560287476,
      "learning_rate": 0.00026718773970496617,
      "loss": 4.0387,
      "step": 104570
    },
    {
      "epoch": 0.217875,
      "grad_norm": 0.7874016165733337,
      "learning_rate": 0.0002671815855819311,
      "loss": 3.8588,
      "step": 104580
    },
    {
      "epoch": 0.21789583333333334,
      "grad_norm": 0.7471857070922852,
      "learning_rate": 0.0002671754309527179,
      "loss": 3.8398,
      "step": 104590
    },
    {
      "epoch": 0.21791666666666668,
      "grad_norm": 0.809622049331665,
      "learning_rate": 0.0002671692758173532,
      "loss": 3.8368,
      "step": 104600
    },
    {
      "epoch": 0.2179375,
      "grad_norm": 0.7267488837242126,
      "learning_rate": 0.0002671631201758637,
      "loss": 3.974,
      "step": 104610
    },
    {
      "epoch": 0.21795833333333334,
      "grad_norm": 0.9010500907897949,
      "learning_rate": 0.00026715696402827583,
      "loss": 3.7927,
      "step": 104620
    },
    {
      "epoch": 0.21797916666666667,
      "grad_norm": 0.696721076965332,
      "learning_rate": 0.00026715080737461623,
      "loss": 3.855,
      "step": 104630
    },
    {
      "epoch": 0.218,
      "grad_norm": 0.8063490390777588,
      "learning_rate": 0.0002671446502149115,
      "loss": 3.892,
      "step": 104640
    },
    {
      "epoch": 0.21802083333333333,
      "grad_norm": 0.8231057524681091,
      "learning_rate": 0.00026713849254918833,
      "loss": 3.6312,
      "step": 104650
    },
    {
      "epoch": 0.21804166666666666,
      "grad_norm": 0.7074212431907654,
      "learning_rate": 0.0002671323343774732,
      "loss": 3.8466,
      "step": 104660
    },
    {
      "epoch": 0.2180625,
      "grad_norm": 0.6711615324020386,
      "learning_rate": 0.00026712617569979273,
      "loss": 3.8507,
      "step": 104670
    },
    {
      "epoch": 0.21808333333333332,
      "grad_norm": 0.7008763551712036,
      "learning_rate": 0.0002671200165161736,
      "loss": 3.8425,
      "step": 104680
    },
    {
      "epoch": 0.21810416666666665,
      "grad_norm": 0.81549471616745,
      "learning_rate": 0.0002671138568266423,
      "loss": 3.7309,
      "step": 104690
    },
    {
      "epoch": 0.218125,
      "grad_norm": 0.7578418254852295,
      "learning_rate": 0.00026710769663122557,
      "loss": 3.9151,
      "step": 104700
    },
    {
      "epoch": 0.21814583333333334,
      "grad_norm": 0.7082387208938599,
      "learning_rate": 0.0002671015359299499,
      "loss": 3.9013,
      "step": 104710
    },
    {
      "epoch": 0.21816666666666668,
      "grad_norm": 0.9113315939903259,
      "learning_rate": 0.0002670953747228419,
      "loss": 3.8836,
      "step": 104720
    },
    {
      "epoch": 0.2181875,
      "grad_norm": 0.8651805520057678,
      "learning_rate": 0.0002670892130099283,
      "loss": 4.0695,
      "step": 104730
    },
    {
      "epoch": 0.21820833333333334,
      "grad_norm": 0.8003982901573181,
      "learning_rate": 0.00026708305079123563,
      "loss": 3.8118,
      "step": 104740
    },
    {
      "epoch": 0.21822916666666667,
      "grad_norm": 0.9467316269874573,
      "learning_rate": 0.0002670768880667905,
      "loss": 4.0595,
      "step": 104750
    },
    {
      "epoch": 0.21825,
      "grad_norm": 0.7686951756477356,
      "learning_rate": 0.00026707072483661955,
      "loss": 4.0011,
      "step": 104760
    },
    {
      "epoch": 0.21827083333333333,
      "grad_norm": 0.7373315095901489,
      "learning_rate": 0.00026706456110074943,
      "loss": 3.7876,
      "step": 104770
    },
    {
      "epoch": 0.21829166666666666,
      "grad_norm": 0.7608977556228638,
      "learning_rate": 0.00026705839685920677,
      "loss": 4.0293,
      "step": 104780
    },
    {
      "epoch": 0.2183125,
      "grad_norm": 0.7952674031257629,
      "learning_rate": 0.0002670522321120181,
      "loss": 3.9461,
      "step": 104790
    },
    {
      "epoch": 0.21833333333333332,
      "grad_norm": 0.656443178653717,
      "learning_rate": 0.0002670460668592102,
      "loss": 4.0416,
      "step": 104800
    },
    {
      "epoch": 0.21835416666666665,
      "grad_norm": 0.8711400032043457,
      "learning_rate": 0.0002670399011008096,
      "loss": 4.0224,
      "step": 104810
    },
    {
      "epoch": 0.218375,
      "grad_norm": 0.8473699688911438,
      "learning_rate": 0.0002670337348368429,
      "loss": 3.9552,
      "step": 104820
    },
    {
      "epoch": 0.21839583333333334,
      "grad_norm": 0.8371500968933105,
      "learning_rate": 0.00026702756806733685,
      "loss": 3.8966,
      "step": 104830
    },
    {
      "epoch": 0.21841666666666668,
      "grad_norm": 0.7243757843971252,
      "learning_rate": 0.000267021400792318,
      "loss": 3.9566,
      "step": 104840
    },
    {
      "epoch": 0.2184375,
      "grad_norm": 0.7674323916435242,
      "learning_rate": 0.00026701523301181303,
      "loss": 4.0358,
      "step": 104850
    },
    {
      "epoch": 0.21845833333333334,
      "grad_norm": 0.7585069537162781,
      "learning_rate": 0.00026700906472584856,
      "loss": 3.792,
      "step": 104860
    },
    {
      "epoch": 0.21847916666666667,
      "grad_norm": 0.8280012011528015,
      "learning_rate": 0.00026700289593445126,
      "loss": 3.9146,
      "step": 104870
    },
    {
      "epoch": 0.2185,
      "grad_norm": 0.8288918137550354,
      "learning_rate": 0.00026699672663764776,
      "loss": 3.7976,
      "step": 104880
    },
    {
      "epoch": 0.21852083333333333,
      "grad_norm": 0.7592902779579163,
      "learning_rate": 0.00026699055683546466,
      "loss": 3.958,
      "step": 104890
    },
    {
      "epoch": 0.21854166666666666,
      "grad_norm": 0.6763870716094971,
      "learning_rate": 0.00026698438652792875,
      "loss": 3.9607,
      "step": 104900
    },
    {
      "epoch": 0.2185625,
      "grad_norm": 0.7556689977645874,
      "learning_rate": 0.00026697821571506654,
      "loss": 3.9862,
      "step": 104910
    },
    {
      "epoch": 0.21858333333333332,
      "grad_norm": 0.856159508228302,
      "learning_rate": 0.0002669720443969048,
      "loss": 3.9369,
      "step": 104920
    },
    {
      "epoch": 0.21860416666666665,
      "grad_norm": 0.7842695116996765,
      "learning_rate": 0.00026696587257347005,
      "loss": 3.8061,
      "step": 104930
    },
    {
      "epoch": 0.218625,
      "grad_norm": 0.762103796005249,
      "learning_rate": 0.00026695970024478906,
      "loss": 3.959,
      "step": 104940
    },
    {
      "epoch": 0.21864583333333334,
      "grad_norm": 0.7334314584732056,
      "learning_rate": 0.00026695352741088846,
      "loss": 3.9698,
      "step": 104950
    },
    {
      "epoch": 0.21866666666666668,
      "grad_norm": 0.7618116736412048,
      "learning_rate": 0.0002669473540717949,
      "loss": 3.7954,
      "step": 104960
    },
    {
      "epoch": 0.2186875,
      "grad_norm": 0.7822664380073547,
      "learning_rate": 0.00026694118022753513,
      "loss": 3.8656,
      "step": 104970
    },
    {
      "epoch": 0.21870833333333334,
      "grad_norm": 0.7530372738838196,
      "learning_rate": 0.0002669350058781357,
      "loss": 4.1112,
      "step": 104980
    },
    {
      "epoch": 0.21872916666666667,
      "grad_norm": 0.9639653563499451,
      "learning_rate": 0.00026692883102362333,
      "loss": 3.8474,
      "step": 104990
    },
    {
      "epoch": 0.21875,
      "grad_norm": 1.0002776384353638,
      "learning_rate": 0.00026692265566402465,
      "loss": 3.7543,
      "step": 105000
    },
    {
      "epoch": 0.21875,
      "eval_loss": 4.2600297927856445,
      "eval_runtime": 11.4193,
      "eval_samples_per_second": 0.876,
      "eval_steps_per_second": 0.263,
      "step": 105000
    },
    {
      "epoch": 0.21877083333333333,
      "grad_norm": 0.8150566816329956,
      "learning_rate": 0.00026691647979936643,
      "loss": 3.9516,
      "step": 105010
    },
    {
      "epoch": 0.21879166666666666,
      "grad_norm": 0.8290562033653259,
      "learning_rate": 0.00026691030342967535,
      "loss": 3.845,
      "step": 105020
    },
    {
      "epoch": 0.2188125,
      "grad_norm": 0.8604964017868042,
      "learning_rate": 0.00026690412655497797,
      "loss": 3.805,
      "step": 105030
    },
    {
      "epoch": 0.21883333333333332,
      "grad_norm": 0.7329251170158386,
      "learning_rate": 0.000266897949175301,
      "loss": 3.6805,
      "step": 105040
    },
    {
      "epoch": 0.21885416666666666,
      "grad_norm": 0.6748791933059692,
      "learning_rate": 0.00026689177129067125,
      "loss": 3.8343,
      "step": 105050
    },
    {
      "epoch": 0.218875,
      "grad_norm": 0.8582395911216736,
      "learning_rate": 0.00026688559290111527,
      "loss": 3.7663,
      "step": 105060
    },
    {
      "epoch": 0.21889583333333335,
      "grad_norm": 0.7886938452720642,
      "learning_rate": 0.00026687941400665977,
      "loss": 3.9143,
      "step": 105070
    },
    {
      "epoch": 0.21891666666666668,
      "grad_norm": 0.759994626045227,
      "learning_rate": 0.0002668732346073315,
      "loss": 3.8949,
      "step": 105080
    },
    {
      "epoch": 0.2189375,
      "grad_norm": 0.728993833065033,
      "learning_rate": 0.0002668670547031571,
      "loss": 3.8713,
      "step": 105090
    },
    {
      "epoch": 0.21895833333333334,
      "grad_norm": 0.9658108949661255,
      "learning_rate": 0.0002668608742941633,
      "loss": 3.9185,
      "step": 105100
    },
    {
      "epoch": 0.21897916666666667,
      "grad_norm": 0.8262014985084534,
      "learning_rate": 0.0002668546933803768,
      "loss": 3.9789,
      "step": 105110
    },
    {
      "epoch": 0.219,
      "grad_norm": 0.7392993569374084,
      "learning_rate": 0.0002668485119618242,
      "loss": 3.8367,
      "step": 105120
    },
    {
      "epoch": 0.21902083333333333,
      "grad_norm": 0.7432605624198914,
      "learning_rate": 0.00026684233003853236,
      "loss": 3.882,
      "step": 105130
    },
    {
      "epoch": 0.21904166666666666,
      "grad_norm": 0.7666639685630798,
      "learning_rate": 0.00026683614761052786,
      "loss": 3.9536,
      "step": 105140
    },
    {
      "epoch": 0.2190625,
      "grad_norm": 0.7497982978820801,
      "learning_rate": 0.00026682996467783745,
      "loss": 3.9303,
      "step": 105150
    },
    {
      "epoch": 0.21908333333333332,
      "grad_norm": 0.7865482568740845,
      "learning_rate": 0.0002668237812404879,
      "loss": 3.8498,
      "step": 105160
    },
    {
      "epoch": 0.21910416666666666,
      "grad_norm": 0.7616860270500183,
      "learning_rate": 0.0002668175972985058,
      "loss": 4.0287,
      "step": 105170
    },
    {
      "epoch": 0.219125,
      "grad_norm": 0.71839439868927,
      "learning_rate": 0.0002668114128519179,
      "loss": 3.9839,
      "step": 105180
    },
    {
      "epoch": 0.21914583333333335,
      "grad_norm": 0.7999733090400696,
      "learning_rate": 0.000266805227900751,
      "loss": 3.9214,
      "step": 105190
    },
    {
      "epoch": 0.21916666666666668,
      "grad_norm": 0.7660910487174988,
      "learning_rate": 0.00026679904244503167,
      "loss": 3.9398,
      "step": 105200
    },
    {
      "epoch": 0.2191875,
      "grad_norm": 0.7827932238578796,
      "learning_rate": 0.00026679285648478676,
      "loss": 3.9862,
      "step": 105210
    },
    {
      "epoch": 0.21920833333333334,
      "grad_norm": 0.7547827959060669,
      "learning_rate": 0.00026678667002004295,
      "loss": 4.0437,
      "step": 105220
    },
    {
      "epoch": 0.21922916666666667,
      "grad_norm": 0.9763752818107605,
      "learning_rate": 0.0002667804830508269,
      "loss": 3.773,
      "step": 105230
    },
    {
      "epoch": 0.21925,
      "grad_norm": 0.7883580327033997,
      "learning_rate": 0.00026677429557716545,
      "loss": 3.8381,
      "step": 105240
    },
    {
      "epoch": 0.21927083333333333,
      "grad_norm": 0.8377566337585449,
      "learning_rate": 0.00026676810759908526,
      "loss": 3.7737,
      "step": 105250
    },
    {
      "epoch": 0.21929166666666666,
      "grad_norm": 0.719329297542572,
      "learning_rate": 0.000266761919116613,
      "loss": 3.953,
      "step": 105260
    },
    {
      "epoch": 0.2193125,
      "grad_norm": 0.859813392162323,
      "learning_rate": 0.0002667557301297755,
      "loss": 4.0518,
      "step": 105270
    },
    {
      "epoch": 0.21933333333333332,
      "grad_norm": 0.6758179068565369,
      "learning_rate": 0.00026674954063859947,
      "loss": 4.0481,
      "step": 105280
    },
    {
      "epoch": 0.21935416666666666,
      "grad_norm": 0.7060511708259583,
      "learning_rate": 0.00026674335064311166,
      "loss": 3.8006,
      "step": 105290
    },
    {
      "epoch": 0.219375,
      "grad_norm": 0.7398645877838135,
      "learning_rate": 0.00026673716014333877,
      "loss": 3.8796,
      "step": 105300
    },
    {
      "epoch": 0.21939583333333335,
      "grad_norm": 0.724229097366333,
      "learning_rate": 0.00026673096913930756,
      "loss": 3.9223,
      "step": 105310
    },
    {
      "epoch": 0.21941666666666668,
      "grad_norm": 0.6884937286376953,
      "learning_rate": 0.00026672477763104477,
      "loss": 3.886,
      "step": 105320
    },
    {
      "epoch": 0.2194375,
      "grad_norm": 0.7349305748939514,
      "learning_rate": 0.0002667185856185771,
      "loss": 3.9454,
      "step": 105330
    },
    {
      "epoch": 0.21945833333333334,
      "grad_norm": 0.7666019201278687,
      "learning_rate": 0.0002667123931019314,
      "loss": 3.7856,
      "step": 105340
    },
    {
      "epoch": 0.21947916666666667,
      "grad_norm": 0.6945618987083435,
      "learning_rate": 0.0002667062000811343,
      "loss": 4.0033,
      "step": 105350
    },
    {
      "epoch": 0.2195,
      "grad_norm": 0.7147140502929688,
      "learning_rate": 0.00026670000655621264,
      "loss": 4.1642,
      "step": 105360
    },
    {
      "epoch": 0.21952083333333333,
      "grad_norm": 0.8542624115943909,
      "learning_rate": 0.0002666938125271932,
      "loss": 3.8872,
      "step": 105370
    },
    {
      "epoch": 0.21954166666666666,
      "grad_norm": 0.7031590342521667,
      "learning_rate": 0.0002666876179941026,
      "loss": 4.0464,
      "step": 105380
    },
    {
      "epoch": 0.2195625,
      "grad_norm": 0.771092414855957,
      "learning_rate": 0.0002666814229569677,
      "loss": 3.8151,
      "step": 105390
    },
    {
      "epoch": 0.21958333333333332,
      "grad_norm": 0.712288498878479,
      "learning_rate": 0.00026667522741581525,
      "loss": 4.0759,
      "step": 105400
    },
    {
      "epoch": 0.21960416666666666,
      "grad_norm": 0.7369149923324585,
      "learning_rate": 0.000266669031370672,
      "loss": 3.9501,
      "step": 105410
    },
    {
      "epoch": 0.219625,
      "grad_norm": 0.7684122323989868,
      "learning_rate": 0.0002666628348215647,
      "loss": 4.0854,
      "step": 105420
    },
    {
      "epoch": 0.21964583333333335,
      "grad_norm": 0.7138094305992126,
      "learning_rate": 0.00026665663776852017,
      "loss": 3.9972,
      "step": 105430
    },
    {
      "epoch": 0.21966666666666668,
      "grad_norm": 0.7374135851860046,
      "learning_rate": 0.0002666504402115651,
      "loss": 3.7908,
      "step": 105440
    },
    {
      "epoch": 0.2196875,
      "grad_norm": 0.8267068266868591,
      "learning_rate": 0.0002666442421507263,
      "loss": 3.8005,
      "step": 105450
    },
    {
      "epoch": 0.21970833333333334,
      "grad_norm": 1.0193334817886353,
      "learning_rate": 0.00026663804358603054,
      "loss": 3.7568,
      "step": 105460
    },
    {
      "epoch": 0.21972916666666667,
      "grad_norm": 0.8747304677963257,
      "learning_rate": 0.0002666318445175047,
      "loss": 3.9957,
      "step": 105470
    },
    {
      "epoch": 0.21975,
      "grad_norm": 0.9369239807128906,
      "learning_rate": 0.0002666256449451753,
      "loss": 3.8707,
      "step": 105480
    },
    {
      "epoch": 0.21977083333333333,
      "grad_norm": 0.700725793838501,
      "learning_rate": 0.0002666194448690694,
      "loss": 3.8802,
      "step": 105490
    },
    {
      "epoch": 0.21979166666666666,
      "grad_norm": 0.726491391658783,
      "learning_rate": 0.0002666132442892136,
      "loss": 4.0617,
      "step": 105500
    },
    {
      "epoch": 0.2198125,
      "grad_norm": 0.746843159198761,
      "learning_rate": 0.0002666070432056348,
      "loss": 3.8178,
      "step": 105510
    },
    {
      "epoch": 0.21983333333333333,
      "grad_norm": 0.7673795223236084,
      "learning_rate": 0.00026660084161835967,
      "loss": 3.797,
      "step": 105520
    },
    {
      "epoch": 0.21985416666666666,
      "grad_norm": 0.7605812549591064,
      "learning_rate": 0.00026659463952741506,
      "loss": 3.9315,
      "step": 105530
    },
    {
      "epoch": 0.219875,
      "grad_norm": 0.763658344745636,
      "learning_rate": 0.00026658843693282776,
      "loss": 4.0043,
      "step": 105540
    },
    {
      "epoch": 0.21989583333333335,
      "grad_norm": 0.8275021910667419,
      "learning_rate": 0.0002665822338346246,
      "loss": 3.8891,
      "step": 105550
    },
    {
      "epoch": 0.21991666666666668,
      "grad_norm": 0.7398106455802917,
      "learning_rate": 0.0002665760302328323,
      "loss": 3.8445,
      "step": 105560
    },
    {
      "epoch": 0.2199375,
      "grad_norm": 0.8677472472190857,
      "learning_rate": 0.0002665698261274777,
      "loss": 3.9601,
      "step": 105570
    },
    {
      "epoch": 0.21995833333333334,
      "grad_norm": 0.8173753619194031,
      "learning_rate": 0.0002665636215185876,
      "loss": 3.9152,
      "step": 105580
    },
    {
      "epoch": 0.21997916666666667,
      "grad_norm": 0.7400959730148315,
      "learning_rate": 0.0002665574164061888,
      "loss": 4.0748,
      "step": 105590
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9690905809402466,
      "learning_rate": 0.0002665512107903081,
      "loss": 3.938,
      "step": 105600
    },
    {
      "epoch": 0.22002083333333333,
      "grad_norm": 0.8001475930213928,
      "learning_rate": 0.0002665450046709723,
      "loss": 3.9462,
      "step": 105610
    },
    {
      "epoch": 0.22004166666666666,
      "grad_norm": 0.7573313117027283,
      "learning_rate": 0.00026653879804820817,
      "loss": 3.8258,
      "step": 105620
    },
    {
      "epoch": 0.2200625,
      "grad_norm": 0.8333478569984436,
      "learning_rate": 0.0002665325909220426,
      "loss": 3.9399,
      "step": 105630
    },
    {
      "epoch": 0.22008333333333333,
      "grad_norm": 0.6649231910705566,
      "learning_rate": 0.0002665263832925024,
      "loss": 4.0425,
      "step": 105640
    },
    {
      "epoch": 0.22010416666666666,
      "grad_norm": 0.7845414876937866,
      "learning_rate": 0.00026652017515961426,
      "loss": 3.9934,
      "step": 105650
    },
    {
      "epoch": 0.220125,
      "grad_norm": 0.7115461826324463,
      "learning_rate": 0.00026651396652340516,
      "loss": 3.6655,
      "step": 105660
    },
    {
      "epoch": 0.22014583333333335,
      "grad_norm": 0.7441027760505676,
      "learning_rate": 0.0002665077573839018,
      "loss": 3.906,
      "step": 105670
    },
    {
      "epoch": 0.22016666666666668,
      "grad_norm": 0.8220618963241577,
      "learning_rate": 0.0002665015477411311,
      "loss": 3.8488,
      "step": 105680
    },
    {
      "epoch": 0.2201875,
      "grad_norm": 0.726945161819458,
      "learning_rate": 0.0002664953375951198,
      "loss": 3.8297,
      "step": 105690
    },
    {
      "epoch": 0.22020833333333334,
      "grad_norm": 0.7362468838691711,
      "learning_rate": 0.00026648912694589473,
      "loss": 3.746,
      "step": 105700
    },
    {
      "epoch": 0.22022916666666667,
      "grad_norm": 0.7386288642883301,
      "learning_rate": 0.00026648291579348273,
      "loss": 3.7976,
      "step": 105710
    },
    {
      "epoch": 0.22025,
      "grad_norm": 0.7297850251197815,
      "learning_rate": 0.0002664767041379107,
      "loss": 4.0067,
      "step": 105720
    },
    {
      "epoch": 0.22027083333333333,
      "grad_norm": 0.7793077230453491,
      "learning_rate": 0.00026647049197920536,
      "loss": 3.9055,
      "step": 105730
    },
    {
      "epoch": 0.22029166666666666,
      "grad_norm": 0.7442745566368103,
      "learning_rate": 0.00026646427931739365,
      "loss": 3.8418,
      "step": 105740
    },
    {
      "epoch": 0.2203125,
      "grad_norm": 0.8482430577278137,
      "learning_rate": 0.00026645806615250233,
      "loss": 3.8892,
      "step": 105750
    },
    {
      "epoch": 0.22033333333333333,
      "grad_norm": 0.85197913646698,
      "learning_rate": 0.0002664518524845582,
      "loss": 3.9189,
      "step": 105760
    },
    {
      "epoch": 0.22035416666666666,
      "grad_norm": 0.853791356086731,
      "learning_rate": 0.0002664456383135882,
      "loss": 3.913,
      "step": 105770
    },
    {
      "epoch": 0.220375,
      "grad_norm": 0.719450056552887,
      "learning_rate": 0.0002664394236396192,
      "loss": 3.8338,
      "step": 105780
    },
    {
      "epoch": 0.22039583333333335,
      "grad_norm": 0.768027663230896,
      "learning_rate": 0.0002664332084626779,
      "loss": 4.0376,
      "step": 105790
    },
    {
      "epoch": 0.22041666666666668,
      "grad_norm": 0.7706342339515686,
      "learning_rate": 0.00026642699278279125,
      "loss": 3.8771,
      "step": 105800
    },
    {
      "epoch": 0.2204375,
      "grad_norm": 0.8393242955207825,
      "learning_rate": 0.0002664207765999861,
      "loss": 3.9024,
      "step": 105810
    },
    {
      "epoch": 0.22045833333333334,
      "grad_norm": 0.839827835559845,
      "learning_rate": 0.0002664145599142893,
      "loss": 3.7915,
      "step": 105820
    },
    {
      "epoch": 0.22047916666666667,
      "grad_norm": 0.8493495583534241,
      "learning_rate": 0.0002664083427257276,
      "loss": 4.0486,
      "step": 105830
    },
    {
      "epoch": 0.2205,
      "grad_norm": 0.7559679746627808,
      "learning_rate": 0.000266402125034328,
      "loss": 3.7525,
      "step": 105840
    },
    {
      "epoch": 0.22052083333333333,
      "grad_norm": 0.785567045211792,
      "learning_rate": 0.00026639590684011727,
      "loss": 3.8833,
      "step": 105850
    },
    {
      "epoch": 0.22054166666666666,
      "grad_norm": 0.8014571070671082,
      "learning_rate": 0.0002663896881431223,
      "loss": 3.9134,
      "step": 105860
    },
    {
      "epoch": 0.2205625,
      "grad_norm": 0.7504716515541077,
      "learning_rate": 0.0002663834689433699,
      "loss": 3.8839,
      "step": 105870
    },
    {
      "epoch": 0.22058333333333333,
      "grad_norm": 0.7571702003479004,
      "learning_rate": 0.0002663772492408871,
      "loss": 3.8229,
      "step": 105880
    },
    {
      "epoch": 0.22060416666666666,
      "grad_norm": 0.7657384276390076,
      "learning_rate": 0.00026637102903570055,
      "loss": 3.6461,
      "step": 105890
    },
    {
      "epoch": 0.220625,
      "grad_norm": 0.7977587580680847,
      "learning_rate": 0.00026636480832783723,
      "loss": 3.6772,
      "step": 105900
    },
    {
      "epoch": 0.22064583333333335,
      "grad_norm": 0.7607811093330383,
      "learning_rate": 0.000266358587117324,
      "loss": 3.7536,
      "step": 105910
    },
    {
      "epoch": 0.22066666666666668,
      "grad_norm": 0.7685151696205139,
      "learning_rate": 0.00026635236540418773,
      "loss": 3.9102,
      "step": 105920
    },
    {
      "epoch": 0.2206875,
      "grad_norm": 0.9433813691139221,
      "learning_rate": 0.00026634614318845533,
      "loss": 3.9243,
      "step": 105930
    },
    {
      "epoch": 0.22070833333333334,
      "grad_norm": 0.8997839689254761,
      "learning_rate": 0.00026633992047015364,
      "loss": 3.7783,
      "step": 105940
    },
    {
      "epoch": 0.22072916666666667,
      "grad_norm": 0.7003724575042725,
      "learning_rate": 0.0002663336972493095,
      "loss": 3.772,
      "step": 105950
    },
    {
      "epoch": 0.22075,
      "grad_norm": 0.7610173225402832,
      "learning_rate": 0.0002663274735259499,
      "loss": 3.894,
      "step": 105960
    },
    {
      "epoch": 0.22077083333333333,
      "grad_norm": 0.7154001593589783,
      "learning_rate": 0.0002663212493001016,
      "loss": 3.7608,
      "step": 105970
    },
    {
      "epoch": 0.22079166666666666,
      "grad_norm": 0.751069188117981,
      "learning_rate": 0.0002663150245717916,
      "loss": 3.9089,
      "step": 105980
    },
    {
      "epoch": 0.2208125,
      "grad_norm": 0.7022091150283813,
      "learning_rate": 0.0002663087993410467,
      "loss": 3.7608,
      "step": 105990
    },
    {
      "epoch": 0.22083333333333333,
      "grad_norm": 0.6944957971572876,
      "learning_rate": 0.0002663025736078938,
      "loss": 3.897,
      "step": 106000
    },
    {
      "epoch": 0.22083333333333333,
      "eval_loss": 4.263007164001465,
      "eval_runtime": 11.5851,
      "eval_samples_per_second": 0.863,
      "eval_steps_per_second": 0.259,
      "step": 106000
    },
    {
      "epoch": 0.22085416666666666,
      "grad_norm": 0.7495271563529968,
      "learning_rate": 0.0002662963473723599,
      "loss": 3.9281,
      "step": 106010
    },
    {
      "epoch": 0.220875,
      "grad_norm": 0.9212570190429688,
      "learning_rate": 0.00026629012063447173,
      "loss": 3.8094,
      "step": 106020
    },
    {
      "epoch": 0.22089583333333335,
      "grad_norm": 0.7677696943283081,
      "learning_rate": 0.0002662838933942563,
      "loss": 3.9096,
      "step": 106030
    },
    {
      "epoch": 0.22091666666666668,
      "grad_norm": 0.8192338943481445,
      "learning_rate": 0.0002662776656517405,
      "loss": 3.7621,
      "step": 106040
    },
    {
      "epoch": 0.2209375,
      "grad_norm": 0.767661452293396,
      "learning_rate": 0.00026627143740695115,
      "loss": 4.0155,
      "step": 106050
    },
    {
      "epoch": 0.22095833333333334,
      "grad_norm": 0.782114565372467,
      "learning_rate": 0.00026626520865991526,
      "loss": 3.927,
      "step": 106060
    },
    {
      "epoch": 0.22097916666666667,
      "grad_norm": 0.7513480186462402,
      "learning_rate": 0.00026625897941065974,
      "loss": 3.8428,
      "step": 106070
    },
    {
      "epoch": 0.221,
      "grad_norm": 0.7380729913711548,
      "learning_rate": 0.00026625274965921136,
      "loss": 4.0565,
      "step": 106080
    },
    {
      "epoch": 0.22102083333333333,
      "grad_norm": 0.7644425630569458,
      "learning_rate": 0.00026624651940559713,
      "loss": 3.8958,
      "step": 106090
    },
    {
      "epoch": 0.22104166666666666,
      "grad_norm": 0.7268819808959961,
      "learning_rate": 0.000266240288649844,
      "loss": 3.8689,
      "step": 106100
    },
    {
      "epoch": 0.2210625,
      "grad_norm": 0.9829049110412598,
      "learning_rate": 0.00026623405739197877,
      "loss": 3.8698,
      "step": 106110
    },
    {
      "epoch": 0.22108333333333333,
      "grad_norm": 0.7404220700263977,
      "learning_rate": 0.00026622782563202847,
      "loss": 3.9373,
      "step": 106120
    },
    {
      "epoch": 0.22110416666666666,
      "grad_norm": 0.6607434749603271,
      "learning_rate": 0.00026622159337002,
      "loss": 3.9529,
      "step": 106130
    },
    {
      "epoch": 0.221125,
      "grad_norm": 0.7616944909095764,
      "learning_rate": 0.0002662153606059801,
      "loss": 3.827,
      "step": 106140
    },
    {
      "epoch": 0.22114583333333335,
      "grad_norm": 0.7866303324699402,
      "learning_rate": 0.000266209127339936,
      "loss": 3.9808,
      "step": 106150
    },
    {
      "epoch": 0.22116666666666668,
      "grad_norm": 0.8451835513114929,
      "learning_rate": 0.00026620289357191443,
      "loss": 4.1705,
      "step": 106160
    },
    {
      "epoch": 0.2211875,
      "grad_norm": 0.7590757608413696,
      "learning_rate": 0.0002661966593019423,
      "loss": 3.7789,
      "step": 106170
    },
    {
      "epoch": 0.22120833333333334,
      "grad_norm": 0.7942466139793396,
      "learning_rate": 0.00026619042453004667,
      "loss": 3.8496,
      "step": 106180
    },
    {
      "epoch": 0.22122916666666667,
      "grad_norm": 0.7167297005653381,
      "learning_rate": 0.00026618418925625437,
      "loss": 3.9271,
      "step": 106190
    },
    {
      "epoch": 0.22125,
      "grad_norm": 0.8119813203811646,
      "learning_rate": 0.00026617795348059237,
      "loss": 4.1465,
      "step": 106200
    },
    {
      "epoch": 0.22127083333333333,
      "grad_norm": 0.7014748454093933,
      "learning_rate": 0.00026617171720308755,
      "loss": 3.8074,
      "step": 106210
    },
    {
      "epoch": 0.22129166666666666,
      "grad_norm": 0.7355243563652039,
      "learning_rate": 0.00026616548042376697,
      "loss": 4.0249,
      "step": 106220
    },
    {
      "epoch": 0.2213125,
      "grad_norm": 0.8808769583702087,
      "learning_rate": 0.00026615924314265745,
      "loss": 4.0511,
      "step": 106230
    },
    {
      "epoch": 0.22133333333333333,
      "grad_norm": 0.7928478717803955,
      "learning_rate": 0.00026615300535978595,
      "loss": 3.8143,
      "step": 106240
    },
    {
      "epoch": 0.22135416666666666,
      "grad_norm": 0.6332072615623474,
      "learning_rate": 0.00026614676707517945,
      "loss": 4.0583,
      "step": 106250
    },
    {
      "epoch": 0.221375,
      "grad_norm": 0.8525303602218628,
      "learning_rate": 0.00026614052828886496,
      "loss": 3.954,
      "step": 106260
    },
    {
      "epoch": 0.22139583333333332,
      "grad_norm": 0.7928577065467834,
      "learning_rate": 0.0002661342890008693,
      "loss": 3.7744,
      "step": 106270
    },
    {
      "epoch": 0.22141666666666668,
      "grad_norm": 0.7467909455299377,
      "learning_rate": 0.0002661280492112195,
      "loss": 3.7889,
      "step": 106280
    },
    {
      "epoch": 0.2214375,
      "grad_norm": 0.743579626083374,
      "learning_rate": 0.0002661218089199425,
      "loss": 3.9343,
      "step": 106290
    },
    {
      "epoch": 0.22145833333333334,
      "grad_norm": 0.7375714182853699,
      "learning_rate": 0.00026611556812706523,
      "loss": 3.9651,
      "step": 106300
    },
    {
      "epoch": 0.22147916666666667,
      "grad_norm": 0.9413690567016602,
      "learning_rate": 0.0002661093268326147,
      "loss": 3.7796,
      "step": 106310
    },
    {
      "epoch": 0.2215,
      "grad_norm": 0.7928476929664612,
      "learning_rate": 0.00026610308503661784,
      "loss": 3.9487,
      "step": 106320
    },
    {
      "epoch": 0.22152083333333333,
      "grad_norm": 0.8981952667236328,
      "learning_rate": 0.00026609684273910155,
      "loss": 3.9585,
      "step": 106330
    },
    {
      "epoch": 0.22154166666666666,
      "grad_norm": 0.6752199530601501,
      "learning_rate": 0.0002660905999400929,
      "loss": 3.7719,
      "step": 106340
    },
    {
      "epoch": 0.2215625,
      "grad_norm": 0.8216575980186462,
      "learning_rate": 0.00026608435663961875,
      "loss": 3.9238,
      "step": 106350
    },
    {
      "epoch": 0.22158333333333333,
      "grad_norm": 0.7550071477890015,
      "learning_rate": 0.0002660781128377062,
      "loss": 3.7972,
      "step": 106360
    },
    {
      "epoch": 0.22160416666666666,
      "grad_norm": 0.698108971118927,
      "learning_rate": 0.00026607186853438216,
      "loss": 3.8589,
      "step": 106370
    },
    {
      "epoch": 0.221625,
      "grad_norm": 0.804286539554596,
      "learning_rate": 0.00026606562372967355,
      "loss": 3.8882,
      "step": 106380
    },
    {
      "epoch": 0.22164583333333332,
      "grad_norm": 0.884022057056427,
      "learning_rate": 0.00026605937842360736,
      "loss": 4.0031,
      "step": 106390
    },
    {
      "epoch": 0.22166666666666668,
      "grad_norm": 0.7534272074699402,
      "learning_rate": 0.00026605313261621064,
      "loss": 3.9992,
      "step": 106400
    },
    {
      "epoch": 0.2216875,
      "grad_norm": 0.6922098398208618,
      "learning_rate": 0.00026604688630751033,
      "loss": 3.764,
      "step": 106410
    },
    {
      "epoch": 0.22170833333333334,
      "grad_norm": 0.8696918487548828,
      "learning_rate": 0.00026604063949753337,
      "loss": 3.9052,
      "step": 106420
    },
    {
      "epoch": 0.22172916666666667,
      "grad_norm": 0.8363291025161743,
      "learning_rate": 0.0002660343921863068,
      "loss": 3.9409,
      "step": 106430
    },
    {
      "epoch": 0.22175,
      "grad_norm": 0.8817480206489563,
      "learning_rate": 0.0002660281443738576,
      "loss": 3.9565,
      "step": 106440
    },
    {
      "epoch": 0.22177083333333333,
      "grad_norm": 0.7801922559738159,
      "learning_rate": 0.0002660218960602127,
      "loss": 3.9034,
      "step": 106450
    },
    {
      "epoch": 0.22179166666666666,
      "grad_norm": 0.7722594141960144,
      "learning_rate": 0.0002660156472453992,
      "loss": 3.9085,
      "step": 106460
    },
    {
      "epoch": 0.2218125,
      "grad_norm": 0.8719643950462341,
      "learning_rate": 0.000266009397929444,
      "loss": 4.0434,
      "step": 106470
    },
    {
      "epoch": 0.22183333333333333,
      "grad_norm": 0.7910572290420532,
      "learning_rate": 0.0002660031481123741,
      "loss": 4.0634,
      "step": 106480
    },
    {
      "epoch": 0.22185416666666666,
      "grad_norm": 1.0808076858520508,
      "learning_rate": 0.0002659968977942165,
      "loss": 4.0856,
      "step": 106490
    },
    {
      "epoch": 0.221875,
      "grad_norm": 0.8004506826400757,
      "learning_rate": 0.0002659906469749983,
      "loss": 3.8287,
      "step": 106500
    },
    {
      "epoch": 0.22189583333333332,
      "grad_norm": 0.8332095742225647,
      "learning_rate": 0.0002659843956547463,
      "loss": 3.859,
      "step": 106510
    },
    {
      "epoch": 0.22191666666666668,
      "grad_norm": 0.7841601967811584,
      "learning_rate": 0.0002659781438334877,
      "loss": 3.8558,
      "step": 106520
    },
    {
      "epoch": 0.2219375,
      "grad_norm": 0.7245835661888123,
      "learning_rate": 0.0002659718915112494,
      "loss": 3.8181,
      "step": 106530
    },
    {
      "epoch": 0.22195833333333334,
      "grad_norm": 0.7690312266349792,
      "learning_rate": 0.00026596563868805845,
      "loss": 3.8979,
      "step": 106540
    },
    {
      "epoch": 0.22197916666666667,
      "grad_norm": 0.7009631395339966,
      "learning_rate": 0.00026595938536394184,
      "loss": 3.9225,
      "step": 106550
    },
    {
      "epoch": 0.222,
      "grad_norm": 0.674130916595459,
      "learning_rate": 0.00026595313153892654,
      "loss": 3.9704,
      "step": 106560
    },
    {
      "epoch": 0.22202083333333333,
      "grad_norm": 0.9195488095283508,
      "learning_rate": 0.0002659468772130397,
      "loss": 3.7929,
      "step": 106570
    },
    {
      "epoch": 0.22204166666666666,
      "grad_norm": 0.7544596791267395,
      "learning_rate": 0.00026594062238630817,
      "loss": 3.8474,
      "step": 106580
    },
    {
      "epoch": 0.2220625,
      "grad_norm": 0.9778372645378113,
      "learning_rate": 0.0002659343670587591,
      "loss": 3.6234,
      "step": 106590
    },
    {
      "epoch": 0.22208333333333333,
      "grad_norm": 0.8703648447990417,
      "learning_rate": 0.00026592811123041937,
      "loss": 3.8989,
      "step": 106600
    },
    {
      "epoch": 0.22210416666666666,
      "grad_norm": 0.8328741192817688,
      "learning_rate": 0.00026592185490131615,
      "loss": 3.8533,
      "step": 106610
    },
    {
      "epoch": 0.222125,
      "grad_norm": 0.6787323355674744,
      "learning_rate": 0.00026591559807147643,
      "loss": 3.9707,
      "step": 106620
    },
    {
      "epoch": 0.22214583333333332,
      "grad_norm": 0.7863646745681763,
      "learning_rate": 0.00026590934074092716,
      "loss": 3.966,
      "step": 106630
    },
    {
      "epoch": 0.22216666666666668,
      "grad_norm": 0.7725445628166199,
      "learning_rate": 0.00026590308290969544,
      "loss": 3.9065,
      "step": 106640
    },
    {
      "epoch": 0.2221875,
      "grad_norm": 0.7791009545326233,
      "learning_rate": 0.00026589682457780827,
      "loss": 4.0331,
      "step": 106650
    },
    {
      "epoch": 0.22220833333333334,
      "grad_norm": 0.7611457705497742,
      "learning_rate": 0.0002658905657452927,
      "loss": 3.9234,
      "step": 106660
    },
    {
      "epoch": 0.22222916666666667,
      "grad_norm": 0.8106477856636047,
      "learning_rate": 0.0002658843064121757,
      "loss": 4.0255,
      "step": 106670
    },
    {
      "epoch": 0.22225,
      "grad_norm": 0.7849729657173157,
      "learning_rate": 0.00026587804657848444,
      "loss": 4.0635,
      "step": 106680
    },
    {
      "epoch": 0.22227083333333333,
      "grad_norm": 0.6616964936256409,
      "learning_rate": 0.00026587178624424586,
      "loss": 3.8768,
      "step": 106690
    },
    {
      "epoch": 0.22229166666666667,
      "grad_norm": 0.7264218330383301,
      "learning_rate": 0.000265865525409487,
      "loss": 4.1401,
      "step": 106700
    },
    {
      "epoch": 0.2223125,
      "grad_norm": 0.8588873147964478,
      "learning_rate": 0.000265859264074235,
      "loss": 3.8622,
      "step": 106710
    },
    {
      "epoch": 0.22233333333333333,
      "grad_norm": 0.712618350982666,
      "learning_rate": 0.0002658530022385168,
      "loss": 3.9907,
      "step": 106720
    },
    {
      "epoch": 0.22235416666666666,
      "grad_norm": 0.7516477108001709,
      "learning_rate": 0.0002658467399023595,
      "loss": 3.9207,
      "step": 106730
    },
    {
      "epoch": 0.222375,
      "grad_norm": 0.758374035358429,
      "learning_rate": 0.00026584047706579013,
      "loss": 4.0066,
      "step": 106740
    },
    {
      "epoch": 0.22239583333333332,
      "grad_norm": 0.8018149137496948,
      "learning_rate": 0.00026583421372883574,
      "loss": 3.9142,
      "step": 106750
    },
    {
      "epoch": 0.22241666666666668,
      "grad_norm": 0.7033915519714355,
      "learning_rate": 0.0002658279498915234,
      "loss": 3.9871,
      "step": 106760
    },
    {
      "epoch": 0.2224375,
      "grad_norm": 0.7712659239768982,
      "learning_rate": 0.00026582168555388017,
      "loss": 3.7746,
      "step": 106770
    },
    {
      "epoch": 0.22245833333333334,
      "grad_norm": 1.012284755706787,
      "learning_rate": 0.00026581542071593315,
      "loss": 3.9335,
      "step": 106780
    },
    {
      "epoch": 0.22247916666666667,
      "grad_norm": 0.8726108074188232,
      "learning_rate": 0.0002658091553777093,
      "loss": 3.8852,
      "step": 106790
    },
    {
      "epoch": 0.2225,
      "grad_norm": 0.6966093182563782,
      "learning_rate": 0.0002658028895392357,
      "loss": 3.9296,
      "step": 106800
    },
    {
      "epoch": 0.22252083333333333,
      "grad_norm": 0.7011997103691101,
      "learning_rate": 0.00026579662320053957,
      "loss": 4.0139,
      "step": 106810
    },
    {
      "epoch": 0.22254166666666667,
      "grad_norm": 0.6668365001678467,
      "learning_rate": 0.0002657903563616478,
      "loss": 3.9151,
      "step": 106820
    },
    {
      "epoch": 0.2225625,
      "grad_norm": 0.7497164607048035,
      "learning_rate": 0.0002657840890225875,
      "loss": 3.9849,
      "step": 106830
    },
    {
      "epoch": 0.22258333333333333,
      "grad_norm": 1.9956046342849731,
      "learning_rate": 0.0002657778211833858,
      "loss": 3.8486,
      "step": 106840
    },
    {
      "epoch": 0.22260416666666666,
      "grad_norm": 0.7006537318229675,
      "learning_rate": 0.00026577155284406977,
      "loss": 4.0221,
      "step": 106850
    },
    {
      "epoch": 0.222625,
      "grad_norm": 0.6869621276855469,
      "learning_rate": 0.00026576528400466636,
      "loss": 4.1174,
      "step": 106860
    },
    {
      "epoch": 0.22264583333333332,
      "grad_norm": 0.7424688339233398,
      "learning_rate": 0.0002657590146652028,
      "loss": 3.8777,
      "step": 106870
    },
    {
      "epoch": 0.22266666666666668,
      "grad_norm": 0.6974683403968811,
      "learning_rate": 0.00026575274482570617,
      "loss": 3.9291,
      "step": 106880
    },
    {
      "epoch": 0.2226875,
      "grad_norm": 0.8646669387817383,
      "learning_rate": 0.00026574647448620345,
      "loss": 4.0359,
      "step": 106890
    },
    {
      "epoch": 0.22270833333333334,
      "grad_norm": 0.7763456702232361,
      "learning_rate": 0.00026574020364672176,
      "loss": 3.9785,
      "step": 106900
    },
    {
      "epoch": 0.22272916666666667,
      "grad_norm": 0.7240476608276367,
      "learning_rate": 0.0002657339323072882,
      "loss": 3.7879,
      "step": 106910
    },
    {
      "epoch": 0.22275,
      "grad_norm": 0.8518239259719849,
      "learning_rate": 0.00026572766046792986,
      "loss": 3.8854,
      "step": 106920
    },
    {
      "epoch": 0.22277083333333333,
      "grad_norm": 0.7275566458702087,
      "learning_rate": 0.0002657213881286739,
      "loss": 3.9473,
      "step": 106930
    },
    {
      "epoch": 0.22279166666666667,
      "grad_norm": 0.7805466055870056,
      "learning_rate": 0.0002657151152895473,
      "loss": 3.8436,
      "step": 106940
    },
    {
      "epoch": 0.2228125,
      "grad_norm": 0.8923725485801697,
      "learning_rate": 0.0002657088419505772,
      "loss": 3.9055,
      "step": 106950
    },
    {
      "epoch": 0.22283333333333333,
      "grad_norm": 0.7302841544151306,
      "learning_rate": 0.0002657025681117907,
      "loss": 3.9748,
      "step": 106960
    },
    {
      "epoch": 0.22285416666666666,
      "grad_norm": 0.7336488962173462,
      "learning_rate": 0.00026569629377321495,
      "loss": 4.061,
      "step": 106970
    },
    {
      "epoch": 0.222875,
      "grad_norm": 0.7312243580818176,
      "learning_rate": 0.00026569001893487695,
      "loss": 3.8757,
      "step": 106980
    },
    {
      "epoch": 0.22289583333333332,
      "grad_norm": 0.7413064241409302,
      "learning_rate": 0.00026568374359680393,
      "loss": 4.0734,
      "step": 106990
    },
    {
      "epoch": 0.22291666666666668,
      "grad_norm": 0.7719700336456299,
      "learning_rate": 0.00026567746775902284,
      "loss": 4.0565,
      "step": 107000
    },
    {
      "epoch": 0.22291666666666668,
      "eval_loss": 4.259228706359863,
      "eval_runtime": 10.7727,
      "eval_samples_per_second": 0.928,
      "eval_steps_per_second": 0.278,
      "step": 107000
    },
    {
      "epoch": 0.2229375,
      "grad_norm": 0.7677245140075684,
      "learning_rate": 0.000265671191421561,
      "loss": 3.9025,
      "step": 107010
    },
    {
      "epoch": 0.22295833333333334,
      "grad_norm": 1.0918828248977661,
      "learning_rate": 0.0002656649145844453,
      "loss": 4.0099,
      "step": 107020
    },
    {
      "epoch": 0.22297916666666667,
      "grad_norm": 0.7574662566184998,
      "learning_rate": 0.00026565863724770295,
      "loss": 3.8251,
      "step": 107030
    },
    {
      "epoch": 0.223,
      "grad_norm": 0.8037267923355103,
      "learning_rate": 0.0002656523594113611,
      "loss": 3.8877,
      "step": 107040
    },
    {
      "epoch": 0.22302083333333333,
      "grad_norm": 0.8779398202896118,
      "learning_rate": 0.00026564608107544684,
      "loss": 3.8325,
      "step": 107050
    },
    {
      "epoch": 0.22304166666666667,
      "grad_norm": 0.8288348913192749,
      "learning_rate": 0.00026563980223998725,
      "loss": 3.9819,
      "step": 107060
    },
    {
      "epoch": 0.2230625,
      "grad_norm": 0.8896586298942566,
      "learning_rate": 0.00026563352290500953,
      "loss": 4.0356,
      "step": 107070
    },
    {
      "epoch": 0.22308333333333333,
      "grad_norm": 0.8191094994544983,
      "learning_rate": 0.0002656272430705408,
      "loss": 3.913,
      "step": 107080
    },
    {
      "epoch": 0.22310416666666666,
      "grad_norm": 0.6436986923217773,
      "learning_rate": 0.0002656209627366081,
      "loss": 3.9173,
      "step": 107090
    },
    {
      "epoch": 0.223125,
      "grad_norm": 0.7644083499908447,
      "learning_rate": 0.00026561468190323853,
      "loss": 3.804,
      "step": 107100
    },
    {
      "epoch": 0.22314583333333332,
      "grad_norm": 0.6941161155700684,
      "learning_rate": 0.00026560840057045937,
      "loss": 3.9998,
      "step": 107110
    },
    {
      "epoch": 0.22316666666666668,
      "grad_norm": 0.7605928182601929,
      "learning_rate": 0.0002656021187382977,
      "loss": 4.1159,
      "step": 107120
    },
    {
      "epoch": 0.2231875,
      "grad_norm": 0.8727775812149048,
      "learning_rate": 0.0002655958364067806,
      "loss": 4.0363,
      "step": 107130
    },
    {
      "epoch": 0.22320833333333334,
      "grad_norm": 0.7707823514938354,
      "learning_rate": 0.00026558955357593525,
      "loss": 3.9256,
      "step": 107140
    },
    {
      "epoch": 0.22322916666666667,
      "grad_norm": 0.760208249092102,
      "learning_rate": 0.0002655832702457888,
      "loss": 3.8698,
      "step": 107150
    },
    {
      "epoch": 0.22325,
      "grad_norm": 0.7524341344833374,
      "learning_rate": 0.00026557698641636835,
      "loss": 3.8695,
      "step": 107160
    },
    {
      "epoch": 0.22327083333333334,
      "grad_norm": 0.7939009666442871,
      "learning_rate": 0.0002655707020877011,
      "loss": 4.0827,
      "step": 107170
    },
    {
      "epoch": 0.22329166666666667,
      "grad_norm": 0.7592851519584656,
      "learning_rate": 0.00026556441725981414,
      "loss": 3.9316,
      "step": 107180
    },
    {
      "epoch": 0.2233125,
      "grad_norm": 0.7610192894935608,
      "learning_rate": 0.00026555813193273464,
      "loss": 3.9483,
      "step": 107190
    },
    {
      "epoch": 0.22333333333333333,
      "grad_norm": 0.8078341484069824,
      "learning_rate": 0.00026555184610648977,
      "loss": 3.8478,
      "step": 107200
    },
    {
      "epoch": 0.22335416666666666,
      "grad_norm": 0.750744104385376,
      "learning_rate": 0.0002655455597811066,
      "loss": 3.9728,
      "step": 107210
    },
    {
      "epoch": 0.223375,
      "grad_norm": 0.7998350262641907,
      "learning_rate": 0.0002655392729566124,
      "loss": 4.1324,
      "step": 107220
    },
    {
      "epoch": 0.22339583333333332,
      "grad_norm": 0.8170853853225708,
      "learning_rate": 0.0002655329856330343,
      "loss": 4.1032,
      "step": 107230
    },
    {
      "epoch": 0.22341666666666668,
      "grad_norm": 0.7446580529212952,
      "learning_rate": 0.0002655266978103994,
      "loss": 3.7184,
      "step": 107240
    },
    {
      "epoch": 0.2234375,
      "grad_norm": 0.6860045790672302,
      "learning_rate": 0.0002655204094887349,
      "loss": 4.0353,
      "step": 107250
    },
    {
      "epoch": 0.22345833333333334,
      "grad_norm": 0.8715390563011169,
      "learning_rate": 0.00026551412066806794,
      "loss": 3.9282,
      "step": 107260
    },
    {
      "epoch": 0.22347916666666667,
      "grad_norm": 0.7032885551452637,
      "learning_rate": 0.0002655078313484257,
      "loss": 3.8907,
      "step": 107270
    },
    {
      "epoch": 0.2235,
      "grad_norm": 0.7164519429206848,
      "learning_rate": 0.0002655015415298354,
      "loss": 3.7976,
      "step": 107280
    },
    {
      "epoch": 0.22352083333333334,
      "grad_norm": 0.7490293979644775,
      "learning_rate": 0.00026549525121232414,
      "loss": 3.9742,
      "step": 107290
    },
    {
      "epoch": 0.22354166666666667,
      "grad_norm": 0.7898446321487427,
      "learning_rate": 0.00026548896039591907,
      "loss": 3.9779,
      "step": 107300
    },
    {
      "epoch": 0.2235625,
      "grad_norm": 0.9759935736656189,
      "learning_rate": 0.0002654826690806475,
      "loss": 4.0217,
      "step": 107310
    },
    {
      "epoch": 0.22358333333333333,
      "grad_norm": 0.8574326038360596,
      "learning_rate": 0.0002654763772665364,
      "loss": 3.795,
      "step": 107320
    },
    {
      "epoch": 0.22360416666666666,
      "grad_norm": 0.6761444807052612,
      "learning_rate": 0.0002654700849536131,
      "loss": 3.9371,
      "step": 107330
    },
    {
      "epoch": 0.223625,
      "grad_norm": 0.745129406452179,
      "learning_rate": 0.00026546379214190477,
      "loss": 4.0349,
      "step": 107340
    },
    {
      "epoch": 0.22364583333333332,
      "grad_norm": 0.7850171327590942,
      "learning_rate": 0.00026545749883143853,
      "loss": 3.7608,
      "step": 107350
    },
    {
      "epoch": 0.22366666666666668,
      "grad_norm": 0.8618757128715515,
      "learning_rate": 0.0002654512050222416,
      "loss": 3.8327,
      "step": 107360
    },
    {
      "epoch": 0.2236875,
      "grad_norm": 0.739352822303772,
      "learning_rate": 0.00026544491071434117,
      "loss": 4.068,
      "step": 107370
    },
    {
      "epoch": 0.22370833333333334,
      "grad_norm": 0.7913686037063599,
      "learning_rate": 0.00026543861590776435,
      "loss": 4.0086,
      "step": 107380
    },
    {
      "epoch": 0.22372916666666667,
      "grad_norm": 0.7705641984939575,
      "learning_rate": 0.0002654323206025385,
      "loss": 3.915,
      "step": 107390
    },
    {
      "epoch": 0.22375,
      "grad_norm": 0.7584271430969238,
      "learning_rate": 0.00026542602479869064,
      "loss": 3.8358,
      "step": 107400
    },
    {
      "epoch": 0.22377083333333334,
      "grad_norm": 0.7203395366668701,
      "learning_rate": 0.0002654197284962481,
      "loss": 3.7604,
      "step": 107410
    },
    {
      "epoch": 0.22379166666666667,
      "grad_norm": 0.7428842782974243,
      "learning_rate": 0.00026541343169523803,
      "loss": 3.9863,
      "step": 107420
    },
    {
      "epoch": 0.2238125,
      "grad_norm": 0.7380913496017456,
      "learning_rate": 0.0002654071343956876,
      "loss": 3.96,
      "step": 107430
    },
    {
      "epoch": 0.22383333333333333,
      "grad_norm": 0.8246150016784668,
      "learning_rate": 0.000265400836597624,
      "loss": 3.7616,
      "step": 107440
    },
    {
      "epoch": 0.22385416666666666,
      "grad_norm": 1.0532253980636597,
      "learning_rate": 0.0002653945383010745,
      "loss": 3.9266,
      "step": 107450
    },
    {
      "epoch": 0.223875,
      "grad_norm": 0.6825015544891357,
      "learning_rate": 0.00026538823950606627,
      "loss": 3.8685,
      "step": 107460
    },
    {
      "epoch": 0.22389583333333332,
      "grad_norm": 0.7266039252281189,
      "learning_rate": 0.0002653819402126265,
      "loss": 3.7001,
      "step": 107470
    },
    {
      "epoch": 0.22391666666666668,
      "grad_norm": 0.9822700023651123,
      "learning_rate": 0.0002653756404207824,
      "loss": 4.0703,
      "step": 107480
    },
    {
      "epoch": 0.2239375,
      "grad_norm": 0.7079208493232727,
      "learning_rate": 0.00026536934013056125,
      "loss": 3.9164,
      "step": 107490
    },
    {
      "epoch": 0.22395833333333334,
      "grad_norm": 0.841139554977417,
      "learning_rate": 0.00026536303934199024,
      "loss": 4.0352,
      "step": 107500
    },
    {
      "epoch": 0.22397916666666667,
      "grad_norm": 0.6773451566696167,
      "learning_rate": 0.0002653567380550965,
      "loss": 3.8395,
      "step": 107510
    },
    {
      "epoch": 0.224,
      "grad_norm": 0.8557222485542297,
      "learning_rate": 0.0002653504362699073,
      "loss": 3.8345,
      "step": 107520
    },
    {
      "epoch": 0.22402083333333334,
      "grad_norm": 0.7836664319038391,
      "learning_rate": 0.00026534413398644996,
      "loss": 3.818,
      "step": 107530
    },
    {
      "epoch": 0.22404166666666667,
      "grad_norm": 0.6668901443481445,
      "learning_rate": 0.00026533783120475155,
      "loss": 3.8794,
      "step": 107540
    },
    {
      "epoch": 0.2240625,
      "grad_norm": 0.7809096574783325,
      "learning_rate": 0.00026533152792483937,
      "loss": 3.9028,
      "step": 107550
    },
    {
      "epoch": 0.22408333333333333,
      "grad_norm": 0.9078205823898315,
      "learning_rate": 0.0002653252241467407,
      "loss": 3.9512,
      "step": 107560
    },
    {
      "epoch": 0.22410416666666666,
      "grad_norm": 0.8058987259864807,
      "learning_rate": 0.0002653189198704826,
      "loss": 4.0778,
      "step": 107570
    },
    {
      "epoch": 0.224125,
      "grad_norm": 0.9055424928665161,
      "learning_rate": 0.00026531261509609247,
      "loss": 3.8216,
      "step": 107580
    },
    {
      "epoch": 0.22414583333333332,
      "grad_norm": 0.9539164900779724,
      "learning_rate": 0.00026530630982359753,
      "loss": 3.9549,
      "step": 107590
    },
    {
      "epoch": 0.22416666666666665,
      "grad_norm": 0.7007455825805664,
      "learning_rate": 0.0002653000040530249,
      "loss": 3.9578,
      "step": 107600
    },
    {
      "epoch": 0.2241875,
      "grad_norm": 0.8495174050331116,
      "learning_rate": 0.0002652936977844019,
      "loss": 3.9749,
      "step": 107610
    },
    {
      "epoch": 0.22420833333333334,
      "grad_norm": 0.9904433488845825,
      "learning_rate": 0.00026528739101775584,
      "loss": 3.9216,
      "step": 107620
    },
    {
      "epoch": 0.22422916666666667,
      "grad_norm": 0.8151664137840271,
      "learning_rate": 0.00026528108375311384,
      "loss": 3.8695,
      "step": 107630
    },
    {
      "epoch": 0.22425,
      "grad_norm": 0.8081353306770325,
      "learning_rate": 0.00026527477599050316,
      "loss": 3.7737,
      "step": 107640
    },
    {
      "epoch": 0.22427083333333334,
      "grad_norm": 0.9427882432937622,
      "learning_rate": 0.0002652684677299511,
      "loss": 3.6688,
      "step": 107650
    },
    {
      "epoch": 0.22429166666666667,
      "grad_norm": 0.8764473795890808,
      "learning_rate": 0.00026526215897148484,
      "loss": 3.97,
      "step": 107660
    },
    {
      "epoch": 0.2243125,
      "grad_norm": 0.7579878568649292,
      "learning_rate": 0.00026525584971513175,
      "loss": 3.9794,
      "step": 107670
    },
    {
      "epoch": 0.22433333333333333,
      "grad_norm": 0.8373045921325684,
      "learning_rate": 0.000265249539960919,
      "loss": 3.9304,
      "step": 107680
    },
    {
      "epoch": 0.22435416666666666,
      "grad_norm": 0.7085008025169373,
      "learning_rate": 0.0002652432297088738,
      "loss": 3.9066,
      "step": 107690
    },
    {
      "epoch": 0.224375,
      "grad_norm": 0.6876103281974792,
      "learning_rate": 0.00026523691895902353,
      "loss": 3.8296,
      "step": 107700
    },
    {
      "epoch": 0.22439583333333332,
      "grad_norm": 0.8115256428718567,
      "learning_rate": 0.00026523060771139535,
      "loss": 3.9444,
      "step": 107710
    },
    {
      "epoch": 0.22441666666666665,
      "grad_norm": 0.6655845046043396,
      "learning_rate": 0.00026522429596601655,
      "loss": 3.9822,
      "step": 107720
    },
    {
      "epoch": 0.2244375,
      "grad_norm": 0.7063350677490234,
      "learning_rate": 0.0002652179837229144,
      "loss": 4.0137,
      "step": 107730
    },
    {
      "epoch": 0.22445833333333334,
      "grad_norm": 0.8975074887275696,
      "learning_rate": 0.00026521167098211623,
      "loss": 3.9922,
      "step": 107740
    },
    {
      "epoch": 0.22447916666666667,
      "grad_norm": 0.6861363053321838,
      "learning_rate": 0.0002652053577436491,
      "loss": 3.9582,
      "step": 107750
    },
    {
      "epoch": 0.2245,
      "grad_norm": 0.7187337875366211,
      "learning_rate": 0.0002651990440075406,
      "loss": 3.9205,
      "step": 107760
    },
    {
      "epoch": 0.22452083333333334,
      "grad_norm": 0.9012169241905212,
      "learning_rate": 0.00026519272977381774,
      "loss": 3.9932,
      "step": 107770
    },
    {
      "epoch": 0.22454166666666667,
      "grad_norm": 0.8746116161346436,
      "learning_rate": 0.0002651864150425079,
      "loss": 3.7856,
      "step": 107780
    },
    {
      "epoch": 0.2245625,
      "grad_norm": 0.8028250336647034,
      "learning_rate": 0.0002651800998136383,
      "loss": 3.8111,
      "step": 107790
    },
    {
      "epoch": 0.22458333333333333,
      "grad_norm": 0.8137475252151489,
      "learning_rate": 0.00026517378408723633,
      "loss": 3.832,
      "step": 107800
    },
    {
      "epoch": 0.22460416666666666,
      "grad_norm": 0.7160421013832092,
      "learning_rate": 0.00026516746786332915,
      "loss": 3.9565,
      "step": 107810
    },
    {
      "epoch": 0.224625,
      "grad_norm": 0.7053418159484863,
      "learning_rate": 0.0002651611511419441,
      "loss": 3.9425,
      "step": 107820
    },
    {
      "epoch": 0.22464583333333332,
      "grad_norm": 0.6934900283813477,
      "learning_rate": 0.0002651548339231085,
      "loss": 4.0303,
      "step": 107830
    },
    {
      "epoch": 0.22466666666666665,
      "grad_norm": 0.7565485239028931,
      "learning_rate": 0.00026514851620684955,
      "loss": 3.9256,
      "step": 107840
    },
    {
      "epoch": 0.2246875,
      "grad_norm": 0.700203001499176,
      "learning_rate": 0.0002651421979931946,
      "loss": 3.9349,
      "step": 107850
    },
    {
      "epoch": 0.22470833333333334,
      "grad_norm": 0.8127493262290955,
      "learning_rate": 0.00026513587928217095,
      "loss": 3.9847,
      "step": 107860
    },
    {
      "epoch": 0.22472916666666667,
      "grad_norm": 0.7424354553222656,
      "learning_rate": 0.00026512956007380587,
      "loss": 4.0018,
      "step": 107870
    },
    {
      "epoch": 0.22475,
      "grad_norm": 0.7245036363601685,
      "learning_rate": 0.00026512324036812664,
      "loss": 3.66,
      "step": 107880
    },
    {
      "epoch": 0.22477083333333334,
      "grad_norm": 0.7188828587532043,
      "learning_rate": 0.0002651169201651606,
      "loss": 3.7991,
      "step": 107890
    },
    {
      "epoch": 0.22479166666666667,
      "grad_norm": 0.7548100352287292,
      "learning_rate": 0.00026511059946493504,
      "loss": 4.0621,
      "step": 107900
    },
    {
      "epoch": 0.2248125,
      "grad_norm": 0.7032444477081299,
      "learning_rate": 0.00026510427826747726,
      "loss": 4.0631,
      "step": 107910
    },
    {
      "epoch": 0.22483333333333333,
      "grad_norm": 0.7910984754562378,
      "learning_rate": 0.0002650979565728145,
      "loss": 4.0126,
      "step": 107920
    },
    {
      "epoch": 0.22485416666666666,
      "grad_norm": 0.8080632090568542,
      "learning_rate": 0.0002650916343809742,
      "loss": 3.8145,
      "step": 107930
    },
    {
      "epoch": 0.224875,
      "grad_norm": 0.7022880911827087,
      "learning_rate": 0.00026508531169198356,
      "loss": 4.0366,
      "step": 107940
    },
    {
      "epoch": 0.22489583333333332,
      "grad_norm": 1.0428080558776855,
      "learning_rate": 0.00026507898850586996,
      "loss": 3.8148,
      "step": 107950
    },
    {
      "epoch": 0.22491666666666665,
      "grad_norm": 0.8246618509292603,
      "learning_rate": 0.0002650726648226606,
      "loss": 3.854,
      "step": 107960
    },
    {
      "epoch": 0.2249375,
      "grad_norm": 0.8671993017196655,
      "learning_rate": 0.00026506634064238295,
      "loss": 3.8819,
      "step": 107970
    },
    {
      "epoch": 0.22495833333333334,
      "grad_norm": 0.7429173588752747,
      "learning_rate": 0.00026506001596506425,
      "loss": 4.1048,
      "step": 107980
    },
    {
      "epoch": 0.22497916666666667,
      "grad_norm": 0.7929667234420776,
      "learning_rate": 0.0002650536907907318,
      "loss": 3.8898,
      "step": 107990
    },
    {
      "epoch": 0.225,
      "grad_norm": 0.7828166484832764,
      "learning_rate": 0.000265047365119413,
      "loss": 3.9413,
      "step": 108000
    },
    {
      "epoch": 0.225,
      "eval_loss": 4.2701826095581055,
      "eval_runtime": 9.5578,
      "eval_samples_per_second": 1.046,
      "eval_steps_per_second": 0.314,
      "step": 108000
    },
    {
      "epoch": 0.22502083333333334,
      "grad_norm": 0.6855906248092651,
      "learning_rate": 0.0002650410389511351,
      "loss": 4.0664,
      "step": 108010
    },
    {
      "epoch": 0.22504166666666667,
      "grad_norm": 0.7390345931053162,
      "learning_rate": 0.0002650347122859254,
      "loss": 3.9795,
      "step": 108020
    },
    {
      "epoch": 0.2250625,
      "grad_norm": 0.7705675363540649,
      "learning_rate": 0.0002650283851238113,
      "loss": 3.8993,
      "step": 108030
    },
    {
      "epoch": 0.22508333333333333,
      "grad_norm": 0.9260096549987793,
      "learning_rate": 0.00026502205746482013,
      "loss": 4.0351,
      "step": 108040
    },
    {
      "epoch": 0.22510416666666666,
      "grad_norm": 0.9677886962890625,
      "learning_rate": 0.00026501572930897916,
      "loss": 3.8891,
      "step": 108050
    },
    {
      "epoch": 0.225125,
      "grad_norm": 0.6848931312561035,
      "learning_rate": 0.0002650094006563158,
      "loss": 3.8525,
      "step": 108060
    },
    {
      "epoch": 0.22514583333333332,
      "grad_norm": 0.7515177130699158,
      "learning_rate": 0.00026500307150685733,
      "loss": 3.81,
      "step": 108070
    },
    {
      "epoch": 0.22516666666666665,
      "grad_norm": 0.7472609281539917,
      "learning_rate": 0.0002649967418606311,
      "loss": 4.043,
      "step": 108080
    },
    {
      "epoch": 0.2251875,
      "grad_norm": 0.7035729289054871,
      "learning_rate": 0.0002649904117176645,
      "loss": 3.7697,
      "step": 108090
    },
    {
      "epoch": 0.22520833333333334,
      "grad_norm": 0.8153097033500671,
      "learning_rate": 0.00026498408107798483,
      "loss": 3.8596,
      "step": 108100
    },
    {
      "epoch": 0.22522916666666667,
      "grad_norm": 0.7727575302124023,
      "learning_rate": 0.00026497774994161945,
      "loss": 3.7768,
      "step": 108110
    },
    {
      "epoch": 0.22525,
      "grad_norm": 0.9080545902252197,
      "learning_rate": 0.0002649714183085957,
      "loss": 3.9655,
      "step": 108120
    },
    {
      "epoch": 0.22527083333333334,
      "grad_norm": 0.7253996133804321,
      "learning_rate": 0.0002649650861789409,
      "loss": 4.0605,
      "step": 108130
    },
    {
      "epoch": 0.22529166666666667,
      "grad_norm": 0.6984232068061829,
      "learning_rate": 0.00026495875355268247,
      "loss": 3.9623,
      "step": 108140
    },
    {
      "epoch": 0.2253125,
      "grad_norm": 0.7518556714057922,
      "learning_rate": 0.0002649524204298477,
      "loss": 3.9034,
      "step": 108150
    },
    {
      "epoch": 0.22533333333333333,
      "grad_norm": 1.0172518491744995,
      "learning_rate": 0.00026494608681046404,
      "loss": 3.8013,
      "step": 108160
    },
    {
      "epoch": 0.22535416666666666,
      "grad_norm": 0.8406162261962891,
      "learning_rate": 0.0002649397526945587,
      "loss": 3.8911,
      "step": 108170
    },
    {
      "epoch": 0.225375,
      "grad_norm": 0.8054888248443604,
      "learning_rate": 0.00026493341808215914,
      "loss": 3.9592,
      "step": 108180
    },
    {
      "epoch": 0.22539583333333332,
      "grad_norm": 0.7733594179153442,
      "learning_rate": 0.00026492708297329277,
      "loss": 3.7242,
      "step": 108190
    },
    {
      "epoch": 0.22541666666666665,
      "grad_norm": 0.9566751718521118,
      "learning_rate": 0.00026492074736798687,
      "loss": 3.812,
      "step": 108200
    },
    {
      "epoch": 0.2254375,
      "grad_norm": 0.7568111419677734,
      "learning_rate": 0.00026491441126626875,
      "loss": 3.8475,
      "step": 108210
    },
    {
      "epoch": 0.22545833333333334,
      "grad_norm": 0.9721013903617859,
      "learning_rate": 0.00026490807466816597,
      "loss": 3.8514,
      "step": 108220
    },
    {
      "epoch": 0.22547916666666667,
      "grad_norm": 0.7420798540115356,
      "learning_rate": 0.0002649017375737057,
      "loss": 3.952,
      "step": 108230
    },
    {
      "epoch": 0.2255,
      "grad_norm": 0.7340584993362427,
      "learning_rate": 0.00026489539998291546,
      "loss": 4.0204,
      "step": 108240
    },
    {
      "epoch": 0.22552083333333334,
      "grad_norm": 0.8068675398826599,
      "learning_rate": 0.0002648890618958226,
      "loss": 3.8098,
      "step": 108250
    },
    {
      "epoch": 0.22554166666666667,
      "grad_norm": 0.9337735772132874,
      "learning_rate": 0.0002648827233124544,
      "loss": 4.1307,
      "step": 108260
    },
    {
      "epoch": 0.2255625,
      "grad_norm": 0.769917368888855,
      "learning_rate": 0.0002648763842328383,
      "loss": 3.7521,
      "step": 108270
    },
    {
      "epoch": 0.22558333333333333,
      "grad_norm": 0.8258672952651978,
      "learning_rate": 0.00026487004465700173,
      "loss": 4.1334,
      "step": 108280
    },
    {
      "epoch": 0.22560416666666666,
      "grad_norm": 0.6714640259742737,
      "learning_rate": 0.000264863704584972,
      "loss": 3.9538,
      "step": 108290
    },
    {
      "epoch": 0.225625,
      "grad_norm": 0.8542248606681824,
      "learning_rate": 0.00026485736401677664,
      "loss": 3.983,
      "step": 108300
    },
    {
      "epoch": 0.22564583333333332,
      "grad_norm": 0.8766009211540222,
      "learning_rate": 0.0002648510229524428,
      "loss": 3.8602,
      "step": 108310
    },
    {
      "epoch": 0.22566666666666665,
      "grad_norm": 0.7024014592170715,
      "learning_rate": 0.0002648446813919981,
      "loss": 3.8481,
      "step": 108320
    },
    {
      "epoch": 0.2256875,
      "grad_norm": 0.9006258249282837,
      "learning_rate": 0.00026483833933546976,
      "loss": 4.0391,
      "step": 108330
    },
    {
      "epoch": 0.22570833333333334,
      "grad_norm": 0.7353135347366333,
      "learning_rate": 0.0002648319967828853,
      "loss": 3.8486,
      "step": 108340
    },
    {
      "epoch": 0.22572916666666668,
      "grad_norm": 0.7824783325195312,
      "learning_rate": 0.00026482565373427206,
      "loss": 4.0668,
      "step": 108350
    },
    {
      "epoch": 0.22575,
      "grad_norm": 0.7513824105262756,
      "learning_rate": 0.0002648193101896574,
      "loss": 3.952,
      "step": 108360
    },
    {
      "epoch": 0.22577083333333334,
      "grad_norm": 0.8437369465827942,
      "learning_rate": 0.0002648129661490688,
      "loss": 3.8093,
      "step": 108370
    },
    {
      "epoch": 0.22579166666666667,
      "grad_norm": 1.0553442239761353,
      "learning_rate": 0.00026480662161253366,
      "loss": 3.9647,
      "step": 108380
    },
    {
      "epoch": 0.2258125,
      "grad_norm": 0.7749742269515991,
      "learning_rate": 0.00026480027658007935,
      "loss": 4.1088,
      "step": 108390
    },
    {
      "epoch": 0.22583333333333333,
      "grad_norm": 0.8228604793548584,
      "learning_rate": 0.00026479393105173325,
      "loss": 3.9304,
      "step": 108400
    },
    {
      "epoch": 0.22585416666666666,
      "grad_norm": 0.9030579328536987,
      "learning_rate": 0.00026478758502752284,
      "loss": 3.7751,
      "step": 108410
    },
    {
      "epoch": 0.225875,
      "grad_norm": 0.8912897109985352,
      "learning_rate": 0.0002647812385074755,
      "loss": 3.7719,
      "step": 108420
    },
    {
      "epoch": 0.22589583333333332,
      "grad_norm": 0.8149330019950867,
      "learning_rate": 0.0002647748914916186,
      "loss": 3.9286,
      "step": 108430
    },
    {
      "epoch": 0.22591666666666665,
      "grad_norm": 0.7595223784446716,
      "learning_rate": 0.00026476854397997963,
      "loss": 3.8379,
      "step": 108440
    },
    {
      "epoch": 0.2259375,
      "grad_norm": 0.755595326423645,
      "learning_rate": 0.000264762195972586,
      "loss": 4.0013,
      "step": 108450
    },
    {
      "epoch": 0.22595833333333334,
      "grad_norm": 0.780499279499054,
      "learning_rate": 0.0002647558474694651,
      "loss": 3.8853,
      "step": 108460
    },
    {
      "epoch": 0.22597916666666668,
      "grad_norm": 0.775527834892273,
      "learning_rate": 0.00026474949847064437,
      "loss": 3.9691,
      "step": 108470
    },
    {
      "epoch": 0.226,
      "grad_norm": 0.718939483165741,
      "learning_rate": 0.0002647431489761512,
      "loss": 3.7946,
      "step": 108480
    },
    {
      "epoch": 0.22602083333333334,
      "grad_norm": 0.9269850254058838,
      "learning_rate": 0.00026473679898601305,
      "loss": 3.9013,
      "step": 108490
    },
    {
      "epoch": 0.22604166666666667,
      "grad_norm": 0.7547590136528015,
      "learning_rate": 0.00026473044850025735,
      "loss": 3.8128,
      "step": 108500
    },
    {
      "epoch": 0.2260625,
      "grad_norm": 0.7387957572937012,
      "learning_rate": 0.0002647240975189115,
      "loss": 3.9923,
      "step": 108510
    },
    {
      "epoch": 0.22608333333333333,
      "grad_norm": 0.893765926361084,
      "learning_rate": 0.000264717746042003,
      "loss": 4.0459,
      "step": 108520
    },
    {
      "epoch": 0.22610416666666666,
      "grad_norm": 0.8834101557731628,
      "learning_rate": 0.00026471139406955926,
      "loss": 3.9557,
      "step": 108530
    },
    {
      "epoch": 0.226125,
      "grad_norm": 0.7173231244087219,
      "learning_rate": 0.00026470504160160764,
      "loss": 4.1095,
      "step": 108540
    },
    {
      "epoch": 0.22614583333333332,
      "grad_norm": 0.7746885418891907,
      "learning_rate": 0.0002646986886381757,
      "loss": 3.8995,
      "step": 108550
    },
    {
      "epoch": 0.22616666666666665,
      "grad_norm": 0.8607303500175476,
      "learning_rate": 0.0002646923351792908,
      "loss": 3.9218,
      "step": 108560
    },
    {
      "epoch": 0.2261875,
      "grad_norm": 0.7040896415710449,
      "learning_rate": 0.0002646859812249804,
      "loss": 3.8774,
      "step": 108570
    },
    {
      "epoch": 0.22620833333333334,
      "grad_norm": 0.7985808849334717,
      "learning_rate": 0.00026467962677527196,
      "loss": 3.8572,
      "step": 108580
    },
    {
      "epoch": 0.22622916666666668,
      "grad_norm": 0.8430532217025757,
      "learning_rate": 0.00026467327183019295,
      "loss": 3.7673,
      "step": 108590
    },
    {
      "epoch": 0.22625,
      "grad_norm": 0.8355246782302856,
      "learning_rate": 0.00026466691638977075,
      "loss": 3.9548,
      "step": 108600
    },
    {
      "epoch": 0.22627083333333334,
      "grad_norm": 0.8682499527931213,
      "learning_rate": 0.0002646605604540329,
      "loss": 3.8205,
      "step": 108610
    },
    {
      "epoch": 0.22629166666666667,
      "grad_norm": 0.6535966992378235,
      "learning_rate": 0.00026465420402300684,
      "loss": 3.7764,
      "step": 108620
    },
    {
      "epoch": 0.2263125,
      "grad_norm": 0.7928372025489807,
      "learning_rate": 0.00026464784709671993,
      "loss": 4.0335,
      "step": 108630
    },
    {
      "epoch": 0.22633333333333333,
      "grad_norm": 0.7565931081771851,
      "learning_rate": 0.0002646414896751997,
      "loss": 3.8317,
      "step": 108640
    },
    {
      "epoch": 0.22635416666666666,
      "grad_norm": 0.8574429750442505,
      "learning_rate": 0.0002646351317584737,
      "loss": 3.957,
      "step": 108650
    },
    {
      "epoch": 0.226375,
      "grad_norm": 0.7410995364189148,
      "learning_rate": 0.0002646287733465693,
      "loss": 3.7798,
      "step": 108660
    },
    {
      "epoch": 0.22639583333333332,
      "grad_norm": 0.653450608253479,
      "learning_rate": 0.0002646224144395139,
      "loss": 3.9486,
      "step": 108670
    },
    {
      "epoch": 0.22641666666666665,
      "grad_norm": 0.9384242296218872,
      "learning_rate": 0.00026461605503733506,
      "loss": 3.9158,
      "step": 108680
    },
    {
      "epoch": 0.2264375,
      "grad_norm": 0.7668075561523438,
      "learning_rate": 0.0002646096951400603,
      "loss": 3.9525,
      "step": 108690
    },
    {
      "epoch": 0.22645833333333334,
      "grad_norm": 0.7403702139854431,
      "learning_rate": 0.00026460333474771693,
      "loss": 3.8136,
      "step": 108700
    },
    {
      "epoch": 0.22647916666666668,
      "grad_norm": 0.7225868105888367,
      "learning_rate": 0.00026459697386033257,
      "loss": 3.8819,
      "step": 108710
    },
    {
      "epoch": 0.2265,
      "grad_norm": 0.6888270378112793,
      "learning_rate": 0.00026459061247793457,
      "loss": 4.0308,
      "step": 108720
    },
    {
      "epoch": 0.22652083333333334,
      "grad_norm": 0.872168779373169,
      "learning_rate": 0.00026458425060055056,
      "loss": 4.0748,
      "step": 108730
    },
    {
      "epoch": 0.22654166666666667,
      "grad_norm": 0.678532600402832,
      "learning_rate": 0.0002645778882282079,
      "loss": 4.1489,
      "step": 108740
    },
    {
      "epoch": 0.2265625,
      "grad_norm": 0.7982475757598877,
      "learning_rate": 0.0002645715253609342,
      "loss": 4.0493,
      "step": 108750
    },
    {
      "epoch": 0.22658333333333333,
      "grad_norm": 0.7670603394508362,
      "learning_rate": 0.0002645651619987568,
      "loss": 3.9351,
      "step": 108760
    },
    {
      "epoch": 0.22660416666666666,
      "grad_norm": 0.7278753519058228,
      "learning_rate": 0.0002645587981417032,
      "loss": 3.9232,
      "step": 108770
    },
    {
      "epoch": 0.226625,
      "grad_norm": 0.7164149880409241,
      "learning_rate": 0.000264552433789801,
      "loss": 3.9732,
      "step": 108780
    },
    {
      "epoch": 0.22664583333333332,
      "grad_norm": 0.7963036298751831,
      "learning_rate": 0.0002645460689430776,
      "loss": 4.0386,
      "step": 108790
    },
    {
      "epoch": 0.22666666666666666,
      "grad_norm": 0.7459926605224609,
      "learning_rate": 0.0002645397036015606,
      "loss": 3.942,
      "step": 108800
    },
    {
      "epoch": 0.2266875,
      "grad_norm": 0.701884925365448,
      "learning_rate": 0.00026453333776527735,
      "loss": 3.745,
      "step": 108810
    },
    {
      "epoch": 0.22670833333333335,
      "grad_norm": 0.7518672943115234,
      "learning_rate": 0.00026452697143425536,
      "loss": 3.8424,
      "step": 108820
    },
    {
      "epoch": 0.22672916666666668,
      "grad_norm": 0.6924442648887634,
      "learning_rate": 0.0002645206046085223,
      "loss": 3.9889,
      "step": 108830
    },
    {
      "epoch": 0.22675,
      "grad_norm": 0.795567512512207,
      "learning_rate": 0.0002645142372881055,
      "loss": 3.8982,
      "step": 108840
    },
    {
      "epoch": 0.22677083333333334,
      "grad_norm": 0.7239937782287598,
      "learning_rate": 0.0002645078694730325,
      "loss": 3.8779,
      "step": 108850
    },
    {
      "epoch": 0.22679166666666667,
      "grad_norm": 0.7635540962219238,
      "learning_rate": 0.0002645015011633309,
      "loss": 3.7136,
      "step": 108860
    },
    {
      "epoch": 0.2268125,
      "grad_norm": 0.7305667400360107,
      "learning_rate": 0.00026449513235902804,
      "loss": 3.9036,
      "step": 108870
    },
    {
      "epoch": 0.22683333333333333,
      "grad_norm": 0.761264443397522,
      "learning_rate": 0.0002644887630601516,
      "loss": 3.9273,
      "step": 108880
    },
    {
      "epoch": 0.22685416666666666,
      "grad_norm": 0.7146025896072388,
      "learning_rate": 0.000264482393266729,
      "loss": 4.0215,
      "step": 108890
    },
    {
      "epoch": 0.226875,
      "grad_norm": 0.8386164903640747,
      "learning_rate": 0.0002644760229787878,
      "loss": 3.8077,
      "step": 108900
    },
    {
      "epoch": 0.22689583333333332,
      "grad_norm": 0.7800633907318115,
      "learning_rate": 0.00026446965219635544,
      "loss": 4.0506,
      "step": 108910
    },
    {
      "epoch": 0.22691666666666666,
      "grad_norm": 0.7347279191017151,
      "learning_rate": 0.00026446328091945956,
      "loss": 3.8444,
      "step": 108920
    },
    {
      "epoch": 0.2269375,
      "grad_norm": 0.8164711594581604,
      "learning_rate": 0.00026445690914812754,
      "loss": 4.001,
      "step": 108930
    },
    {
      "epoch": 0.22695833333333335,
      "grad_norm": 0.6698181629180908,
      "learning_rate": 0.000264450536882387,
      "loss": 3.7945,
      "step": 108940
    },
    {
      "epoch": 0.22697916666666668,
      "grad_norm": 0.7902946472167969,
      "learning_rate": 0.0002644441641222655,
      "loss": 3.9007,
      "step": 108950
    },
    {
      "epoch": 0.227,
      "grad_norm": 0.8352525234222412,
      "learning_rate": 0.0002644377908677905,
      "loss": 3.9775,
      "step": 108960
    },
    {
      "epoch": 0.22702083333333334,
      "grad_norm": 0.7898527383804321,
      "learning_rate": 0.00026443141711898944,
      "loss": 3.9275,
      "step": 108970
    },
    {
      "epoch": 0.22704166666666667,
      "grad_norm": 0.6846413612365723,
      "learning_rate": 0.00026442504287589006,
      "loss": 3.973,
      "step": 108980
    },
    {
      "epoch": 0.2270625,
      "grad_norm": 0.73252934217453,
      "learning_rate": 0.0002644186681385197,
      "loss": 3.8706,
      "step": 108990
    },
    {
      "epoch": 0.22708333333333333,
      "grad_norm": 0.8041558861732483,
      "learning_rate": 0.0002644122929069061,
      "loss": 3.923,
      "step": 109000
    },
    {
      "epoch": 0.22708333333333333,
      "eval_loss": 4.2499494552612305,
      "eval_runtime": 10.4155,
      "eval_samples_per_second": 0.96,
      "eval_steps_per_second": 0.288,
      "step": 109000
    },
    {
      "epoch": 0.22710416666666666,
      "grad_norm": 0.7211470603942871,
      "learning_rate": 0.00026440591718107664,
      "loss": 3.9642,
      "step": 109010
    },
    {
      "epoch": 0.227125,
      "grad_norm": 0.8587322235107422,
      "learning_rate": 0.00026439954096105884,
      "loss": 3.8876,
      "step": 109020
    },
    {
      "epoch": 0.22714583333333332,
      "grad_norm": 0.824578583240509,
      "learning_rate": 0.00026439316424688034,
      "loss": 3.8638,
      "step": 109030
    },
    {
      "epoch": 0.22716666666666666,
      "grad_norm": 0.7026079893112183,
      "learning_rate": 0.0002643867870385687,
      "loss": 3.9412,
      "step": 109040
    },
    {
      "epoch": 0.2271875,
      "grad_norm": 0.7915549874305725,
      "learning_rate": 0.0002643804093361514,
      "loss": 4.0401,
      "step": 109050
    },
    {
      "epoch": 0.22720833333333335,
      "grad_norm": 0.7297204732894897,
      "learning_rate": 0.00026437403113965596,
      "loss": 4.0048,
      "step": 109060
    },
    {
      "epoch": 0.22722916666666668,
      "grad_norm": 0.7245772480964661,
      "learning_rate": 0.00026436765244911,
      "loss": 3.8391,
      "step": 109070
    },
    {
      "epoch": 0.22725,
      "grad_norm": 0.9843947291374207,
      "learning_rate": 0.00026436127326454105,
      "loss": 3.9333,
      "step": 109080
    },
    {
      "epoch": 0.22727083333333334,
      "grad_norm": 0.7660737037658691,
      "learning_rate": 0.00026435489358597665,
      "loss": 3.9236,
      "step": 109090
    },
    {
      "epoch": 0.22729166666666667,
      "grad_norm": 0.7760373950004578,
      "learning_rate": 0.0002643485134134444,
      "loss": 3.993,
      "step": 109100
    },
    {
      "epoch": 0.2273125,
      "grad_norm": 0.7885679602622986,
      "learning_rate": 0.0002643421327469718,
      "loss": 3.7301,
      "step": 109110
    },
    {
      "epoch": 0.22733333333333333,
      "grad_norm": 0.8297938108444214,
      "learning_rate": 0.0002643357515865865,
      "loss": 4.0085,
      "step": 109120
    },
    {
      "epoch": 0.22735416666666666,
      "grad_norm": 0.7652775049209595,
      "learning_rate": 0.000264329369932316,
      "loss": 3.83,
      "step": 109130
    },
    {
      "epoch": 0.227375,
      "grad_norm": 1.2758543491363525,
      "learning_rate": 0.0002643229877841878,
      "loss": 4.2243,
      "step": 109140
    },
    {
      "epoch": 0.22739583333333332,
      "grad_norm": 0.9598618745803833,
      "learning_rate": 0.0002643166051422297,
      "loss": 3.8953,
      "step": 109150
    },
    {
      "epoch": 0.22741666666666666,
      "grad_norm": 0.7711547017097473,
      "learning_rate": 0.000264310222006469,
      "loss": 4.0641,
      "step": 109160
    },
    {
      "epoch": 0.2274375,
      "grad_norm": 0.7458028793334961,
      "learning_rate": 0.0002643038383769334,
      "loss": 3.9576,
      "step": 109170
    },
    {
      "epoch": 0.22745833333333335,
      "grad_norm": 0.7583891153335571,
      "learning_rate": 0.00026429745425365046,
      "loss": 3.9374,
      "step": 109180
    },
    {
      "epoch": 0.22747916666666668,
      "grad_norm": 0.7509993314743042,
      "learning_rate": 0.0002642910696366478,
      "loss": 3.8812,
      "step": 109190
    },
    {
      "epoch": 0.2275,
      "grad_norm": 0.8617029190063477,
      "learning_rate": 0.00026428468452595295,
      "loss": 4.0242,
      "step": 109200
    },
    {
      "epoch": 0.22752083333333334,
      "grad_norm": 0.7223390340805054,
      "learning_rate": 0.00026427829892159343,
      "loss": 3.8089,
      "step": 109210
    },
    {
      "epoch": 0.22754166666666667,
      "grad_norm": 0.9702696800231934,
      "learning_rate": 0.000264271912823597,
      "loss": 4.011,
      "step": 109220
    },
    {
      "epoch": 0.2275625,
      "grad_norm": 0.7030995488166809,
      "learning_rate": 0.00026426552623199105,
      "loss": 3.7721,
      "step": 109230
    },
    {
      "epoch": 0.22758333333333333,
      "grad_norm": 0.7186703681945801,
      "learning_rate": 0.00026425913914680327,
      "loss": 3.8339,
      "step": 109240
    },
    {
      "epoch": 0.22760416666666666,
      "grad_norm": 0.8866310119628906,
      "learning_rate": 0.00026425275156806123,
      "loss": 3.9068,
      "step": 109250
    },
    {
      "epoch": 0.227625,
      "grad_norm": 0.8194873929023743,
      "learning_rate": 0.0002642463634957926,
      "loss": 3.9625,
      "step": 109260
    },
    {
      "epoch": 0.22764583333333333,
      "grad_norm": 0.7451662421226501,
      "learning_rate": 0.00026423997493002483,
      "loss": 3.8809,
      "step": 109270
    },
    {
      "epoch": 0.22766666666666666,
      "grad_norm": 0.8646328449249268,
      "learning_rate": 0.00026423358587078564,
      "loss": 3.8685,
      "step": 109280
    },
    {
      "epoch": 0.2276875,
      "grad_norm": 0.8582132458686829,
      "learning_rate": 0.0002642271963181025,
      "loss": 3.8492,
      "step": 109290
    },
    {
      "epoch": 0.22770833333333335,
      "grad_norm": 0.8723394274711609,
      "learning_rate": 0.00026422080627200317,
      "loss": 3.8499,
      "step": 109300
    },
    {
      "epoch": 0.22772916666666668,
      "grad_norm": 0.8789157867431641,
      "learning_rate": 0.0002642144157325151,
      "loss": 3.8766,
      "step": 109310
    },
    {
      "epoch": 0.22775,
      "grad_norm": 0.7020376324653625,
      "learning_rate": 0.000264208024699666,
      "loss": 3.9585,
      "step": 109320
    },
    {
      "epoch": 0.22777083333333334,
      "grad_norm": 0.7438896894454956,
      "learning_rate": 0.00026420163317348347,
      "loss": 4.084,
      "step": 109330
    },
    {
      "epoch": 0.22779166666666667,
      "grad_norm": 0.9015541672706604,
      "learning_rate": 0.00026419524115399505,
      "loss": 3.9749,
      "step": 109340
    },
    {
      "epoch": 0.2278125,
      "grad_norm": 0.8149701952934265,
      "learning_rate": 0.0002641888486412284,
      "loss": 3.9668,
      "step": 109350
    },
    {
      "epoch": 0.22783333333333333,
      "grad_norm": 0.6502760648727417,
      "learning_rate": 0.0002641824556352111,
      "loss": 4.0524,
      "step": 109360
    },
    {
      "epoch": 0.22785416666666666,
      "grad_norm": 0.8575359582901001,
      "learning_rate": 0.0002641760621359708,
      "loss": 3.8735,
      "step": 109370
    },
    {
      "epoch": 0.227875,
      "grad_norm": 0.8677646517753601,
      "learning_rate": 0.0002641696681435351,
      "loss": 3.8544,
      "step": 109380
    },
    {
      "epoch": 0.22789583333333333,
      "grad_norm": 0.7077972292900085,
      "learning_rate": 0.00026416327365793164,
      "loss": 4.0386,
      "step": 109390
    },
    {
      "epoch": 0.22791666666666666,
      "grad_norm": 0.7458457946777344,
      "learning_rate": 0.00026415687867918804,
      "loss": 4.0746,
      "step": 109400
    },
    {
      "epoch": 0.2279375,
      "grad_norm": 0.7556995749473572,
      "learning_rate": 0.0002641504832073319,
      "loss": 3.9944,
      "step": 109410
    },
    {
      "epoch": 0.22795833333333335,
      "grad_norm": 0.8564623594284058,
      "learning_rate": 0.00026414408724239084,
      "loss": 3.9201,
      "step": 109420
    },
    {
      "epoch": 0.22797916666666668,
      "grad_norm": 0.7261602282524109,
      "learning_rate": 0.00026413769078439253,
      "loss": 4.0478,
      "step": 109430
    },
    {
      "epoch": 0.228,
      "grad_norm": 0.8424165844917297,
      "learning_rate": 0.0002641312938333645,
      "loss": 3.9259,
      "step": 109440
    },
    {
      "epoch": 0.22802083333333334,
      "grad_norm": 0.9319525361061096,
      "learning_rate": 0.0002641248963893345,
      "loss": 4.0891,
      "step": 109450
    },
    {
      "epoch": 0.22804166666666667,
      "grad_norm": 0.8633121848106384,
      "learning_rate": 0.0002641184984523302,
      "loss": 3.8944,
      "step": 109460
    },
    {
      "epoch": 0.2280625,
      "grad_norm": 0.9659656286239624,
      "learning_rate": 0.0002641121000223791,
      "loss": 3.8978,
      "step": 109470
    },
    {
      "epoch": 0.22808333333333333,
      "grad_norm": 0.8419045805931091,
      "learning_rate": 0.0002641057010995089,
      "loss": 3.9073,
      "step": 109480
    },
    {
      "epoch": 0.22810416666666666,
      "grad_norm": 0.9332680702209473,
      "learning_rate": 0.0002640993016837472,
      "loss": 3.7823,
      "step": 109490
    },
    {
      "epoch": 0.228125,
      "grad_norm": 0.7900363802909851,
      "learning_rate": 0.0002640929017751217,
      "loss": 3.8347,
      "step": 109500
    },
    {
      "epoch": 0.22814583333333333,
      "grad_norm": 0.7122859358787537,
      "learning_rate": 0.00026408650137366006,
      "loss": 4.0859,
      "step": 109510
    },
    {
      "epoch": 0.22816666666666666,
      "grad_norm": 0.8112831711769104,
      "learning_rate": 0.00026408010047938987,
      "loss": 3.971,
      "step": 109520
    },
    {
      "epoch": 0.2281875,
      "grad_norm": 0.8198418021202087,
      "learning_rate": 0.0002640736990923388,
      "loss": 3.867,
      "step": 109530
    },
    {
      "epoch": 0.22820833333333335,
      "grad_norm": 0.7016808986663818,
      "learning_rate": 0.0002640672972125345,
      "loss": 4.0692,
      "step": 109540
    },
    {
      "epoch": 0.22822916666666668,
      "grad_norm": 0.7392622232437134,
      "learning_rate": 0.00026406089484000466,
      "loss": 3.8595,
      "step": 109550
    },
    {
      "epoch": 0.22825,
      "grad_norm": 0.7799830436706543,
      "learning_rate": 0.00026405449197477684,
      "loss": 3.922,
      "step": 109560
    },
    {
      "epoch": 0.22827083333333334,
      "grad_norm": 1.1229808330535889,
      "learning_rate": 0.00026404808861687877,
      "loss": 3.8587,
      "step": 109570
    },
    {
      "epoch": 0.22829166666666667,
      "grad_norm": 0.7212927937507629,
      "learning_rate": 0.0002640416847663381,
      "loss": 3.9411,
      "step": 109580
    },
    {
      "epoch": 0.2283125,
      "grad_norm": 0.9135217070579529,
      "learning_rate": 0.00026403528042318253,
      "loss": 3.9338,
      "step": 109590
    },
    {
      "epoch": 0.22833333333333333,
      "grad_norm": 0.9486455321311951,
      "learning_rate": 0.00026402887558743966,
      "loss": 3.7547,
      "step": 109600
    },
    {
      "epoch": 0.22835416666666666,
      "grad_norm": 0.8096184134483337,
      "learning_rate": 0.00026402247025913723,
      "loss": 4.0848,
      "step": 109610
    },
    {
      "epoch": 0.228375,
      "grad_norm": 0.7783848643302917,
      "learning_rate": 0.00026401606443830284,
      "loss": 4.0792,
      "step": 109620
    },
    {
      "epoch": 0.22839583333333333,
      "grad_norm": 0.765708863735199,
      "learning_rate": 0.00026400965812496414,
      "loss": 4.0049,
      "step": 109630
    },
    {
      "epoch": 0.22841666666666666,
      "grad_norm": 1.0106561183929443,
      "learning_rate": 0.00026400325131914894,
      "loss": 3.9896,
      "step": 109640
    },
    {
      "epoch": 0.2284375,
      "grad_norm": 0.9338300824165344,
      "learning_rate": 0.0002639968440208847,
      "loss": 3.8279,
      "step": 109650
    },
    {
      "epoch": 0.22845833333333335,
      "grad_norm": 0.6938652396202087,
      "learning_rate": 0.0002639904362301993,
      "loss": 4.0593,
      "step": 109660
    },
    {
      "epoch": 0.22847916666666668,
      "grad_norm": 0.7950575351715088,
      "learning_rate": 0.0002639840279471203,
      "loss": 3.8256,
      "step": 109670
    },
    {
      "epoch": 0.2285,
      "grad_norm": 0.863710343837738,
      "learning_rate": 0.0002639776191716754,
      "loss": 4.1375,
      "step": 109680
    },
    {
      "epoch": 0.22852083333333334,
      "grad_norm": 0.7684694528579712,
      "learning_rate": 0.00026397120990389233,
      "loss": 4.0483,
      "step": 109690
    },
    {
      "epoch": 0.22854166666666667,
      "grad_norm": 0.76094651222229,
      "learning_rate": 0.00026396480014379876,
      "loss": 3.7674,
      "step": 109700
    },
    {
      "epoch": 0.2285625,
      "grad_norm": 0.789027988910675,
      "learning_rate": 0.0002639583898914223,
      "loss": 3.8377,
      "step": 109710
    },
    {
      "epoch": 0.22858333333333333,
      "grad_norm": 0.6967670917510986,
      "learning_rate": 0.0002639519791467908,
      "loss": 3.7613,
      "step": 109720
    },
    {
      "epoch": 0.22860416666666666,
      "grad_norm": 1.0734822750091553,
      "learning_rate": 0.0002639455679099318,
      "loss": 3.8546,
      "step": 109730
    },
    {
      "epoch": 0.228625,
      "grad_norm": 0.9505367875099182,
      "learning_rate": 0.00026393915618087307,
      "loss": 3.999,
      "step": 109740
    },
    {
      "epoch": 0.22864583333333333,
      "grad_norm": 0.9332210421562195,
      "learning_rate": 0.00026393274395964224,
      "loss": 3.9409,
      "step": 109750
    },
    {
      "epoch": 0.22866666666666666,
      "grad_norm": 0.7475576400756836,
      "learning_rate": 0.00026392633124626706,
      "loss": 3.9663,
      "step": 109760
    },
    {
      "epoch": 0.2286875,
      "grad_norm": 0.7160632610321045,
      "learning_rate": 0.0002639199180407753,
      "loss": 3.8305,
      "step": 109770
    },
    {
      "epoch": 0.22870833333333335,
      "grad_norm": 0.7517324686050415,
      "learning_rate": 0.0002639135043431945,
      "loss": 3.7539,
      "step": 109780
    },
    {
      "epoch": 0.22872916666666668,
      "grad_norm": 0.818114697933197,
      "learning_rate": 0.0002639070901535525,
      "loss": 3.9507,
      "step": 109790
    },
    {
      "epoch": 0.22875,
      "grad_norm": 0.7590651512145996,
      "learning_rate": 0.00026390067547187696,
      "loss": 4.0164,
      "step": 109800
    },
    {
      "epoch": 0.22877083333333334,
      "grad_norm": 0.7373353838920593,
      "learning_rate": 0.0002638942602981956,
      "loss": 3.8152,
      "step": 109810
    },
    {
      "epoch": 0.22879166666666667,
      "grad_norm": 0.7649748921394348,
      "learning_rate": 0.00026388784463253603,
      "loss": 3.8372,
      "step": 109820
    },
    {
      "epoch": 0.2288125,
      "grad_norm": 0.9198845028877258,
      "learning_rate": 0.00026388142847492616,
      "loss": 3.8272,
      "step": 109830
    },
    {
      "epoch": 0.22883333333333333,
      "grad_norm": 0.7580945491790771,
      "learning_rate": 0.00026387501182539353,
      "loss": 3.8579,
      "step": 109840
    },
    {
      "epoch": 0.22885416666666666,
      "grad_norm": 0.8657234311103821,
      "learning_rate": 0.00026386859468396597,
      "loss": 3.8016,
      "step": 109850
    },
    {
      "epoch": 0.228875,
      "grad_norm": 0.7559195160865784,
      "learning_rate": 0.0002638621770506711,
      "loss": 3.9147,
      "step": 109860
    },
    {
      "epoch": 0.22889583333333333,
      "grad_norm": 0.8593403697013855,
      "learning_rate": 0.0002638557589255367,
      "loss": 3.9565,
      "step": 109870
    },
    {
      "epoch": 0.22891666666666666,
      "grad_norm": 0.8786885738372803,
      "learning_rate": 0.0002638493403085905,
      "loss": 3.7291,
      "step": 109880
    },
    {
      "epoch": 0.2289375,
      "grad_norm": 0.8491235971450806,
      "learning_rate": 0.00026384292119986023,
      "loss": 3.9545,
      "step": 109890
    },
    {
      "epoch": 0.22895833333333335,
      "grad_norm": 0.6955267190933228,
      "learning_rate": 0.00026383650159937357,
      "loss": 4.1,
      "step": 109900
    },
    {
      "epoch": 0.22897916666666668,
      "grad_norm": 0.7136731147766113,
      "learning_rate": 0.00026383008150715834,
      "loss": 3.9432,
      "step": 109910
    },
    {
      "epoch": 0.229,
      "grad_norm": 1.0043952465057373,
      "learning_rate": 0.0002638236609232422,
      "loss": 3.997,
      "step": 109920
    },
    {
      "epoch": 0.22902083333333334,
      "grad_norm": 0.7582695484161377,
      "learning_rate": 0.00026381723984765287,
      "loss": 3.9381,
      "step": 109930
    },
    {
      "epoch": 0.22904166666666667,
      "grad_norm": 0.7013106942176819,
      "learning_rate": 0.0002638108182804181,
      "loss": 3.9009,
      "step": 109940
    },
    {
      "epoch": 0.2290625,
      "grad_norm": 0.8008269667625427,
      "learning_rate": 0.00026380439622156567,
      "loss": 4.1077,
      "step": 109950
    },
    {
      "epoch": 0.22908333333333333,
      "grad_norm": 0.742562472820282,
      "learning_rate": 0.0002637979736711233,
      "loss": 3.8171,
      "step": 109960
    },
    {
      "epoch": 0.22910416666666666,
      "grad_norm": 0.8089008331298828,
      "learning_rate": 0.0002637915506291187,
      "loss": 3.7811,
      "step": 109970
    },
    {
      "epoch": 0.229125,
      "grad_norm": 0.830127477645874,
      "learning_rate": 0.0002637851270955797,
      "loss": 3.8195,
      "step": 109980
    },
    {
      "epoch": 0.22914583333333333,
      "grad_norm": 0.8295267820358276,
      "learning_rate": 0.00026377870307053397,
      "loss": 3.8919,
      "step": 109990
    },
    {
      "epoch": 0.22916666666666666,
      "grad_norm": 0.718661367893219,
      "learning_rate": 0.00026377227855400924,
      "loss": 3.8697,
      "step": 110000
    },
    {
      "epoch": 0.22916666666666666,
      "eval_loss": 4.249701499938965,
      "eval_runtime": 10.5597,
      "eval_samples_per_second": 0.947,
      "eval_steps_per_second": 0.284,
      "step": 110000
    },
    {
      "epoch": 0.2291875,
      "grad_norm": 0.7415273189544678,
      "learning_rate": 0.00026376585354603334,
      "loss": 3.7861,
      "step": 110010
    },
    {
      "epoch": 0.22920833333333332,
      "grad_norm": 0.7925416231155396,
      "learning_rate": 0.00026375942804663397,
      "loss": 3.9635,
      "step": 110020
    },
    {
      "epoch": 0.22922916666666668,
      "grad_norm": 0.7430617809295654,
      "learning_rate": 0.0002637530020558389,
      "loss": 3.9246,
      "step": 110030
    },
    {
      "epoch": 0.22925,
      "grad_norm": 0.7445803284645081,
      "learning_rate": 0.00026374657557367594,
      "loss": 3.8988,
      "step": 110040
    },
    {
      "epoch": 0.22927083333333334,
      "grad_norm": 0.7336782217025757,
      "learning_rate": 0.00026374014860017274,
      "loss": 4.0082,
      "step": 110050
    },
    {
      "epoch": 0.22929166666666667,
      "grad_norm": 0.6729409694671631,
      "learning_rate": 0.0002637337211353571,
      "loss": 4.0101,
      "step": 110060
    },
    {
      "epoch": 0.2293125,
      "grad_norm": 0.7361496686935425,
      "learning_rate": 0.0002637272931792568,
      "loss": 3.8981,
      "step": 110070
    },
    {
      "epoch": 0.22933333333333333,
      "grad_norm": 0.7461500763893127,
      "learning_rate": 0.00026372086473189964,
      "loss": 3.8955,
      "step": 110080
    },
    {
      "epoch": 0.22935416666666666,
      "grad_norm": 0.7760915756225586,
      "learning_rate": 0.0002637144357933134,
      "loss": 3.8394,
      "step": 110090
    },
    {
      "epoch": 0.229375,
      "grad_norm": 0.8526029586791992,
      "learning_rate": 0.0002637080063635258,
      "loss": 3.8861,
      "step": 110100
    },
    {
      "epoch": 0.22939583333333333,
      "grad_norm": 0.8022934794425964,
      "learning_rate": 0.00026370157644256455,
      "loss": 4.0007,
      "step": 110110
    },
    {
      "epoch": 0.22941666666666666,
      "grad_norm": 0.7521193623542786,
      "learning_rate": 0.0002636951460304575,
      "loss": 3.9473,
      "step": 110120
    },
    {
      "epoch": 0.2294375,
      "grad_norm": 0.7516229748725891,
      "learning_rate": 0.0002636887151272325,
      "loss": 4.0419,
      "step": 110130
    },
    {
      "epoch": 0.22945833333333332,
      "grad_norm": 0.6763893365859985,
      "learning_rate": 0.0002636822837329172,
      "loss": 3.8682,
      "step": 110140
    },
    {
      "epoch": 0.22947916666666668,
      "grad_norm": 0.7663094997406006,
      "learning_rate": 0.00026367585184753945,
      "loss": 3.866,
      "step": 110150
    },
    {
      "epoch": 0.2295,
      "grad_norm": 0.882121205329895,
      "learning_rate": 0.000263669419471127,
      "loss": 4.0151,
      "step": 110160
    },
    {
      "epoch": 0.22952083333333334,
      "grad_norm": 0.6913464665412903,
      "learning_rate": 0.00026366298660370765,
      "loss": 3.8905,
      "step": 110170
    },
    {
      "epoch": 0.22954166666666667,
      "grad_norm": 0.7483918070793152,
      "learning_rate": 0.00026365655324530924,
      "loss": 4.0546,
      "step": 110180
    },
    {
      "epoch": 0.2295625,
      "grad_norm": 0.7755992412567139,
      "learning_rate": 0.0002636501193959594,
      "loss": 3.7696,
      "step": 110190
    },
    {
      "epoch": 0.22958333333333333,
      "grad_norm": 0.7326026558876038,
      "learning_rate": 0.00026364368505568615,
      "loss": 3.8869,
      "step": 110200
    },
    {
      "epoch": 0.22960416666666666,
      "grad_norm": 0.7769258618354797,
      "learning_rate": 0.0002636372502245171,
      "loss": 3.9524,
      "step": 110210
    },
    {
      "epoch": 0.229625,
      "grad_norm": 0.7584809064865112,
      "learning_rate": 0.0002636308149024801,
      "loss": 3.8568,
      "step": 110220
    },
    {
      "epoch": 0.22964583333333333,
      "grad_norm": 0.7712398767471313,
      "learning_rate": 0.000263624379089603,
      "loss": 3.8487,
      "step": 110230
    },
    {
      "epoch": 0.22966666666666666,
      "grad_norm": 0.7107548117637634,
      "learning_rate": 0.0002636179427859135,
      "loss": 3.8059,
      "step": 110240
    },
    {
      "epoch": 0.2296875,
      "grad_norm": 0.9684906005859375,
      "learning_rate": 0.0002636115059914395,
      "loss": 3.8416,
      "step": 110250
    },
    {
      "epoch": 0.22970833333333332,
      "grad_norm": 0.7956709861755371,
      "learning_rate": 0.00026360506870620883,
      "loss": 3.8661,
      "step": 110260
    },
    {
      "epoch": 0.22972916666666668,
      "grad_norm": 0.7930283546447754,
      "learning_rate": 0.00026359863093024916,
      "loss": 4.023,
      "step": 110270
    },
    {
      "epoch": 0.22975,
      "grad_norm": 0.7595381140708923,
      "learning_rate": 0.00026359219266358836,
      "loss": 4.0126,
      "step": 110280
    },
    {
      "epoch": 0.22977083333333334,
      "grad_norm": 0.6647530198097229,
      "learning_rate": 0.00026358575390625426,
      "loss": 3.9504,
      "step": 110290
    },
    {
      "epoch": 0.22979166666666667,
      "grad_norm": 0.7436468005180359,
      "learning_rate": 0.0002635793146582747,
      "loss": 3.8658,
      "step": 110300
    },
    {
      "epoch": 0.2298125,
      "grad_norm": 0.7605845928192139,
      "learning_rate": 0.0002635728749196774,
      "loss": 3.8086,
      "step": 110310
    },
    {
      "epoch": 0.22983333333333333,
      "grad_norm": 0.7105920910835266,
      "learning_rate": 0.0002635664346904902,
      "loss": 3.8331,
      "step": 110320
    },
    {
      "epoch": 0.22985416666666666,
      "grad_norm": 0.7485894560813904,
      "learning_rate": 0.00026355999397074107,
      "loss": 3.9268,
      "step": 110330
    },
    {
      "epoch": 0.229875,
      "grad_norm": 0.8219748735427856,
      "learning_rate": 0.00026355355276045766,
      "loss": 4.0463,
      "step": 110340
    },
    {
      "epoch": 0.22989583333333333,
      "grad_norm": 0.8608161211013794,
      "learning_rate": 0.00026354711105966785,
      "loss": 3.8347,
      "step": 110350
    },
    {
      "epoch": 0.22991666666666666,
      "grad_norm": 0.746091365814209,
      "learning_rate": 0.00026354066886839946,
      "loss": 3.7858,
      "step": 110360
    },
    {
      "epoch": 0.2299375,
      "grad_norm": 0.804319441318512,
      "learning_rate": 0.00026353422618668034,
      "loss": 4.1033,
      "step": 110370
    },
    {
      "epoch": 0.22995833333333332,
      "grad_norm": 0.7565343976020813,
      "learning_rate": 0.0002635277830145383,
      "loss": 3.941,
      "step": 110380
    },
    {
      "epoch": 0.22997916666666668,
      "grad_norm": 0.8230046629905701,
      "learning_rate": 0.00026352133935200116,
      "loss": 3.8843,
      "step": 110390
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8380718231201172,
      "learning_rate": 0.0002635148951990968,
      "loss": 3.9133,
      "step": 110400
    },
    {
      "epoch": 0.23002083333333334,
      "grad_norm": 0.9129257202148438,
      "learning_rate": 0.00026350845055585296,
      "loss": 3.8807,
      "step": 110410
    },
    {
      "epoch": 0.23004166666666667,
      "grad_norm": 0.7682124972343445,
      "learning_rate": 0.00026350200542229763,
      "loss": 4.0301,
      "step": 110420
    },
    {
      "epoch": 0.2300625,
      "grad_norm": 0.8067581057548523,
      "learning_rate": 0.0002634955597984585,
      "loss": 3.8033,
      "step": 110430
    },
    {
      "epoch": 0.23008333333333333,
      "grad_norm": 0.8139240741729736,
      "learning_rate": 0.00026348911368436346,
      "loss": 3.8868,
      "step": 110440
    },
    {
      "epoch": 0.23010416666666667,
      "grad_norm": 0.7920733690261841,
      "learning_rate": 0.0002634826670800404,
      "loss": 3.8681,
      "step": 110450
    },
    {
      "epoch": 0.230125,
      "grad_norm": 0.7330632209777832,
      "learning_rate": 0.00026347621998551717,
      "loss": 3.781,
      "step": 110460
    },
    {
      "epoch": 0.23014583333333333,
      "grad_norm": 0.7772855758666992,
      "learning_rate": 0.0002634697724008216,
      "loss": 3.9946,
      "step": 110470
    },
    {
      "epoch": 0.23016666666666666,
      "grad_norm": 0.8419053554534912,
      "learning_rate": 0.0002634633243259814,
      "loss": 4.0081,
      "step": 110480
    },
    {
      "epoch": 0.2301875,
      "grad_norm": 0.7357924580574036,
      "learning_rate": 0.0002634568757610247,
      "loss": 3.855,
      "step": 110490
    },
    {
      "epoch": 0.23020833333333332,
      "grad_norm": 1.0452427864074707,
      "learning_rate": 0.0002634504267059792,
      "loss": 3.8022,
      "step": 110500
    },
    {
      "epoch": 0.23022916666666668,
      "grad_norm": 0.6946810483932495,
      "learning_rate": 0.00026344397716087265,
      "loss": 4.0258,
      "step": 110510
    },
    {
      "epoch": 0.23025,
      "grad_norm": 0.9397356510162354,
      "learning_rate": 0.0002634375271257331,
      "loss": 3.9896,
      "step": 110520
    },
    {
      "epoch": 0.23027083333333334,
      "grad_norm": 0.7494910955429077,
      "learning_rate": 0.0002634310766005883,
      "loss": 4.1399,
      "step": 110530
    },
    {
      "epoch": 0.23029166666666667,
      "grad_norm": 0.8289433121681213,
      "learning_rate": 0.00026342462558546614,
      "loss": 3.9751,
      "step": 110540
    },
    {
      "epoch": 0.2303125,
      "grad_norm": 0.8440728783607483,
      "learning_rate": 0.00026341817408039454,
      "loss": 3.8619,
      "step": 110550
    },
    {
      "epoch": 0.23033333333333333,
      "grad_norm": 0.9003103375434875,
      "learning_rate": 0.0002634117220854013,
      "loss": 3.9259,
      "step": 110560
    },
    {
      "epoch": 0.23035416666666667,
      "grad_norm": 0.7315119504928589,
      "learning_rate": 0.0002634052696005143,
      "loss": 3.9721,
      "step": 110570
    },
    {
      "epoch": 0.230375,
      "grad_norm": 0.7476469874382019,
      "learning_rate": 0.00026339881662576145,
      "loss": 3.8515,
      "step": 110580
    },
    {
      "epoch": 0.23039583333333333,
      "grad_norm": 0.9370314478874207,
      "learning_rate": 0.00026339236316117056,
      "loss": 3.9393,
      "step": 110590
    },
    {
      "epoch": 0.23041666666666666,
      "grad_norm": 0.7821308374404907,
      "learning_rate": 0.0002633859092067696,
      "loss": 3.8511,
      "step": 110600
    },
    {
      "epoch": 0.2304375,
      "grad_norm": 0.938216507434845,
      "learning_rate": 0.0002633794547625863,
      "loss": 3.8838,
      "step": 110610
    },
    {
      "epoch": 0.23045833333333332,
      "grad_norm": 0.6697997450828552,
      "learning_rate": 0.00026337299982864875,
      "loss": 3.8901,
      "step": 110620
    },
    {
      "epoch": 0.23047916666666668,
      "grad_norm": 0.7944203019142151,
      "learning_rate": 0.0002633665444049847,
      "loss": 3.9081,
      "step": 110630
    },
    {
      "epoch": 0.2305,
      "grad_norm": 0.7712404131889343,
      "learning_rate": 0.000263360088491622,
      "loss": 3.9264,
      "step": 110640
    },
    {
      "epoch": 0.23052083333333334,
      "grad_norm": 0.7657455801963806,
      "learning_rate": 0.0002633536320885886,
      "loss": 3.806,
      "step": 110650
    },
    {
      "epoch": 0.23054166666666667,
      "grad_norm": 0.8278506398200989,
      "learning_rate": 0.0002633471751959124,
      "loss": 3.9548,
      "step": 110660
    },
    {
      "epoch": 0.2305625,
      "grad_norm": 0.7828817963600159,
      "learning_rate": 0.00026334071781362124,
      "loss": 3.9745,
      "step": 110670
    },
    {
      "epoch": 0.23058333333333333,
      "grad_norm": 0.7219924926757812,
      "learning_rate": 0.00026333425994174304,
      "loss": 3.8848,
      "step": 110680
    },
    {
      "epoch": 0.23060416666666667,
      "grad_norm": 0.7578567266464233,
      "learning_rate": 0.0002633278015803057,
      "loss": 3.7908,
      "step": 110690
    },
    {
      "epoch": 0.230625,
      "grad_norm": 0.8224273324012756,
      "learning_rate": 0.00026332134272933716,
      "loss": 3.8528,
      "step": 110700
    },
    {
      "epoch": 0.23064583333333333,
      "grad_norm": 0.891659140586853,
      "learning_rate": 0.0002633148833888652,
      "loss": 3.8193,
      "step": 110710
    },
    {
      "epoch": 0.23066666666666666,
      "grad_norm": 0.8037193417549133,
      "learning_rate": 0.0002633084235589179,
      "loss": 3.8481,
      "step": 110720
    },
    {
      "epoch": 0.2306875,
      "grad_norm": 0.7784743905067444,
      "learning_rate": 0.000263301963239523,
      "loss": 3.9424,
      "step": 110730
    },
    {
      "epoch": 0.23070833333333332,
      "grad_norm": 0.7517142295837402,
      "learning_rate": 0.00026329550243070845,
      "loss": 4.0266,
      "step": 110740
    },
    {
      "epoch": 0.23072916666666668,
      "grad_norm": 0.6955044269561768,
      "learning_rate": 0.00026328904113250213,
      "loss": 3.9015,
      "step": 110750
    },
    {
      "epoch": 0.23075,
      "grad_norm": 0.8060383796691895,
      "learning_rate": 0.0002632825793449321,
      "loss": 3.8304,
      "step": 110760
    },
    {
      "epoch": 0.23077083333333334,
      "grad_norm": 0.7709038853645325,
      "learning_rate": 0.0002632761170680261,
      "loss": 3.8963,
      "step": 110770
    },
    {
      "epoch": 0.23079166666666667,
      "grad_norm": 0.7380147576332092,
      "learning_rate": 0.00026326965430181217,
      "loss": 3.8006,
      "step": 110780
    },
    {
      "epoch": 0.2308125,
      "grad_norm": 0.8429622054100037,
      "learning_rate": 0.00026326319104631816,
      "loss": 3.9463,
      "step": 110790
    },
    {
      "epoch": 0.23083333333333333,
      "grad_norm": 0.6555927395820618,
      "learning_rate": 0.00026325672730157196,
      "loss": 3.9201,
      "step": 110800
    },
    {
      "epoch": 0.23085416666666667,
      "grad_norm": 0.7551180124282837,
      "learning_rate": 0.00026325026306760153,
      "loss": 3.9295,
      "step": 110810
    },
    {
      "epoch": 0.230875,
      "grad_norm": 0.714095413684845,
      "learning_rate": 0.0002632437983444348,
      "loss": 3.7702,
      "step": 110820
    },
    {
      "epoch": 0.23089583333333333,
      "grad_norm": 0.9376791715621948,
      "learning_rate": 0.0002632373331320997,
      "loss": 3.9306,
      "step": 110830
    },
    {
      "epoch": 0.23091666666666666,
      "grad_norm": 0.8611328601837158,
      "learning_rate": 0.0002632308674306241,
      "loss": 4.0446,
      "step": 110840
    },
    {
      "epoch": 0.2309375,
      "grad_norm": 0.8162150382995605,
      "learning_rate": 0.00026322440124003604,
      "loss": 3.903,
      "step": 110850
    },
    {
      "epoch": 0.23095833333333332,
      "grad_norm": 0.7970434427261353,
      "learning_rate": 0.0002632179345603633,
      "loss": 4.04,
      "step": 110860
    },
    {
      "epoch": 0.23097916666666668,
      "grad_norm": 0.7253361940383911,
      "learning_rate": 0.000263211467391634,
      "loss": 4.0305,
      "step": 110870
    },
    {
      "epoch": 0.231,
      "grad_norm": 0.718839704990387,
      "learning_rate": 0.0002632049997338759,
      "loss": 3.9479,
      "step": 110880
    },
    {
      "epoch": 0.23102083333333334,
      "grad_norm": 0.8014327883720398,
      "learning_rate": 0.000263198531587117,
      "loss": 3.8546,
      "step": 110890
    },
    {
      "epoch": 0.23104166666666667,
      "grad_norm": 0.6378292441368103,
      "learning_rate": 0.0002631920629513853,
      "loss": 3.9452,
      "step": 110900
    },
    {
      "epoch": 0.2310625,
      "grad_norm": 0.7460970282554626,
      "learning_rate": 0.00026318559382670865,
      "loss": 3.8953,
      "step": 110910
    },
    {
      "epoch": 0.23108333333333334,
      "grad_norm": 0.7733733057975769,
      "learning_rate": 0.0002631791242131151,
      "loss": 3.8513,
      "step": 110920
    },
    {
      "epoch": 0.23110416666666667,
      "grad_norm": 0.6646256446838379,
      "learning_rate": 0.00026317265411063246,
      "loss": 3.8363,
      "step": 110930
    },
    {
      "epoch": 0.231125,
      "grad_norm": 0.6862418055534363,
      "learning_rate": 0.0002631661835192888,
      "loss": 3.8604,
      "step": 110940
    },
    {
      "epoch": 0.23114583333333333,
      "grad_norm": 0.8158310055732727,
      "learning_rate": 0.000263159712439112,
      "loss": 3.95,
      "step": 110950
    },
    {
      "epoch": 0.23116666666666666,
      "grad_norm": 0.8497163653373718,
      "learning_rate": 0.00026315324087013,
      "loss": 3.9401,
      "step": 110960
    },
    {
      "epoch": 0.2311875,
      "grad_norm": 0.8626744747161865,
      "learning_rate": 0.0002631467688123709,
      "loss": 3.954,
      "step": 110970
    },
    {
      "epoch": 0.23120833333333332,
      "grad_norm": 0.8702007532119751,
      "learning_rate": 0.00026314029626586246,
      "loss": 3.8886,
      "step": 110980
    },
    {
      "epoch": 0.23122916666666668,
      "grad_norm": 0.7809944152832031,
      "learning_rate": 0.0002631338232306327,
      "loss": 3.9979,
      "step": 110990
    },
    {
      "epoch": 0.23125,
      "grad_norm": 1.011650800704956,
      "learning_rate": 0.00026312734970670965,
      "loss": 3.899,
      "step": 111000
    },
    {
      "epoch": 0.23125,
      "eval_loss": 4.259222984313965,
      "eval_runtime": 12.1814,
      "eval_samples_per_second": 0.821,
      "eval_steps_per_second": 0.246,
      "step": 111000
    },
    {
      "epoch": 0.23127083333333334,
      "grad_norm": 0.7447972297668457,
      "learning_rate": 0.00026312087569412126,
      "loss": 3.9835,
      "step": 111010
    },
    {
      "epoch": 0.23129166666666667,
      "grad_norm": 0.7871766686439514,
      "learning_rate": 0.0002631144011928954,
      "loss": 4.0029,
      "step": 111020
    },
    {
      "epoch": 0.2313125,
      "grad_norm": 0.7316348552703857,
      "learning_rate": 0.00026310792620306016,
      "loss": 3.9094,
      "step": 111030
    },
    {
      "epoch": 0.23133333333333334,
      "grad_norm": 0.7284290194511414,
      "learning_rate": 0.0002631014507246434,
      "loss": 3.777,
      "step": 111040
    },
    {
      "epoch": 0.23135416666666667,
      "grad_norm": 0.671930193901062,
      "learning_rate": 0.00026309497475767314,
      "loss": 3.9091,
      "step": 111050
    },
    {
      "epoch": 0.231375,
      "grad_norm": 0.7103212475776672,
      "learning_rate": 0.0002630884983021774,
      "loss": 3.9506,
      "step": 111060
    },
    {
      "epoch": 0.23139583333333333,
      "grad_norm": 1.211203932762146,
      "learning_rate": 0.00026308202135818403,
      "loss": 4.0763,
      "step": 111070
    },
    {
      "epoch": 0.23141666666666666,
      "grad_norm": 0.8662888407707214,
      "learning_rate": 0.0002630755439257211,
      "loss": 3.9137,
      "step": 111080
    },
    {
      "epoch": 0.2314375,
      "grad_norm": 0.7737754583358765,
      "learning_rate": 0.0002630690660048167,
      "loss": 3.8654,
      "step": 111090
    },
    {
      "epoch": 0.23145833333333332,
      "grad_norm": 0.7639414668083191,
      "learning_rate": 0.00026306258759549857,
      "loss": 3.9977,
      "step": 111100
    },
    {
      "epoch": 0.23147916666666668,
      "grad_norm": 0.7029449343681335,
      "learning_rate": 0.00026305610869779486,
      "loss": 3.8866,
      "step": 111110
    },
    {
      "epoch": 0.2315,
      "grad_norm": 0.725816547870636,
      "learning_rate": 0.00026304962931173354,
      "loss": 3.8516,
      "step": 111120
    },
    {
      "epoch": 0.23152083333333334,
      "grad_norm": 0.7402777075767517,
      "learning_rate": 0.0002630431494373425,
      "loss": 3.9251,
      "step": 111130
    },
    {
      "epoch": 0.23154166666666667,
      "grad_norm": 0.6928304433822632,
      "learning_rate": 0.0002630366690746498,
      "loss": 3.7762,
      "step": 111140
    },
    {
      "epoch": 0.2315625,
      "grad_norm": 1.0071220397949219,
      "learning_rate": 0.00026303018822368353,
      "loss": 3.9681,
      "step": 111150
    },
    {
      "epoch": 0.23158333333333334,
      "grad_norm": 0.6975928544998169,
      "learning_rate": 0.0002630237068844715,
      "loss": 4.0362,
      "step": 111160
    },
    {
      "epoch": 0.23160416666666667,
      "grad_norm": 0.7705450654029846,
      "learning_rate": 0.00026301722505704184,
      "loss": 3.9652,
      "step": 111170
    },
    {
      "epoch": 0.231625,
      "grad_norm": 0.7328722476959229,
      "learning_rate": 0.0002630107427414225,
      "loss": 3.7845,
      "step": 111180
    },
    {
      "epoch": 0.23164583333333333,
      "grad_norm": 0.8429649472236633,
      "learning_rate": 0.00026300425993764146,
      "loss": 3.7654,
      "step": 111190
    },
    {
      "epoch": 0.23166666666666666,
      "grad_norm": 0.6927450299263,
      "learning_rate": 0.0002629977766457268,
      "loss": 3.8065,
      "step": 111200
    },
    {
      "epoch": 0.2316875,
      "grad_norm": 0.8214758038520813,
      "learning_rate": 0.00026299129286570637,
      "loss": 3.8802,
      "step": 111210
    },
    {
      "epoch": 0.23170833333333332,
      "grad_norm": 0.8582007884979248,
      "learning_rate": 0.0002629848085976084,
      "loss": 3.9225,
      "step": 111220
    },
    {
      "epoch": 0.23172916666666668,
      "grad_norm": 0.8587452173233032,
      "learning_rate": 0.0002629783238414607,
      "loss": 3.8799,
      "step": 111230
    },
    {
      "epoch": 0.23175,
      "grad_norm": 0.7185875773429871,
      "learning_rate": 0.00026297183859729135,
      "loss": 3.9331,
      "step": 111240
    },
    {
      "epoch": 0.23177083333333334,
      "grad_norm": 0.7874863743782043,
      "learning_rate": 0.0002629653528651284,
      "loss": 4.0469,
      "step": 111250
    },
    {
      "epoch": 0.23179166666666667,
      "grad_norm": 0.688462495803833,
      "learning_rate": 0.00026295886664499984,
      "loss": 3.856,
      "step": 111260
    },
    {
      "epoch": 0.2318125,
      "grad_norm": 0.7100249528884888,
      "learning_rate": 0.0002629523799369337,
      "loss": 3.8522,
      "step": 111270
    },
    {
      "epoch": 0.23183333333333334,
      "grad_norm": 0.717502236366272,
      "learning_rate": 0.000262945892740958,
      "loss": 3.7062,
      "step": 111280
    },
    {
      "epoch": 0.23185416666666667,
      "grad_norm": 0.7285719513893127,
      "learning_rate": 0.00026293940505710067,
      "loss": 3.8296,
      "step": 111290
    },
    {
      "epoch": 0.231875,
      "grad_norm": 0.7048869132995605,
      "learning_rate": 0.0002629329168853899,
      "loss": 3.8523,
      "step": 111300
    },
    {
      "epoch": 0.23189583333333333,
      "grad_norm": 0.9402475953102112,
      "learning_rate": 0.0002629264282258536,
      "loss": 4.0261,
      "step": 111310
    },
    {
      "epoch": 0.23191666666666666,
      "grad_norm": 0.7475755214691162,
      "learning_rate": 0.00026291993907851983,
      "loss": 3.8453,
      "step": 111320
    },
    {
      "epoch": 0.2319375,
      "grad_norm": 0.6509888172149658,
      "learning_rate": 0.00026291344944341666,
      "loss": 3.946,
      "step": 111330
    },
    {
      "epoch": 0.23195833333333332,
      "grad_norm": 0.6837831735610962,
      "learning_rate": 0.000262906959320572,
      "loss": 3.9729,
      "step": 111340
    },
    {
      "epoch": 0.23197916666666665,
      "grad_norm": 0.8936699032783508,
      "learning_rate": 0.000262900468710014,
      "loss": 4.0117,
      "step": 111350
    },
    {
      "epoch": 0.232,
      "grad_norm": 0.8879022598266602,
      "learning_rate": 0.0002628939776117707,
      "loss": 3.7899,
      "step": 111360
    },
    {
      "epoch": 0.23202083333333334,
      "grad_norm": 0.710128128528595,
      "learning_rate": 0.00026288748602587005,
      "loss": 4.1887,
      "step": 111370
    },
    {
      "epoch": 0.23204166666666667,
      "grad_norm": 0.7109906077384949,
      "learning_rate": 0.0002628809939523402,
      "loss": 3.927,
      "step": 111380
    },
    {
      "epoch": 0.2320625,
      "grad_norm": 0.7970317006111145,
      "learning_rate": 0.0002628745013912091,
      "loss": 3.9565,
      "step": 111390
    },
    {
      "epoch": 0.23208333333333334,
      "grad_norm": 0.770982027053833,
      "learning_rate": 0.0002628680083425049,
      "loss": 3.8723,
      "step": 111400
    },
    {
      "epoch": 0.23210416666666667,
      "grad_norm": 0.7223377823829651,
      "learning_rate": 0.0002628615148062555,
      "loss": 3.8235,
      "step": 111410
    },
    {
      "epoch": 0.232125,
      "grad_norm": 0.8547884225845337,
      "learning_rate": 0.00026285502078248905,
      "loss": 3.9321,
      "step": 111420
    },
    {
      "epoch": 0.23214583333333333,
      "grad_norm": 0.7768958210945129,
      "learning_rate": 0.00026284852627123356,
      "loss": 3.9343,
      "step": 111430
    },
    {
      "epoch": 0.23216666666666666,
      "grad_norm": 0.7044298648834229,
      "learning_rate": 0.0002628420312725172,
      "loss": 3.7384,
      "step": 111440
    },
    {
      "epoch": 0.2321875,
      "grad_norm": 0.6861140727996826,
      "learning_rate": 0.00026283553578636785,
      "loss": 3.9858,
      "step": 111450
    },
    {
      "epoch": 0.23220833333333332,
      "grad_norm": 0.7831413149833679,
      "learning_rate": 0.00026282903981281365,
      "loss": 3.8283,
      "step": 111460
    },
    {
      "epoch": 0.23222916666666665,
      "grad_norm": 0.9140717387199402,
      "learning_rate": 0.00026282254335188265,
      "loss": 3.889,
      "step": 111470
    },
    {
      "epoch": 0.23225,
      "grad_norm": 0.8580403327941895,
      "learning_rate": 0.00026281604640360294,
      "loss": 3.8962,
      "step": 111480
    },
    {
      "epoch": 0.23227083333333334,
      "grad_norm": 0.7603825330734253,
      "learning_rate": 0.0002628095489680026,
      "loss": 3.8639,
      "step": 111490
    },
    {
      "epoch": 0.23229166666666667,
      "grad_norm": 0.9072398543357849,
      "learning_rate": 0.00026280305104510964,
      "loss": 4.0419,
      "step": 111500
    },
    {
      "epoch": 0.2323125,
      "grad_norm": 0.8351004719734192,
      "learning_rate": 0.0002627965526349521,
      "loss": 3.7948,
      "step": 111510
    },
    {
      "epoch": 0.23233333333333334,
      "grad_norm": 0.758663535118103,
      "learning_rate": 0.00026279005373755813,
      "loss": 3.7984,
      "step": 111520
    },
    {
      "epoch": 0.23235416666666667,
      "grad_norm": 0.7044987678527832,
      "learning_rate": 0.0002627835543529558,
      "loss": 3.7625,
      "step": 111530
    },
    {
      "epoch": 0.232375,
      "grad_norm": 0.8230049014091492,
      "learning_rate": 0.00026277705448117316,
      "loss": 3.9412,
      "step": 111540
    },
    {
      "epoch": 0.23239583333333333,
      "grad_norm": 0.7038384675979614,
      "learning_rate": 0.0002627705541222382,
      "loss": 3.9714,
      "step": 111550
    },
    {
      "epoch": 0.23241666666666666,
      "grad_norm": 0.686237633228302,
      "learning_rate": 0.0002627640532761792,
      "loss": 3.9185,
      "step": 111560
    },
    {
      "epoch": 0.2324375,
      "grad_norm": 0.7641128301620483,
      "learning_rate": 0.0002627575519430241,
      "loss": 3.8886,
      "step": 111570
    },
    {
      "epoch": 0.23245833333333332,
      "grad_norm": 0.8373143672943115,
      "learning_rate": 0.00026275105012280096,
      "loss": 3.9086,
      "step": 111580
    },
    {
      "epoch": 0.23247916666666665,
      "grad_norm": 0.7255634069442749,
      "learning_rate": 0.0002627445478155379,
      "loss": 3.8907,
      "step": 111590
    },
    {
      "epoch": 0.2325,
      "grad_norm": 0.6677389740943909,
      "learning_rate": 0.0002627380450212631,
      "loss": 4.0584,
      "step": 111600
    },
    {
      "epoch": 0.23252083333333334,
      "grad_norm": 0.9531341791152954,
      "learning_rate": 0.00026273154174000457,
      "loss": 3.8513,
      "step": 111610
    },
    {
      "epoch": 0.23254166666666667,
      "grad_norm": 0.7701080441474915,
      "learning_rate": 0.0002627250379717903,
      "loss": 3.8268,
      "step": 111620
    },
    {
      "epoch": 0.2325625,
      "grad_norm": 0.7749426364898682,
      "learning_rate": 0.00026271853371664857,
      "loss": 3.9065,
      "step": 111630
    },
    {
      "epoch": 0.23258333333333334,
      "grad_norm": 0.5677282214164734,
      "learning_rate": 0.00026271202897460734,
      "loss": 3.9892,
      "step": 111640
    },
    {
      "epoch": 0.23260416666666667,
      "grad_norm": 0.7585051655769348,
      "learning_rate": 0.0002627055237456948,
      "loss": 3.802,
      "step": 111650
    },
    {
      "epoch": 0.232625,
      "grad_norm": 0.8361876010894775,
      "learning_rate": 0.000262699018029939,
      "loss": 3.9132,
      "step": 111660
    },
    {
      "epoch": 0.23264583333333333,
      "grad_norm": 0.7064248323440552,
      "learning_rate": 0.00026269251182736806,
      "loss": 3.7597,
      "step": 111670
    },
    {
      "epoch": 0.23266666666666666,
      "grad_norm": 0.7732850313186646,
      "learning_rate": 0.00026268600513801007,
      "loss": 3.9992,
      "step": 111680
    },
    {
      "epoch": 0.2326875,
      "grad_norm": 0.765714704990387,
      "learning_rate": 0.0002626794979618931,
      "loss": 3.9224,
      "step": 111690
    },
    {
      "epoch": 0.23270833333333332,
      "grad_norm": 0.6995965838432312,
      "learning_rate": 0.00026267299029904533,
      "loss": 3.9122,
      "step": 111700
    },
    {
      "epoch": 0.23272916666666665,
      "grad_norm": 0.7562347054481506,
      "learning_rate": 0.00026266648214949486,
      "loss": 3.9894,
      "step": 111710
    },
    {
      "epoch": 0.23275,
      "grad_norm": 0.7201587557792664,
      "learning_rate": 0.0002626599735132698,
      "loss": 3.8096,
      "step": 111720
    },
    {
      "epoch": 0.23277083333333334,
      "grad_norm": 0.6826424598693848,
      "learning_rate": 0.00026265346439039816,
      "loss": 4.0296,
      "step": 111730
    },
    {
      "epoch": 0.23279166666666667,
      "grad_norm": 0.7603018879890442,
      "learning_rate": 0.00026264695478090826,
      "loss": 3.8851,
      "step": 111740
    },
    {
      "epoch": 0.2328125,
      "grad_norm": 0.740297257900238,
      "learning_rate": 0.00026264044468482804,
      "loss": 4.0285,
      "step": 111750
    },
    {
      "epoch": 0.23283333333333334,
      "grad_norm": 0.7939237952232361,
      "learning_rate": 0.0002626339341021857,
      "loss": 3.8378,
      "step": 111760
    },
    {
      "epoch": 0.23285416666666667,
      "grad_norm": 0.7580857276916504,
      "learning_rate": 0.0002626274230330093,
      "loss": 4.0436,
      "step": 111770
    },
    {
      "epoch": 0.232875,
      "grad_norm": 0.840263307094574,
      "learning_rate": 0.000262620911477327,
      "loss": 3.8759,
      "step": 111780
    },
    {
      "epoch": 0.23289583333333333,
      "grad_norm": 0.7579668164253235,
      "learning_rate": 0.00026261439943516706,
      "loss": 3.7403,
      "step": 111790
    },
    {
      "epoch": 0.23291666666666666,
      "grad_norm": 0.7859682440757751,
      "learning_rate": 0.0002626078869065574,
      "loss": 3.924,
      "step": 111800
    },
    {
      "epoch": 0.2329375,
      "grad_norm": 0.7735762596130371,
      "learning_rate": 0.0002626013738915263,
      "loss": 4.0336,
      "step": 111810
    },
    {
      "epoch": 0.23295833333333332,
      "grad_norm": 0.7913901805877686,
      "learning_rate": 0.0002625948603901018,
      "loss": 4.0462,
      "step": 111820
    },
    {
      "epoch": 0.23297916666666665,
      "grad_norm": 0.6808672547340393,
      "learning_rate": 0.00026258834640231207,
      "loss": 3.9063,
      "step": 111830
    },
    {
      "epoch": 0.233,
      "grad_norm": 0.8610113263130188,
      "learning_rate": 0.00026258183192818526,
      "loss": 3.8985,
      "step": 111840
    },
    {
      "epoch": 0.23302083333333334,
      "grad_norm": 0.819995641708374,
      "learning_rate": 0.0002625753169677495,
      "loss": 3.9316,
      "step": 111850
    },
    {
      "epoch": 0.23304166666666667,
      "grad_norm": 0.7497013211250305,
      "learning_rate": 0.0002625688015210329,
      "loss": 3.9134,
      "step": 111860
    },
    {
      "epoch": 0.2330625,
      "grad_norm": 0.8400436043739319,
      "learning_rate": 0.00026256228558806365,
      "loss": 3.9156,
      "step": 111870
    },
    {
      "epoch": 0.23308333333333334,
      "grad_norm": 0.8771371841430664,
      "learning_rate": 0.0002625557691688699,
      "loss": 3.8162,
      "step": 111880
    },
    {
      "epoch": 0.23310416666666667,
      "grad_norm": 0.790725588798523,
      "learning_rate": 0.0002625492522634798,
      "loss": 3.7881,
      "step": 111890
    },
    {
      "epoch": 0.233125,
      "grad_norm": 0.7919836640357971,
      "learning_rate": 0.00026254273487192145,
      "loss": 3.886,
      "step": 111900
    },
    {
      "epoch": 0.23314583333333333,
      "grad_norm": 0.7582946419715881,
      "learning_rate": 0.000262536216994223,
      "loss": 3.8966,
      "step": 111910
    },
    {
      "epoch": 0.23316666666666666,
      "grad_norm": 0.7517276406288147,
      "learning_rate": 0.0002625296986304127,
      "loss": 3.7688,
      "step": 111920
    },
    {
      "epoch": 0.2331875,
      "grad_norm": 0.8119111657142639,
      "learning_rate": 0.0002625231797805186,
      "loss": 3.7797,
      "step": 111930
    },
    {
      "epoch": 0.23320833333333332,
      "grad_norm": 0.6608599424362183,
      "learning_rate": 0.0002625166604445689,
      "loss": 3.8323,
      "step": 111940
    },
    {
      "epoch": 0.23322916666666665,
      "grad_norm": 0.7229088544845581,
      "learning_rate": 0.00026251014062259184,
      "loss": 3.7491,
      "step": 111950
    },
    {
      "epoch": 0.23325,
      "grad_norm": 0.7446879148483276,
      "learning_rate": 0.0002625036203146154,
      "loss": 3.8828,
      "step": 111960
    },
    {
      "epoch": 0.23327083333333334,
      "grad_norm": 0.837006688117981,
      "learning_rate": 0.0002624970995206679,
      "loss": 3.8628,
      "step": 111970
    },
    {
      "epoch": 0.23329166666666667,
      "grad_norm": 0.7080159187316895,
      "learning_rate": 0.00026249057824077746,
      "loss": 3.7792,
      "step": 111980
    },
    {
      "epoch": 0.2333125,
      "grad_norm": 0.7472955584526062,
      "learning_rate": 0.0002624840564749722,
      "loss": 3.9049,
      "step": 111990
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 0.7172091007232666,
      "learning_rate": 0.0002624775342232804,
      "loss": 3.7349,
      "step": 112000
    },
    {
      "epoch": 0.23333333333333334,
      "eval_loss": 4.255408763885498,
      "eval_runtime": 9.3201,
      "eval_samples_per_second": 1.073,
      "eval_steps_per_second": 0.322,
      "step": 112000
    },
    {
      "epoch": 0.23335416666666667,
      "grad_norm": 0.7072089314460754,
      "learning_rate": 0.00026247101148573024,
      "loss": 3.6939,
      "step": 112010
    },
    {
      "epoch": 0.233375,
      "grad_norm": 0.7706016302108765,
      "learning_rate": 0.00026246448826234973,
      "loss": 3.871,
      "step": 112020
    },
    {
      "epoch": 0.23339583333333333,
      "grad_norm": 0.7672034502029419,
      "learning_rate": 0.00026245796455316717,
      "loss": 4.0457,
      "step": 112030
    },
    {
      "epoch": 0.23341666666666666,
      "grad_norm": 0.7202407717704773,
      "learning_rate": 0.0002624514403582107,
      "loss": 3.9787,
      "step": 112040
    },
    {
      "epoch": 0.2334375,
      "grad_norm": 0.7958422899246216,
      "learning_rate": 0.00026244491567750856,
      "loss": 4.0647,
      "step": 112050
    },
    {
      "epoch": 0.23345833333333332,
      "grad_norm": 0.6803152561187744,
      "learning_rate": 0.00026243839051108884,
      "loss": 3.7944,
      "step": 112060
    },
    {
      "epoch": 0.23347916666666665,
      "grad_norm": 0.7441197633743286,
      "learning_rate": 0.0002624318648589798,
      "loss": 3.9932,
      "step": 112070
    },
    {
      "epoch": 0.2335,
      "grad_norm": 0.8197855949401855,
      "learning_rate": 0.00026242533872120966,
      "loss": 3.702,
      "step": 112080
    },
    {
      "epoch": 0.23352083333333334,
      "grad_norm": 0.9275585412979126,
      "learning_rate": 0.00026241881209780653,
      "loss": 3.7043,
      "step": 112090
    },
    {
      "epoch": 0.23354166666666668,
      "grad_norm": 0.7420555353164673,
      "learning_rate": 0.00026241228498879857,
      "loss": 3.7687,
      "step": 112100
    },
    {
      "epoch": 0.2335625,
      "grad_norm": 0.7635204195976257,
      "learning_rate": 0.0002624057573942141,
      "loss": 3.9274,
      "step": 112110
    },
    {
      "epoch": 0.23358333333333334,
      "grad_norm": 0.7383560538291931,
      "learning_rate": 0.00026239922931408125,
      "loss": 3.9865,
      "step": 112120
    },
    {
      "epoch": 0.23360416666666667,
      "grad_norm": 0.706870436668396,
      "learning_rate": 0.00026239270074842816,
      "loss": 3.8564,
      "step": 112130
    },
    {
      "epoch": 0.233625,
      "grad_norm": 0.8389548659324646,
      "learning_rate": 0.00026238617169728316,
      "loss": 3.8187,
      "step": 112140
    },
    {
      "epoch": 0.23364583333333333,
      "grad_norm": 0.8292524218559265,
      "learning_rate": 0.00026237964216067433,
      "loss": 3.9247,
      "step": 112150
    },
    {
      "epoch": 0.23366666666666666,
      "grad_norm": 0.7681282162666321,
      "learning_rate": 0.00026237311213862997,
      "loss": 3.8309,
      "step": 112160
    },
    {
      "epoch": 0.2336875,
      "grad_norm": 0.7173855304718018,
      "learning_rate": 0.0002623665816311782,
      "loss": 3.7896,
      "step": 112170
    },
    {
      "epoch": 0.23370833333333332,
      "grad_norm": 0.7048563361167908,
      "learning_rate": 0.0002623600506383473,
      "loss": 4.0499,
      "step": 112180
    },
    {
      "epoch": 0.23372916666666665,
      "grad_norm": 0.8285587430000305,
      "learning_rate": 0.0002623535191601655,
      "loss": 3.8513,
      "step": 112190
    },
    {
      "epoch": 0.23375,
      "grad_norm": 0.69991534948349,
      "learning_rate": 0.0002623469871966609,
      "loss": 4.0091,
      "step": 112200
    },
    {
      "epoch": 0.23377083333333334,
      "grad_norm": 0.6780224442481995,
      "learning_rate": 0.00026234045474786183,
      "loss": 3.9649,
      "step": 112210
    },
    {
      "epoch": 0.23379166666666668,
      "grad_norm": 0.7998135685920715,
      "learning_rate": 0.0002623339218137964,
      "loss": 3.9319,
      "step": 112220
    },
    {
      "epoch": 0.2338125,
      "grad_norm": 0.9621427655220032,
      "learning_rate": 0.000262327388394493,
      "loss": 3.92,
      "step": 112230
    },
    {
      "epoch": 0.23383333333333334,
      "grad_norm": 0.7570099830627441,
      "learning_rate": 0.0002623208544899797,
      "loss": 3.8329,
      "step": 112240
    },
    {
      "epoch": 0.23385416666666667,
      "grad_norm": 0.7789862155914307,
      "learning_rate": 0.00026231432010028475,
      "loss": 3.9784,
      "step": 112250
    },
    {
      "epoch": 0.233875,
      "grad_norm": 0.6812233924865723,
      "learning_rate": 0.0002623077852254364,
      "loss": 3.9572,
      "step": 112260
    },
    {
      "epoch": 0.23389583333333333,
      "grad_norm": 0.7824247479438782,
      "learning_rate": 0.00026230124986546284,
      "loss": 4.0227,
      "step": 112270
    },
    {
      "epoch": 0.23391666666666666,
      "grad_norm": 0.7145914435386658,
      "learning_rate": 0.0002622947140203924,
      "loss": 3.8778,
      "step": 112280
    },
    {
      "epoch": 0.2339375,
      "grad_norm": 0.7928178310394287,
      "learning_rate": 0.00026228817769025314,
      "loss": 4.0464,
      "step": 112290
    },
    {
      "epoch": 0.23395833333333332,
      "grad_norm": 0.7519782781600952,
      "learning_rate": 0.0002622816408750735,
      "loss": 3.8932,
      "step": 112300
    },
    {
      "epoch": 0.23397916666666665,
      "grad_norm": 0.7235788106918335,
      "learning_rate": 0.0002622751035748816,
      "loss": 3.8302,
      "step": 112310
    },
    {
      "epoch": 0.234,
      "grad_norm": 0.7413920164108276,
      "learning_rate": 0.0002622685657897057,
      "loss": 3.9072,
      "step": 112320
    },
    {
      "epoch": 0.23402083333333334,
      "grad_norm": 0.8739325404167175,
      "learning_rate": 0.000262262027519574,
      "loss": 4.043,
      "step": 112330
    },
    {
      "epoch": 0.23404166666666668,
      "grad_norm": 1.0761208534240723,
      "learning_rate": 0.0002622554887645148,
      "loss": 3.8481,
      "step": 112340
    },
    {
      "epoch": 0.2340625,
      "grad_norm": 0.8072762489318848,
      "learning_rate": 0.0002622489495245563,
      "loss": 3.9273,
      "step": 112350
    },
    {
      "epoch": 0.23408333333333334,
      "grad_norm": 0.7394698262214661,
      "learning_rate": 0.00026224240979972675,
      "loss": 3.6577,
      "step": 112360
    },
    {
      "epoch": 0.23410416666666667,
      "grad_norm": 0.6784875988960266,
      "learning_rate": 0.00026223586959005446,
      "loss": 4.043,
      "step": 112370
    },
    {
      "epoch": 0.234125,
      "grad_norm": 0.7344674468040466,
      "learning_rate": 0.0002622293288955676,
      "loss": 3.9131,
      "step": 112380
    },
    {
      "epoch": 0.23414583333333333,
      "grad_norm": 0.7370862364768982,
      "learning_rate": 0.00026222278771629453,
      "loss": 3.9838,
      "step": 112390
    },
    {
      "epoch": 0.23416666666666666,
      "grad_norm": 0.8208688497543335,
      "learning_rate": 0.00026221624605226343,
      "loss": 3.9771,
      "step": 112400
    },
    {
      "epoch": 0.2341875,
      "grad_norm": 0.8002815246582031,
      "learning_rate": 0.0002622097039035025,
      "loss": 3.845,
      "step": 112410
    },
    {
      "epoch": 0.23420833333333332,
      "grad_norm": 0.8399003148078918,
      "learning_rate": 0.0002622031612700401,
      "loss": 4.1704,
      "step": 112420
    },
    {
      "epoch": 0.23422916666666665,
      "grad_norm": 0.7511206865310669,
      "learning_rate": 0.00026219661815190447,
      "loss": 3.841,
      "step": 112430
    },
    {
      "epoch": 0.23425,
      "grad_norm": 0.6996220350265503,
      "learning_rate": 0.00026219007454912385,
      "loss": 4.055,
      "step": 112440
    },
    {
      "epoch": 0.23427083333333334,
      "grad_norm": 0.8284479379653931,
      "learning_rate": 0.0002621835304617265,
      "loss": 3.822,
      "step": 112450
    },
    {
      "epoch": 0.23429166666666668,
      "grad_norm": 0.732962429523468,
      "learning_rate": 0.0002621769858897407,
      "loss": 3.8288,
      "step": 112460
    },
    {
      "epoch": 0.2343125,
      "grad_norm": 0.6844059824943542,
      "learning_rate": 0.00026217044083319476,
      "loss": 4.026,
      "step": 112470
    },
    {
      "epoch": 0.23433333333333334,
      "grad_norm": 0.7182744145393372,
      "learning_rate": 0.00026216389529211685,
      "loss": 4.106,
      "step": 112480
    },
    {
      "epoch": 0.23435416666666667,
      "grad_norm": 0.7824922800064087,
      "learning_rate": 0.0002621573492665354,
      "loss": 3.892,
      "step": 112490
    },
    {
      "epoch": 0.234375,
      "grad_norm": 0.761566162109375,
      "learning_rate": 0.0002621508027564786,
      "loss": 3.8131,
      "step": 112500
    },
    {
      "epoch": 0.23439583333333333,
      "grad_norm": 0.7079015970230103,
      "learning_rate": 0.00026214425576197466,
      "loss": 3.9687,
      "step": 112510
    },
    {
      "epoch": 0.23441666666666666,
      "grad_norm": 0.7447836399078369,
      "learning_rate": 0.0002621377082830519,
      "loss": 3.9782,
      "step": 112520
    },
    {
      "epoch": 0.2344375,
      "grad_norm": 0.816684901714325,
      "learning_rate": 0.0002621311603197387,
      "loss": 3.8896,
      "step": 112530
    },
    {
      "epoch": 0.23445833333333332,
      "grad_norm": 0.7626854777336121,
      "learning_rate": 0.0002621246118720632,
      "loss": 3.9266,
      "step": 112540
    },
    {
      "epoch": 0.23447916666666666,
      "grad_norm": 0.8282618522644043,
      "learning_rate": 0.0002621180629400538,
      "loss": 3.8656,
      "step": 112550
    },
    {
      "epoch": 0.2345,
      "grad_norm": 0.7841196060180664,
      "learning_rate": 0.00026211151352373876,
      "loss": 3.9661,
      "step": 112560
    },
    {
      "epoch": 0.23452083333333335,
      "grad_norm": 0.7180324196815491,
      "learning_rate": 0.0002621049636231463,
      "loss": 3.9818,
      "step": 112570
    },
    {
      "epoch": 0.23454166666666668,
      "grad_norm": 0.7510347366333008,
      "learning_rate": 0.00026209841323830485,
      "loss": 3.6956,
      "step": 112580
    },
    {
      "epoch": 0.2345625,
      "grad_norm": 0.8722372651100159,
      "learning_rate": 0.00026209186236924263,
      "loss": 3.952,
      "step": 112590
    },
    {
      "epoch": 0.23458333333333334,
      "grad_norm": 0.7620896697044373,
      "learning_rate": 0.0002620853110159879,
      "loss": 3.7804,
      "step": 112600
    },
    {
      "epoch": 0.23460416666666667,
      "grad_norm": 0.7736909985542297,
      "learning_rate": 0.000262078759178569,
      "loss": 3.9963,
      "step": 112610
    },
    {
      "epoch": 0.234625,
      "grad_norm": 0.7790977358818054,
      "learning_rate": 0.0002620722068570142,
      "loss": 3.9914,
      "step": 112620
    },
    {
      "epoch": 0.23464583333333333,
      "grad_norm": 0.7237060070037842,
      "learning_rate": 0.0002620656540513518,
      "loss": 3.8542,
      "step": 112630
    },
    {
      "epoch": 0.23466666666666666,
      "grad_norm": 0.9768034219741821,
      "learning_rate": 0.0002620591007616102,
      "loss": 3.8891,
      "step": 112640
    },
    {
      "epoch": 0.2346875,
      "grad_norm": 0.6890493631362915,
      "learning_rate": 0.0002620525469878176,
      "loss": 3.7818,
      "step": 112650
    },
    {
      "epoch": 0.23470833333333332,
      "grad_norm": 0.9258646965026855,
      "learning_rate": 0.0002620459927300024,
      "loss": 3.9585,
      "step": 112660
    },
    {
      "epoch": 0.23472916666666666,
      "grad_norm": 1.2307043075561523,
      "learning_rate": 0.0002620394379881928,
      "loss": 3.763,
      "step": 112670
    },
    {
      "epoch": 0.23475,
      "grad_norm": 0.7087436318397522,
      "learning_rate": 0.0002620328827624172,
      "loss": 3.7612,
      "step": 112680
    },
    {
      "epoch": 0.23477083333333335,
      "grad_norm": 0.7315555810928345,
      "learning_rate": 0.00026202632705270393,
      "loss": 3.8208,
      "step": 112690
    },
    {
      "epoch": 0.23479166666666668,
      "grad_norm": 0.7825053334236145,
      "learning_rate": 0.0002620197708590812,
      "loss": 3.9261,
      "step": 112700
    },
    {
      "epoch": 0.2348125,
      "grad_norm": 0.8862001299858093,
      "learning_rate": 0.00026201321418157744,
      "loss": 3.8814,
      "step": 112710
    },
    {
      "epoch": 0.23483333333333334,
      "grad_norm": 0.7509416937828064,
      "learning_rate": 0.00026200665702022096,
      "loss": 3.9814,
      "step": 112720
    },
    {
      "epoch": 0.23485416666666667,
      "grad_norm": 0.7726261019706726,
      "learning_rate": 0.00026200009937504,
      "loss": 4.0606,
      "step": 112730
    },
    {
      "epoch": 0.234875,
      "grad_norm": 0.6815237998962402,
      "learning_rate": 0.00026199354124606297,
      "loss": 3.7853,
      "step": 112740
    },
    {
      "epoch": 0.23489583333333333,
      "grad_norm": 0.7003218531608582,
      "learning_rate": 0.00026198698263331816,
      "loss": 3.7727,
      "step": 112750
    },
    {
      "epoch": 0.23491666666666666,
      "grad_norm": 0.8282172679901123,
      "learning_rate": 0.00026198042353683395,
      "loss": 3.9612,
      "step": 112760
    },
    {
      "epoch": 0.2349375,
      "grad_norm": 0.6605738997459412,
      "learning_rate": 0.0002619738639566386,
      "loss": 3.8221,
      "step": 112770
    },
    {
      "epoch": 0.23495833333333332,
      "grad_norm": 0.751958429813385,
      "learning_rate": 0.0002619673038927605,
      "loss": 3.8575,
      "step": 112780
    },
    {
      "epoch": 0.23497916666666666,
      "grad_norm": 0.8201401829719543,
      "learning_rate": 0.0002619607433452279,
      "loss": 4.0231,
      "step": 112790
    },
    {
      "epoch": 0.235,
      "grad_norm": 0.8694060444831848,
      "learning_rate": 0.0002619541823140693,
      "loss": 3.9477,
      "step": 112800
    },
    {
      "epoch": 0.23502083333333335,
      "grad_norm": 0.7929521203041077,
      "learning_rate": 0.0002619476207993129,
      "loss": 3.8248,
      "step": 112810
    },
    {
      "epoch": 0.23504166666666668,
      "grad_norm": 0.725143551826477,
      "learning_rate": 0.0002619410588009871,
      "loss": 3.8737,
      "step": 112820
    },
    {
      "epoch": 0.2350625,
      "grad_norm": 0.8168599605560303,
      "learning_rate": 0.00026193449631912026,
      "loss": 3.7516,
      "step": 112830
    },
    {
      "epoch": 0.23508333333333334,
      "grad_norm": 0.8912594318389893,
      "learning_rate": 0.00026192793335374066,
      "loss": 4.0511,
      "step": 112840
    },
    {
      "epoch": 0.23510416666666667,
      "grad_norm": 0.8464767336845398,
      "learning_rate": 0.0002619213699048767,
      "loss": 3.6606,
      "step": 112850
    },
    {
      "epoch": 0.235125,
      "grad_norm": 0.824193000793457,
      "learning_rate": 0.0002619148059725568,
      "loss": 4.0295,
      "step": 112860
    },
    {
      "epoch": 0.23514583333333333,
      "grad_norm": 0.7161937355995178,
      "learning_rate": 0.0002619082415568091,
      "loss": 3.8706,
      "step": 112870
    },
    {
      "epoch": 0.23516666666666666,
      "grad_norm": 0.7569338083267212,
      "learning_rate": 0.0002619016766576622,
      "loss": 3.7718,
      "step": 112880
    },
    {
      "epoch": 0.2351875,
      "grad_norm": 0.7777268886566162,
      "learning_rate": 0.0002618951112751443,
      "loss": 3.7888,
      "step": 112890
    },
    {
      "epoch": 0.23520833333333332,
      "grad_norm": 0.8880210518836975,
      "learning_rate": 0.0002618885454092838,
      "loss": 3.8777,
      "step": 112900
    },
    {
      "epoch": 0.23522916666666666,
      "grad_norm": 1.0999858379364014,
      "learning_rate": 0.00026188197906010913,
      "loss": 3.9637,
      "step": 112910
    },
    {
      "epoch": 0.23525,
      "grad_norm": 0.8330174088478088,
      "learning_rate": 0.00026187541222764856,
      "loss": 3.9946,
      "step": 112920
    },
    {
      "epoch": 0.23527083333333335,
      "grad_norm": 0.7998022437095642,
      "learning_rate": 0.00026186884491193047,
      "loss": 4.0292,
      "step": 112930
    },
    {
      "epoch": 0.23529166666666668,
      "grad_norm": 0.7511048316955566,
      "learning_rate": 0.0002618622771129833,
      "loss": 3.9363,
      "step": 112940
    },
    {
      "epoch": 0.2353125,
      "grad_norm": 0.7381274700164795,
      "learning_rate": 0.0002618557088308353,
      "loss": 3.9134,
      "step": 112950
    },
    {
      "epoch": 0.23533333333333334,
      "grad_norm": 0.69205641746521,
      "learning_rate": 0.000261849140065515,
      "loss": 3.8321,
      "step": 112960
    },
    {
      "epoch": 0.23535416666666667,
      "grad_norm": 0.7544022798538208,
      "learning_rate": 0.0002618425708170506,
      "loss": 3.6865,
      "step": 112970
    },
    {
      "epoch": 0.235375,
      "grad_norm": 0.7884484529495239,
      "learning_rate": 0.0002618360010854707,
      "loss": 3.7413,
      "step": 112980
    },
    {
      "epoch": 0.23539583333333333,
      "grad_norm": 0.81086266040802,
      "learning_rate": 0.00026182943087080344,
      "loss": 3.9115,
      "step": 112990
    },
    {
      "epoch": 0.23541666666666666,
      "grad_norm": 0.7462107539176941,
      "learning_rate": 0.0002618228601730773,
      "loss": 3.9045,
      "step": 113000
    },
    {
      "epoch": 0.23541666666666666,
      "eval_loss": 4.26096248626709,
      "eval_runtime": 9.3227,
      "eval_samples_per_second": 1.073,
      "eval_steps_per_second": 0.322,
      "step": 113000
    },
    {
      "epoch": 0.2354375,
      "grad_norm": 0.8278399109840393,
      "learning_rate": 0.0002618162889923207,
      "loss": 4.0592,
      "step": 113010
    },
    {
      "epoch": 0.23545833333333333,
      "grad_norm": 0.7057823538780212,
      "learning_rate": 0.00026180971732856195,
      "loss": 3.9916,
      "step": 113020
    },
    {
      "epoch": 0.23547916666666666,
      "grad_norm": 0.7851118445396423,
      "learning_rate": 0.0002618031451818295,
      "loss": 4.1084,
      "step": 113030
    },
    {
      "epoch": 0.2355,
      "grad_norm": 0.7384151816368103,
      "learning_rate": 0.0002617965725521517,
      "loss": 3.8835,
      "step": 113040
    },
    {
      "epoch": 0.23552083333333335,
      "grad_norm": 1.0190908908843994,
      "learning_rate": 0.000261789999439557,
      "loss": 3.8852,
      "step": 113050
    },
    {
      "epoch": 0.23554166666666668,
      "grad_norm": 0.7323639988899231,
      "learning_rate": 0.00026178342584407373,
      "loss": 4.0053,
      "step": 113060
    },
    {
      "epoch": 0.2355625,
      "grad_norm": 0.7451760768890381,
      "learning_rate": 0.0002617768517657303,
      "loss": 3.9405,
      "step": 113070
    },
    {
      "epoch": 0.23558333333333334,
      "grad_norm": 0.8560953140258789,
      "learning_rate": 0.0002617702772045552,
      "loss": 3.8062,
      "step": 113080
    },
    {
      "epoch": 0.23560416666666667,
      "grad_norm": 0.7370516657829285,
      "learning_rate": 0.0002617637021605766,
      "loss": 3.8479,
      "step": 113090
    },
    {
      "epoch": 0.235625,
      "grad_norm": 0.8259835243225098,
      "learning_rate": 0.00026175712663382316,
      "loss": 3.7711,
      "step": 113100
    },
    {
      "epoch": 0.23564583333333333,
      "grad_norm": 0.7790320515632629,
      "learning_rate": 0.00026175055062432315,
      "loss": 3.9084,
      "step": 113110
    },
    {
      "epoch": 0.23566666666666666,
      "grad_norm": 0.7821506857872009,
      "learning_rate": 0.00026174397413210494,
      "loss": 3.7912,
      "step": 113120
    },
    {
      "epoch": 0.2356875,
      "grad_norm": 0.730197012424469,
      "learning_rate": 0.00026173739715719705,
      "loss": 3.9163,
      "step": 113130
    },
    {
      "epoch": 0.23570833333333333,
      "grad_norm": 0.7655876874923706,
      "learning_rate": 0.0002617308196996278,
      "loss": 3.9123,
      "step": 113140
    },
    {
      "epoch": 0.23572916666666666,
      "grad_norm": 0.8811327815055847,
      "learning_rate": 0.00026172424175942565,
      "loss": 3.6363,
      "step": 113150
    },
    {
      "epoch": 0.23575,
      "grad_norm": 0.8580450415611267,
      "learning_rate": 0.00026171766333661894,
      "loss": 3.7783,
      "step": 113160
    },
    {
      "epoch": 0.23577083333333335,
      "grad_norm": 0.8216408491134644,
      "learning_rate": 0.00026171108443123623,
      "loss": 3.968,
      "step": 113170
    },
    {
      "epoch": 0.23579166666666668,
      "grad_norm": 0.8225196003913879,
      "learning_rate": 0.0002617045050433058,
      "loss": 3.7732,
      "step": 113180
    },
    {
      "epoch": 0.2358125,
      "grad_norm": 0.8478304147720337,
      "learning_rate": 0.00026169792517285616,
      "loss": 3.8318,
      "step": 113190
    },
    {
      "epoch": 0.23583333333333334,
      "grad_norm": 0.9333080053329468,
      "learning_rate": 0.00026169134481991566,
      "loss": 3.8541,
      "step": 113200
    },
    {
      "epoch": 0.23585416666666667,
      "grad_norm": 0.8038802742958069,
      "learning_rate": 0.0002616847639845128,
      "loss": 4.0497,
      "step": 113210
    },
    {
      "epoch": 0.235875,
      "grad_norm": 0.675420880317688,
      "learning_rate": 0.00026167818266667594,
      "loss": 3.9327,
      "step": 113220
    },
    {
      "epoch": 0.23589583333333333,
      "grad_norm": 0.8065382242202759,
      "learning_rate": 0.00026167160086643354,
      "loss": 3.8605,
      "step": 113230
    },
    {
      "epoch": 0.23591666666666666,
      "grad_norm": 0.6767610907554626,
      "learning_rate": 0.0002616650185838141,
      "loss": 4.0246,
      "step": 113240
    },
    {
      "epoch": 0.2359375,
      "grad_norm": 0.8441426157951355,
      "learning_rate": 0.00026165843581884586,
      "loss": 3.8533,
      "step": 113250
    },
    {
      "epoch": 0.23595833333333333,
      "grad_norm": 0.8039485812187195,
      "learning_rate": 0.0002616518525715574,
      "loss": 4.012,
      "step": 113260
    },
    {
      "epoch": 0.23597916666666666,
      "grad_norm": 0.8812327980995178,
      "learning_rate": 0.0002616452688419772,
      "loss": 3.8435,
      "step": 113270
    },
    {
      "epoch": 0.236,
      "grad_norm": 0.8026545643806458,
      "learning_rate": 0.0002616386846301336,
      "loss": 3.8735,
      "step": 113280
    },
    {
      "epoch": 0.23602083333333335,
      "grad_norm": 0.8382328152656555,
      "learning_rate": 0.000261632099936055,
      "loss": 3.8716,
      "step": 113290
    },
    {
      "epoch": 0.23604166666666668,
      "grad_norm": 0.8009381294250488,
      "learning_rate": 0.00026162551475977,
      "loss": 3.7203,
      "step": 113300
    },
    {
      "epoch": 0.2360625,
      "grad_norm": 0.7849263548851013,
      "learning_rate": 0.00026161892910130693,
      "loss": 3.9239,
      "step": 113310
    },
    {
      "epoch": 0.23608333333333334,
      "grad_norm": 0.7992645502090454,
      "learning_rate": 0.0002616123429606943,
      "loss": 3.8202,
      "step": 113320
    },
    {
      "epoch": 0.23610416666666667,
      "grad_norm": 0.8581199049949646,
      "learning_rate": 0.0002616057563379605,
      "loss": 3.7453,
      "step": 113330
    },
    {
      "epoch": 0.236125,
      "grad_norm": 0.8569010496139526,
      "learning_rate": 0.000261599169233134,
      "loss": 3.8997,
      "step": 113340
    },
    {
      "epoch": 0.23614583333333333,
      "grad_norm": 0.7280343770980835,
      "learning_rate": 0.00026159258164624327,
      "loss": 3.7878,
      "step": 113350
    },
    {
      "epoch": 0.23616666666666666,
      "grad_norm": 0.9599436521530151,
      "learning_rate": 0.00026158599357731677,
      "loss": 3.7773,
      "step": 113360
    },
    {
      "epoch": 0.2361875,
      "grad_norm": 0.7498140335083008,
      "learning_rate": 0.00026157940502638294,
      "loss": 3.9682,
      "step": 113370
    },
    {
      "epoch": 0.23620833333333333,
      "grad_norm": 0.8583912253379822,
      "learning_rate": 0.00026157281599347023,
      "loss": 3.8666,
      "step": 113380
    },
    {
      "epoch": 0.23622916666666666,
      "grad_norm": 0.8194348216056824,
      "learning_rate": 0.00026156622647860716,
      "loss": 3.8318,
      "step": 113390
    },
    {
      "epoch": 0.23625,
      "grad_norm": 0.6903581023216248,
      "learning_rate": 0.00026155963648182213,
      "loss": 4.0164,
      "step": 113400
    },
    {
      "epoch": 0.23627083333333335,
      "grad_norm": 0.8513405323028564,
      "learning_rate": 0.0002615530460031436,
      "loss": 3.9531,
      "step": 113410
    },
    {
      "epoch": 0.23629166666666668,
      "grad_norm": 0.8295087218284607,
      "learning_rate": 0.0002615464550426001,
      "loss": 4.0258,
      "step": 113420
    },
    {
      "epoch": 0.2363125,
      "grad_norm": 0.7575225234031677,
      "learning_rate": 0.00026153986360022007,
      "loss": 3.88,
      "step": 113430
    },
    {
      "epoch": 0.23633333333333334,
      "grad_norm": 0.7763004302978516,
      "learning_rate": 0.000261533271676032,
      "loss": 3.9596,
      "step": 113440
    },
    {
      "epoch": 0.23635416666666667,
      "grad_norm": 0.9391988515853882,
      "learning_rate": 0.0002615266792700643,
      "loss": 3.9439,
      "step": 113450
    },
    {
      "epoch": 0.236375,
      "grad_norm": 0.815933108329773,
      "learning_rate": 0.0002615200863823455,
      "loss": 3.7458,
      "step": 113460
    },
    {
      "epoch": 0.23639583333333333,
      "grad_norm": 0.6595311760902405,
      "learning_rate": 0.00026151349301290405,
      "loss": 3.908,
      "step": 113470
    },
    {
      "epoch": 0.23641666666666666,
      "grad_norm": 0.7461366653442383,
      "learning_rate": 0.0002615068991617685,
      "loss": 3.972,
      "step": 113480
    },
    {
      "epoch": 0.2364375,
      "grad_norm": 0.94295734167099,
      "learning_rate": 0.0002615003048289673,
      "loss": 3.8458,
      "step": 113490
    },
    {
      "epoch": 0.23645833333333333,
      "grad_norm": 0.6933321952819824,
      "learning_rate": 0.00026149371001452885,
      "loss": 3.6789,
      "step": 113500
    },
    {
      "epoch": 0.23647916666666666,
      "grad_norm": 0.7620449662208557,
      "learning_rate": 0.0002614871147184817,
      "loss": 4.0125,
      "step": 113510
    },
    {
      "epoch": 0.2365,
      "grad_norm": 0.8424232006072998,
      "learning_rate": 0.0002614805189408544,
      "loss": 3.9163,
      "step": 113520
    },
    {
      "epoch": 0.23652083333333335,
      "grad_norm": 0.6996073722839355,
      "learning_rate": 0.0002614739226816754,
      "loss": 3.9681,
      "step": 113530
    },
    {
      "epoch": 0.23654166666666668,
      "grad_norm": 0.7832129597663879,
      "learning_rate": 0.0002614673259409731,
      "loss": 3.822,
      "step": 113540
    },
    {
      "epoch": 0.2365625,
      "grad_norm": 0.8291290998458862,
      "learning_rate": 0.0002614607287187761,
      "loss": 3.9458,
      "step": 113550
    },
    {
      "epoch": 0.23658333333333334,
      "grad_norm": 0.7482668161392212,
      "learning_rate": 0.0002614541310151129,
      "loss": 3.8046,
      "step": 113560
    },
    {
      "epoch": 0.23660416666666667,
      "grad_norm": 0.7317926287651062,
      "learning_rate": 0.00026144753283001193,
      "loss": 3.9622,
      "step": 113570
    },
    {
      "epoch": 0.236625,
      "grad_norm": 0.7550917267799377,
      "learning_rate": 0.0002614409341635018,
      "loss": 3.8706,
      "step": 113580
    },
    {
      "epoch": 0.23664583333333333,
      "grad_norm": 0.7495788335800171,
      "learning_rate": 0.0002614343350156109,
      "loss": 3.9195,
      "step": 113590
    },
    {
      "epoch": 0.23666666666666666,
      "grad_norm": 0.9394643902778625,
      "learning_rate": 0.0002614277353863678,
      "loss": 3.8986,
      "step": 113600
    },
    {
      "epoch": 0.2366875,
      "grad_norm": 0.7414722442626953,
      "learning_rate": 0.00026142113527580094,
      "loss": 3.7689,
      "step": 113610
    },
    {
      "epoch": 0.23670833333333333,
      "grad_norm": 0.7958858013153076,
      "learning_rate": 0.0002614145346839389,
      "loss": 3.7782,
      "step": 113620
    },
    {
      "epoch": 0.23672916666666666,
      "grad_norm": 0.7467257380485535,
      "learning_rate": 0.0002614079336108102,
      "loss": 3.8583,
      "step": 113630
    },
    {
      "epoch": 0.23675,
      "grad_norm": 0.7843925356864929,
      "learning_rate": 0.0002614013320564433,
      "loss": 3.7919,
      "step": 113640
    },
    {
      "epoch": 0.23677083333333335,
      "grad_norm": 0.773753821849823,
      "learning_rate": 0.00026139473002086675,
      "loss": 3.8849,
      "step": 113650
    },
    {
      "epoch": 0.23679166666666668,
      "grad_norm": 0.8628260493278503,
      "learning_rate": 0.0002613881275041091,
      "loss": 3.9306,
      "step": 113660
    },
    {
      "epoch": 0.2368125,
      "grad_norm": 0.8059950470924377,
      "learning_rate": 0.00026138152450619876,
      "loss": 3.822,
      "step": 113670
    },
    {
      "epoch": 0.23683333333333334,
      "grad_norm": 0.7553508281707764,
      "learning_rate": 0.00026137492102716435,
      "loss": 3.7846,
      "step": 113680
    },
    {
      "epoch": 0.23685416666666667,
      "grad_norm": 0.8282298445701599,
      "learning_rate": 0.0002613683170670344,
      "loss": 3.9299,
      "step": 113690
    },
    {
      "epoch": 0.236875,
      "grad_norm": 0.7417914271354675,
      "learning_rate": 0.00026136171262583735,
      "loss": 3.8805,
      "step": 113700
    },
    {
      "epoch": 0.23689583333333333,
      "grad_norm": 0.7207459807395935,
      "learning_rate": 0.0002613551077036018,
      "loss": 3.8517,
      "step": 113710
    },
    {
      "epoch": 0.23691666666666666,
      "grad_norm": 0.6979677677154541,
      "learning_rate": 0.00026134850230035626,
      "loss": 3.9228,
      "step": 113720
    },
    {
      "epoch": 0.2369375,
      "grad_norm": 0.6991243362426758,
      "learning_rate": 0.0002613418964161293,
      "loss": 3.8076,
      "step": 113730
    },
    {
      "epoch": 0.23695833333333333,
      "grad_norm": 0.6677184700965881,
      "learning_rate": 0.00026133529005094937,
      "loss": 3.9327,
      "step": 113740
    },
    {
      "epoch": 0.23697916666666666,
      "grad_norm": 0.7654378414154053,
      "learning_rate": 0.00026132868320484504,
      "loss": 3.8384,
      "step": 113750
    },
    {
      "epoch": 0.237,
      "grad_norm": 0.9106190800666809,
      "learning_rate": 0.00026132207587784494,
      "loss": 3.9872,
      "step": 113760
    },
    {
      "epoch": 0.23702083333333332,
      "grad_norm": 0.8048157095909119,
      "learning_rate": 0.0002613154680699775,
      "loss": 3.935,
      "step": 113770
    },
    {
      "epoch": 0.23704166666666668,
      "grad_norm": 0.8073506355285645,
      "learning_rate": 0.00026130885978127127,
      "loss": 3.786,
      "step": 113780
    },
    {
      "epoch": 0.2370625,
      "grad_norm": 0.7299621105194092,
      "learning_rate": 0.0002613022510117549,
      "loss": 3.9242,
      "step": 113790
    },
    {
      "epoch": 0.23708333333333334,
      "grad_norm": 0.7716646790504456,
      "learning_rate": 0.0002612956417614568,
      "loss": 3.8563,
      "step": 113800
    },
    {
      "epoch": 0.23710416666666667,
      "grad_norm": 0.7175790071487427,
      "learning_rate": 0.00026128903203040556,
      "loss": 4.0354,
      "step": 113810
    },
    {
      "epoch": 0.237125,
      "grad_norm": 0.6506059765815735,
      "learning_rate": 0.0002612824218186298,
      "loss": 3.8953,
      "step": 113820
    },
    {
      "epoch": 0.23714583333333333,
      "grad_norm": 0.7555687427520752,
      "learning_rate": 0.00026127581112615804,
      "loss": 3.8858,
      "step": 113830
    },
    {
      "epoch": 0.23716666666666666,
      "grad_norm": 0.7510266900062561,
      "learning_rate": 0.0002612691999530188,
      "loss": 3.862,
      "step": 113840
    },
    {
      "epoch": 0.2371875,
      "grad_norm": 0.7787691950798035,
      "learning_rate": 0.00026126258829924066,
      "loss": 4.1028,
      "step": 113850
    },
    {
      "epoch": 0.23720833333333333,
      "grad_norm": 0.7241496443748474,
      "learning_rate": 0.0002612559761648522,
      "loss": 3.8725,
      "step": 113860
    },
    {
      "epoch": 0.23722916666666666,
      "grad_norm": 0.7116979956626892,
      "learning_rate": 0.0002612493635498819,
      "loss": 3.995,
      "step": 113870
    },
    {
      "epoch": 0.23725,
      "grad_norm": 0.8266820311546326,
      "learning_rate": 0.0002612427504543584,
      "loss": 3.7682,
      "step": 113880
    },
    {
      "epoch": 0.23727083333333332,
      "grad_norm": 0.6824839115142822,
      "learning_rate": 0.0002612361368783103,
      "loss": 3.9402,
      "step": 113890
    },
    {
      "epoch": 0.23729166666666668,
      "grad_norm": 0.7754460573196411,
      "learning_rate": 0.0002612295228217661,
      "loss": 3.891,
      "step": 113900
    },
    {
      "epoch": 0.2373125,
      "grad_norm": 0.7085105776786804,
      "learning_rate": 0.00026122290828475435,
      "loss": 3.9192,
      "step": 113910
    },
    {
      "epoch": 0.23733333333333334,
      "grad_norm": 0.6307634711265564,
      "learning_rate": 0.0002612162932673037,
      "loss": 3.8076,
      "step": 113920
    },
    {
      "epoch": 0.23735416666666667,
      "grad_norm": 0.8724708557128906,
      "learning_rate": 0.00026120967776944266,
      "loss": 3.8679,
      "step": 113930
    },
    {
      "epoch": 0.237375,
      "grad_norm": 0.8018783330917358,
      "learning_rate": 0.0002612030617911999,
      "loss": 3.9368,
      "step": 113940
    },
    {
      "epoch": 0.23739583333333333,
      "grad_norm": 0.7467615008354187,
      "learning_rate": 0.00026119644533260385,
      "loss": 3.9215,
      "step": 113950
    },
    {
      "epoch": 0.23741666666666666,
      "grad_norm": 0.8405132293701172,
      "learning_rate": 0.00026118982839368324,
      "loss": 3.875,
      "step": 113960
    },
    {
      "epoch": 0.2374375,
      "grad_norm": 0.6761019825935364,
      "learning_rate": 0.00026118321097446653,
      "loss": 3.8323,
      "step": 113970
    },
    {
      "epoch": 0.23745833333333333,
      "grad_norm": 0.982046902179718,
      "learning_rate": 0.00026117659307498236,
      "loss": 3.9609,
      "step": 113980
    },
    {
      "epoch": 0.23747916666666666,
      "grad_norm": 0.7016381621360779,
      "learning_rate": 0.0002611699746952593,
      "loss": 4.0141,
      "step": 113990
    },
    {
      "epoch": 0.2375,
      "grad_norm": 0.6979237794876099,
      "learning_rate": 0.000261163355835326,
      "loss": 3.8632,
      "step": 114000
    },
    {
      "epoch": 0.2375,
      "eval_loss": 4.274669170379639,
      "eval_runtime": 10.1558,
      "eval_samples_per_second": 0.985,
      "eval_steps_per_second": 0.295,
      "step": 114000
    },
    {
      "epoch": 0.23752083333333332,
      "grad_norm": 0.707955539226532,
      "learning_rate": 0.000261156736495211,
      "loss": 3.8232,
      "step": 114010
    },
    {
      "epoch": 0.23754166666666668,
      "grad_norm": 0.833194375038147,
      "learning_rate": 0.0002611501166749429,
      "loss": 3.7136,
      "step": 114020
    },
    {
      "epoch": 0.2375625,
      "grad_norm": 0.7838445901870728,
      "learning_rate": 0.00026114349637455027,
      "loss": 3.8977,
      "step": 114030
    },
    {
      "epoch": 0.23758333333333334,
      "grad_norm": 0.8599135875701904,
      "learning_rate": 0.00026113687559406175,
      "loss": 3.849,
      "step": 114040
    },
    {
      "epoch": 0.23760416666666667,
      "grad_norm": 0.987023115158081,
      "learning_rate": 0.0002611302543335059,
      "loss": 4.0649,
      "step": 114050
    },
    {
      "epoch": 0.237625,
      "grad_norm": 0.7492974996566772,
      "learning_rate": 0.0002611236325929113,
      "loss": 3.9408,
      "step": 114060
    },
    {
      "epoch": 0.23764583333333333,
      "grad_norm": 0.7786435484886169,
      "learning_rate": 0.00026111701037230664,
      "loss": 3.8493,
      "step": 114070
    },
    {
      "epoch": 0.23766666666666666,
      "grad_norm": 0.8377174735069275,
      "learning_rate": 0.00026111038767172046,
      "loss": 3.888,
      "step": 114080
    },
    {
      "epoch": 0.2376875,
      "grad_norm": 0.7755816578865051,
      "learning_rate": 0.0002611037644911814,
      "loss": 3.9386,
      "step": 114090
    },
    {
      "epoch": 0.23770833333333333,
      "grad_norm": 0.7938888072967529,
      "learning_rate": 0.0002610971408307181,
      "loss": 3.8402,
      "step": 114100
    },
    {
      "epoch": 0.23772916666666666,
      "grad_norm": 0.684544563293457,
      "learning_rate": 0.00026109051669035907,
      "loss": 3.7374,
      "step": 114110
    },
    {
      "epoch": 0.23775,
      "grad_norm": 0.7818745970726013,
      "learning_rate": 0.000261083892070133,
      "loss": 3.8437,
      "step": 114120
    },
    {
      "epoch": 0.23777083333333332,
      "grad_norm": 0.6883953213691711,
      "learning_rate": 0.0002610772669700684,
      "loss": 3.8417,
      "step": 114130
    },
    {
      "epoch": 0.23779166666666668,
      "grad_norm": 0.7021319270133972,
      "learning_rate": 0.00026107064139019407,
      "loss": 3.9388,
      "step": 114140
    },
    {
      "epoch": 0.2378125,
      "grad_norm": 0.7883499264717102,
      "learning_rate": 0.0002610640153305386,
      "loss": 3.8189,
      "step": 114150
    },
    {
      "epoch": 0.23783333333333334,
      "grad_norm": 0.7388126254081726,
      "learning_rate": 0.0002610573887911304,
      "loss": 3.9782,
      "step": 114160
    },
    {
      "epoch": 0.23785416666666667,
      "grad_norm": 0.7088503837585449,
      "learning_rate": 0.0002610507617719983,
      "loss": 3.8246,
      "step": 114170
    },
    {
      "epoch": 0.237875,
      "grad_norm": 0.8095081448554993,
      "learning_rate": 0.00026104413427317086,
      "loss": 3.865,
      "step": 114180
    },
    {
      "epoch": 0.23789583333333333,
      "grad_norm": 0.7264026999473572,
      "learning_rate": 0.00026103750629467674,
      "loss": 3.891,
      "step": 114190
    },
    {
      "epoch": 0.23791666666666667,
      "grad_norm": 0.7216106653213501,
      "learning_rate": 0.00026103087783654454,
      "loss": 3.9403,
      "step": 114200
    },
    {
      "epoch": 0.2379375,
      "grad_norm": 0.7419866323471069,
      "learning_rate": 0.0002610242488988029,
      "loss": 3.906,
      "step": 114210
    },
    {
      "epoch": 0.23795833333333333,
      "grad_norm": 0.7289590835571289,
      "learning_rate": 0.00026101761948148043,
      "loss": 3.7424,
      "step": 114220
    },
    {
      "epoch": 0.23797916666666666,
      "grad_norm": 0.9748528003692627,
      "learning_rate": 0.0002610109895846058,
      "loss": 3.9552,
      "step": 114230
    },
    {
      "epoch": 0.238,
      "grad_norm": 0.8353610038757324,
      "learning_rate": 0.0002610043592082076,
      "loss": 4.0065,
      "step": 114240
    },
    {
      "epoch": 0.23802083333333332,
      "grad_norm": 0.8529026508331299,
      "learning_rate": 0.00026099772835231456,
      "loss": 3.8788,
      "step": 114250
    },
    {
      "epoch": 0.23804166666666668,
      "grad_norm": 0.8682144284248352,
      "learning_rate": 0.0002609910970169552,
      "loss": 3.7228,
      "step": 114260
    },
    {
      "epoch": 0.2380625,
      "grad_norm": 0.7240811586380005,
      "learning_rate": 0.0002609844652021583,
      "loss": 3.9139,
      "step": 114270
    },
    {
      "epoch": 0.23808333333333334,
      "grad_norm": 0.8528417944908142,
      "learning_rate": 0.0002609778329079524,
      "loss": 3.8395,
      "step": 114280
    },
    {
      "epoch": 0.23810416666666667,
      "grad_norm": 0.7062963247299194,
      "learning_rate": 0.00026097120013436625,
      "loss": 3.9186,
      "step": 114290
    },
    {
      "epoch": 0.238125,
      "grad_norm": 0.7778975963592529,
      "learning_rate": 0.0002609645668814284,
      "loss": 3.7888,
      "step": 114300
    },
    {
      "epoch": 0.23814583333333333,
      "grad_norm": 0.7422923445701599,
      "learning_rate": 0.0002609579331491675,
      "loss": 4.0528,
      "step": 114310
    },
    {
      "epoch": 0.23816666666666667,
      "grad_norm": 0.8436475396156311,
      "learning_rate": 0.00026095129893761234,
      "loss": 4.028,
      "step": 114320
    },
    {
      "epoch": 0.2381875,
      "grad_norm": 0.8094499111175537,
      "learning_rate": 0.00026094466424679146,
      "loss": 3.7622,
      "step": 114330
    },
    {
      "epoch": 0.23820833333333333,
      "grad_norm": 0.8609719276428223,
      "learning_rate": 0.0002609380290767335,
      "loss": 3.7944,
      "step": 114340
    },
    {
      "epoch": 0.23822916666666666,
      "grad_norm": 0.7979872226715088,
      "learning_rate": 0.0002609313934274672,
      "loss": 3.8434,
      "step": 114350
    },
    {
      "epoch": 0.23825,
      "grad_norm": 0.9424957633018494,
      "learning_rate": 0.0002609247572990212,
      "loss": 3.8321,
      "step": 114360
    },
    {
      "epoch": 0.23827083333333332,
      "grad_norm": 0.7749367356300354,
      "learning_rate": 0.00026091812069142415,
      "loss": 3.9443,
      "step": 114370
    },
    {
      "epoch": 0.23829166666666668,
      "grad_norm": 0.7836552262306213,
      "learning_rate": 0.0002609114836047047,
      "loss": 3.9337,
      "step": 114380
    },
    {
      "epoch": 0.2383125,
      "grad_norm": 0.6600876450538635,
      "learning_rate": 0.0002609048460388915,
      "loss": 3.9098,
      "step": 114390
    },
    {
      "epoch": 0.23833333333333334,
      "grad_norm": 0.7677357196807861,
      "learning_rate": 0.00026089820799401336,
      "loss": 4.0287,
      "step": 114400
    },
    {
      "epoch": 0.23835416666666667,
      "grad_norm": 0.7388955354690552,
      "learning_rate": 0.0002608915694700988,
      "loss": 4.0129,
      "step": 114410
    },
    {
      "epoch": 0.238375,
      "grad_norm": 0.7915213108062744,
      "learning_rate": 0.0002608849304671766,
      "loss": 3.8023,
      "step": 114420
    },
    {
      "epoch": 0.23839583333333333,
      "grad_norm": 0.8580248355865479,
      "learning_rate": 0.00026087829098527535,
      "loss": 3.8921,
      "step": 114430
    },
    {
      "epoch": 0.23841666666666667,
      "grad_norm": 0.8447347283363342,
      "learning_rate": 0.00026087165102442375,
      "loss": 3.9229,
      "step": 114440
    },
    {
      "epoch": 0.2384375,
      "grad_norm": 0.6824004650115967,
      "learning_rate": 0.00026086501058465055,
      "loss": 3.914,
      "step": 114450
    },
    {
      "epoch": 0.23845833333333333,
      "grad_norm": 0.7024351954460144,
      "learning_rate": 0.0002608583696659844,
      "loss": 3.8175,
      "step": 114460
    },
    {
      "epoch": 0.23847916666666666,
      "grad_norm": 0.7374757528305054,
      "learning_rate": 0.0002608517282684539,
      "loss": 3.8488,
      "step": 114470
    },
    {
      "epoch": 0.2385,
      "grad_norm": 0.7171477675437927,
      "learning_rate": 0.0002608450863920879,
      "loss": 3.839,
      "step": 114480
    },
    {
      "epoch": 0.23852083333333332,
      "grad_norm": 1.2253645658493042,
      "learning_rate": 0.00026083844403691493,
      "loss": 3.9028,
      "step": 114490
    },
    {
      "epoch": 0.23854166666666668,
      "grad_norm": 0.8538299202919006,
      "learning_rate": 0.00026083180120296383,
      "loss": 3.7607,
      "step": 114500
    },
    {
      "epoch": 0.2385625,
      "grad_norm": 0.8508172631263733,
      "learning_rate": 0.00026082515789026316,
      "loss": 3.9103,
      "step": 114510
    },
    {
      "epoch": 0.23858333333333334,
      "grad_norm": 0.888931393623352,
      "learning_rate": 0.00026081851409884174,
      "loss": 3.7562,
      "step": 114520
    },
    {
      "epoch": 0.23860416666666667,
      "grad_norm": 0.8008545637130737,
      "learning_rate": 0.0002608118698287281,
      "loss": 3.7393,
      "step": 114530
    },
    {
      "epoch": 0.238625,
      "grad_norm": 1.2680237293243408,
      "learning_rate": 0.00026080522507995106,
      "loss": 3.9353,
      "step": 114540
    },
    {
      "epoch": 0.23864583333333333,
      "grad_norm": 0.906619131565094,
      "learning_rate": 0.0002607985798525394,
      "loss": 3.842,
      "step": 114550
    },
    {
      "epoch": 0.23866666666666667,
      "grad_norm": 0.7736608982086182,
      "learning_rate": 0.00026079193414652166,
      "loss": 3.7793,
      "step": 114560
    },
    {
      "epoch": 0.2386875,
      "grad_norm": 0.8171983957290649,
      "learning_rate": 0.00026078528796192663,
      "loss": 3.9688,
      "step": 114570
    },
    {
      "epoch": 0.23870833333333333,
      "grad_norm": 0.8694718480110168,
      "learning_rate": 0.00026077864129878304,
      "loss": 3.8157,
      "step": 114580
    },
    {
      "epoch": 0.23872916666666666,
      "grad_norm": 0.7078268527984619,
      "learning_rate": 0.00026077199415711956,
      "loss": 3.7632,
      "step": 114590
    },
    {
      "epoch": 0.23875,
      "grad_norm": 0.7211157083511353,
      "learning_rate": 0.0002607653465369649,
      "loss": 3.8509,
      "step": 114600
    },
    {
      "epoch": 0.23877083333333332,
      "grad_norm": 0.6716285347938538,
      "learning_rate": 0.0002607586984383478,
      "loss": 3.9599,
      "step": 114610
    },
    {
      "epoch": 0.23879166666666668,
      "grad_norm": 0.7134262323379517,
      "learning_rate": 0.00026075204986129695,
      "loss": 3.8272,
      "step": 114620
    },
    {
      "epoch": 0.2388125,
      "grad_norm": 0.7559017539024353,
      "learning_rate": 0.00026074540080584104,
      "loss": 3.8747,
      "step": 114630
    },
    {
      "epoch": 0.23883333333333334,
      "grad_norm": 0.7917506694793701,
      "learning_rate": 0.0002607387512720089,
      "loss": 4.0529,
      "step": 114640
    },
    {
      "epoch": 0.23885416666666667,
      "grad_norm": 0.7047008872032166,
      "learning_rate": 0.0002607321012598292,
      "loss": 3.8136,
      "step": 114650
    },
    {
      "epoch": 0.238875,
      "grad_norm": 0.7834599018096924,
      "learning_rate": 0.00026072545076933056,
      "loss": 3.8974,
      "step": 114660
    },
    {
      "epoch": 0.23889583333333334,
      "grad_norm": 0.790911853313446,
      "learning_rate": 0.0002607187998005419,
      "loss": 3.8195,
      "step": 114670
    },
    {
      "epoch": 0.23891666666666667,
      "grad_norm": 0.8479803204536438,
      "learning_rate": 0.0002607121483534918,
      "loss": 4.0642,
      "step": 114680
    },
    {
      "epoch": 0.2389375,
      "grad_norm": 0.8249107599258423,
      "learning_rate": 0.000260705496428209,
      "loss": 3.8174,
      "step": 114690
    },
    {
      "epoch": 0.23895833333333333,
      "grad_norm": 0.685752809047699,
      "learning_rate": 0.00026069884402472236,
      "loss": 3.8388,
      "step": 114700
    },
    {
      "epoch": 0.23897916666666666,
      "grad_norm": 0.8596463799476624,
      "learning_rate": 0.0002606921911430605,
      "loss": 3.9567,
      "step": 114710
    },
    {
      "epoch": 0.239,
      "grad_norm": 0.7592532634735107,
      "learning_rate": 0.0002606855377832522,
      "loss": 3.817,
      "step": 114720
    },
    {
      "epoch": 0.23902083333333332,
      "grad_norm": 0.9025839567184448,
      "learning_rate": 0.00026067888394532614,
      "loss": 3.9749,
      "step": 114730
    },
    {
      "epoch": 0.23904166666666668,
      "grad_norm": 0.7498944997787476,
      "learning_rate": 0.00026067222962931116,
      "loss": 3.8145,
      "step": 114740
    },
    {
      "epoch": 0.2390625,
      "grad_norm": 0.6617084741592407,
      "learning_rate": 0.000260665574835236,
      "loss": 3.8192,
      "step": 114750
    },
    {
      "epoch": 0.23908333333333334,
      "grad_norm": 0.7757551074028015,
      "learning_rate": 0.0002606589195631293,
      "loss": 3.789,
      "step": 114760
    },
    {
      "epoch": 0.23910416666666667,
      "grad_norm": 0.7989000678062439,
      "learning_rate": 0.0002606522638130198,
      "loss": 3.8031,
      "step": 114770
    },
    {
      "epoch": 0.239125,
      "grad_norm": 0.9631623029708862,
      "learning_rate": 0.00026064560758493646,
      "loss": 3.7692,
      "step": 114780
    },
    {
      "epoch": 0.23914583333333334,
      "grad_norm": 0.9125344753265381,
      "learning_rate": 0.0002606389508789078,
      "loss": 3.8187,
      "step": 114790
    },
    {
      "epoch": 0.23916666666666667,
      "grad_norm": 0.9317472577095032,
      "learning_rate": 0.00026063229369496267,
      "loss": 3.7828,
      "step": 114800
    },
    {
      "epoch": 0.2391875,
      "grad_norm": 0.7269681692123413,
      "learning_rate": 0.00026062563603312987,
      "loss": 3.8293,
      "step": 114810
    },
    {
      "epoch": 0.23920833333333333,
      "grad_norm": 0.7286441326141357,
      "learning_rate": 0.00026061897789343805,
      "loss": 3.895,
      "step": 114820
    },
    {
      "epoch": 0.23922916666666666,
      "grad_norm": 0.865191638469696,
      "learning_rate": 0.0002606123192759161,
      "loss": 3.7164,
      "step": 114830
    },
    {
      "epoch": 0.23925,
      "grad_norm": 0.7402560114860535,
      "learning_rate": 0.00026060566018059266,
      "loss": 3.9105,
      "step": 114840
    },
    {
      "epoch": 0.23927083333333332,
      "grad_norm": 0.9875277876853943,
      "learning_rate": 0.0002605990006074966,
      "loss": 3.9954,
      "step": 114850
    },
    {
      "epoch": 0.23929166666666668,
      "grad_norm": 0.7138338685035706,
      "learning_rate": 0.00026059234055665663,
      "loss": 4.0028,
      "step": 114860
    },
    {
      "epoch": 0.2393125,
      "grad_norm": 0.680026650428772,
      "learning_rate": 0.00026058568002810146,
      "loss": 3.8785,
      "step": 114870
    },
    {
      "epoch": 0.23933333333333334,
      "grad_norm": 0.8372796177864075,
      "learning_rate": 0.00026057901902186,
      "loss": 4.0017,
      "step": 114880
    },
    {
      "epoch": 0.23935416666666667,
      "grad_norm": 0.9821401834487915,
      "learning_rate": 0.00026057235753796087,
      "loss": 3.6303,
      "step": 114890
    },
    {
      "epoch": 0.239375,
      "grad_norm": 0.7389310598373413,
      "learning_rate": 0.00026056569557643297,
      "loss": 3.8975,
      "step": 114900
    },
    {
      "epoch": 0.23939583333333334,
      "grad_norm": 0.7369092106819153,
      "learning_rate": 0.000260559033137305,
      "loss": 3.9146,
      "step": 114910
    },
    {
      "epoch": 0.23941666666666667,
      "grad_norm": 0.7818358540534973,
      "learning_rate": 0.00026055237022060585,
      "loss": 3.9397,
      "step": 114920
    },
    {
      "epoch": 0.2394375,
      "grad_norm": 0.7191615104675293,
      "learning_rate": 0.00026054570682636414,
      "loss": 3.9114,
      "step": 114930
    },
    {
      "epoch": 0.23945833333333333,
      "grad_norm": 0.6996783018112183,
      "learning_rate": 0.00026053904295460874,
      "loss": 3.8098,
      "step": 114940
    },
    {
      "epoch": 0.23947916666666666,
      "grad_norm": 0.7549847960472107,
      "learning_rate": 0.00026053237860536847,
      "loss": 3.9116,
      "step": 114950
    },
    {
      "epoch": 0.2395,
      "grad_norm": 0.7843330502510071,
      "learning_rate": 0.0002605257137786721,
      "loss": 3.9704,
      "step": 114960
    },
    {
      "epoch": 0.23952083333333332,
      "grad_norm": 0.8731957077980042,
      "learning_rate": 0.0002605190484745483,
      "loss": 3.8214,
      "step": 114970
    },
    {
      "epoch": 0.23954166666666668,
      "grad_norm": 1.0411624908447266,
      "learning_rate": 0.000260512382693026,
      "loss": 3.9145,
      "step": 114980
    },
    {
      "epoch": 0.2395625,
      "grad_norm": 0.8362072706222534,
      "learning_rate": 0.000260505716434134,
      "loss": 3.8692,
      "step": 114990
    },
    {
      "epoch": 0.23958333333333334,
      "grad_norm": 0.9187620282173157,
      "learning_rate": 0.00026049904969790093,
      "loss": 3.8984,
      "step": 115000
    },
    {
      "epoch": 0.23958333333333334,
      "eval_loss": 4.277940273284912,
      "eval_runtime": 9.5298,
      "eval_samples_per_second": 1.049,
      "eval_steps_per_second": 0.315,
      "step": 115000
    },
    {
      "epoch": 0.23960416666666667,
      "grad_norm": 0.8665232062339783,
      "learning_rate": 0.0002604923824843558,
      "loss": 3.8811,
      "step": 115010
    },
    {
      "epoch": 0.239625,
      "grad_norm": 0.7611491680145264,
      "learning_rate": 0.0002604857147935273,
      "loss": 3.9553,
      "step": 115020
    },
    {
      "epoch": 0.23964583333333334,
      "grad_norm": 0.6717048287391663,
      "learning_rate": 0.0002604790466254442,
      "loss": 3.9914,
      "step": 115030
    },
    {
      "epoch": 0.23966666666666667,
      "grad_norm": 0.8163872957229614,
      "learning_rate": 0.0002604723779801354,
      "loss": 3.9749,
      "step": 115040
    },
    {
      "epoch": 0.2396875,
      "grad_norm": 0.7745394110679626,
      "learning_rate": 0.00026046570885762964,
      "loss": 3.9945,
      "step": 115050
    },
    {
      "epoch": 0.23970833333333333,
      "grad_norm": 0.7717122435569763,
      "learning_rate": 0.00026045903925795577,
      "loss": 3.7198,
      "step": 115060
    },
    {
      "epoch": 0.23972916666666666,
      "grad_norm": 0.7597681879997253,
      "learning_rate": 0.0002604523691811425,
      "loss": 3.795,
      "step": 115070
    },
    {
      "epoch": 0.23975,
      "grad_norm": 0.6760414838790894,
      "learning_rate": 0.0002604456986272188,
      "loss": 3.9673,
      "step": 115080
    },
    {
      "epoch": 0.23977083333333332,
      "grad_norm": 0.7097985744476318,
      "learning_rate": 0.0002604390275962134,
      "loss": 3.9733,
      "step": 115090
    },
    {
      "epoch": 0.23979166666666665,
      "grad_norm": 0.7956592440605164,
      "learning_rate": 0.00026043235608815506,
      "loss": 3.877,
      "step": 115100
    },
    {
      "epoch": 0.2398125,
      "grad_norm": 0.7657138705253601,
      "learning_rate": 0.00026042568410307264,
      "loss": 3.7238,
      "step": 115110
    },
    {
      "epoch": 0.23983333333333334,
      "grad_norm": 0.8124246597290039,
      "learning_rate": 0.00026041901164099504,
      "loss": 3.7767,
      "step": 115120
    },
    {
      "epoch": 0.23985416666666667,
      "grad_norm": 0.7243840098381042,
      "learning_rate": 0.00026041233870195094,
      "loss": 3.9495,
      "step": 115130
    },
    {
      "epoch": 0.239875,
      "grad_norm": 0.8098496794700623,
      "learning_rate": 0.0002604056652859693,
      "loss": 3.815,
      "step": 115140
    },
    {
      "epoch": 0.23989583333333334,
      "grad_norm": 0.7868401408195496,
      "learning_rate": 0.00026039899139307886,
      "loss": 3.8543,
      "step": 115150
    },
    {
      "epoch": 0.23991666666666667,
      "grad_norm": 0.8721498847007751,
      "learning_rate": 0.0002603923170233085,
      "loss": 3.9988,
      "step": 115160
    },
    {
      "epoch": 0.2399375,
      "grad_norm": 0.7743726372718811,
      "learning_rate": 0.000260385642176687,
      "loss": 3.7932,
      "step": 115170
    },
    {
      "epoch": 0.23995833333333333,
      "grad_norm": 0.7834858298301697,
      "learning_rate": 0.0002603789668532432,
      "loss": 3.8865,
      "step": 115180
    },
    {
      "epoch": 0.23997916666666666,
      "grad_norm": 0.868409276008606,
      "learning_rate": 0.000260372291053006,
      "loss": 3.9339,
      "step": 115190
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7618752121925354,
      "learning_rate": 0.0002603656147760042,
      "loss": 3.724,
      "step": 115200
    },
    {
      "epoch": 0.24002083333333332,
      "grad_norm": 0.8054734468460083,
      "learning_rate": 0.0002603589380222666,
      "loss": 3.7611,
      "step": 115210
    },
    {
      "epoch": 0.24004166666666665,
      "grad_norm": 0.8302469849586487,
      "learning_rate": 0.0002603522607918221,
      "loss": 3.9,
      "step": 115220
    },
    {
      "epoch": 0.2400625,
      "grad_norm": 0.7552115321159363,
      "learning_rate": 0.0002603455830846995,
      "loss": 3.9184,
      "step": 115230
    },
    {
      "epoch": 0.24008333333333334,
      "grad_norm": 0.7636775374412537,
      "learning_rate": 0.0002603389049009276,
      "loss": 3.9328,
      "step": 115240
    },
    {
      "epoch": 0.24010416666666667,
      "grad_norm": 1.0122946500778198,
      "learning_rate": 0.0002603322262405354,
      "loss": 3.7834,
      "step": 115250
    },
    {
      "epoch": 0.240125,
      "grad_norm": 0.8122518658638,
      "learning_rate": 0.0002603255471035516,
      "loss": 3.867,
      "step": 115260
    },
    {
      "epoch": 0.24014583333333334,
      "grad_norm": 0.7597981691360474,
      "learning_rate": 0.0002603188674900051,
      "loss": 3.9474,
      "step": 115270
    },
    {
      "epoch": 0.24016666666666667,
      "grad_norm": 0.8387296199798584,
      "learning_rate": 0.0002603121873999248,
      "loss": 3.9787,
      "step": 115280
    },
    {
      "epoch": 0.2401875,
      "grad_norm": 0.7291693091392517,
      "learning_rate": 0.00026030550683333947,
      "loss": 3.9418,
      "step": 115290
    },
    {
      "epoch": 0.24020833333333333,
      "grad_norm": 0.6397300362586975,
      "learning_rate": 0.00026029882579027807,
      "loss": 3.8501,
      "step": 115300
    },
    {
      "epoch": 0.24022916666666666,
      "grad_norm": 0.8513126969337463,
      "learning_rate": 0.00026029214427076934,
      "loss": 3.996,
      "step": 115310
    },
    {
      "epoch": 0.24025,
      "grad_norm": 0.766761302947998,
      "learning_rate": 0.0002602854622748423,
      "loss": 3.8538,
      "step": 115320
    },
    {
      "epoch": 0.24027083333333332,
      "grad_norm": 0.7275024652481079,
      "learning_rate": 0.0002602787798025256,
      "loss": 3.865,
      "step": 115330
    },
    {
      "epoch": 0.24029166666666665,
      "grad_norm": 0.6636534929275513,
      "learning_rate": 0.00026027209685384827,
      "loss": 3.9783,
      "step": 115340
    },
    {
      "epoch": 0.2403125,
      "grad_norm": 0.769293487071991,
      "learning_rate": 0.0002602654134288391,
      "loss": 3.9783,
      "step": 115350
    },
    {
      "epoch": 0.24033333333333334,
      "grad_norm": 0.7248364686965942,
      "learning_rate": 0.000260258729527527,
      "loss": 3.9378,
      "step": 115360
    },
    {
      "epoch": 0.24035416666666667,
      "grad_norm": 0.68677818775177,
      "learning_rate": 0.0002602520451499409,
      "loss": 3.968,
      "step": 115370
    },
    {
      "epoch": 0.240375,
      "grad_norm": 0.9008524417877197,
      "learning_rate": 0.00026024536029610956,
      "loss": 3.8415,
      "step": 115380
    },
    {
      "epoch": 0.24039583333333334,
      "grad_norm": 0.889981210231781,
      "learning_rate": 0.00026023867496606187,
      "loss": 3.9423,
      "step": 115390
    },
    {
      "epoch": 0.24041666666666667,
      "grad_norm": 0.8326575756072998,
      "learning_rate": 0.00026023198915982684,
      "loss": 3.9177,
      "step": 115400
    },
    {
      "epoch": 0.2404375,
      "grad_norm": 0.7323761582374573,
      "learning_rate": 0.00026022530287743315,
      "loss": 4.0097,
      "step": 115410
    },
    {
      "epoch": 0.24045833333333333,
      "grad_norm": 0.6826841831207275,
      "learning_rate": 0.0002602186161189098,
      "loss": 3.7704,
      "step": 115420
    },
    {
      "epoch": 0.24047916666666666,
      "grad_norm": 0.9225627779960632,
      "learning_rate": 0.00026021192888428567,
      "loss": 3.8628,
      "step": 115430
    },
    {
      "epoch": 0.2405,
      "grad_norm": 0.7063223123550415,
      "learning_rate": 0.0002602052411735896,
      "loss": 3.9168,
      "step": 115440
    },
    {
      "epoch": 0.24052083333333332,
      "grad_norm": 0.715499758720398,
      "learning_rate": 0.00026019855298685054,
      "loss": 3.8754,
      "step": 115450
    },
    {
      "epoch": 0.24054166666666665,
      "grad_norm": 0.8689903616905212,
      "learning_rate": 0.0002601918643240974,
      "loss": 3.703,
      "step": 115460
    },
    {
      "epoch": 0.2405625,
      "grad_norm": 0.8279256224632263,
      "learning_rate": 0.00026018517518535897,
      "loss": 3.8142,
      "step": 115470
    },
    {
      "epoch": 0.24058333333333334,
      "grad_norm": 0.738116443157196,
      "learning_rate": 0.00026017848557066415,
      "loss": 4.1691,
      "step": 115480
    },
    {
      "epoch": 0.24060416666666667,
      "grad_norm": 0.743424117565155,
      "learning_rate": 0.00026017179548004193,
      "loss": 3.8714,
      "step": 115490
    },
    {
      "epoch": 0.240625,
      "grad_norm": 0.7706015110015869,
      "learning_rate": 0.0002601651049135212,
      "loss": 3.852,
      "step": 115500
    },
    {
      "epoch": 0.24064583333333334,
      "grad_norm": 0.7491422295570374,
      "learning_rate": 0.0002601584138711308,
      "loss": 3.9881,
      "step": 115510
    },
    {
      "epoch": 0.24066666666666667,
      "grad_norm": 0.7675372362136841,
      "learning_rate": 0.00026015172235289963,
      "loss": 3.9055,
      "step": 115520
    },
    {
      "epoch": 0.2406875,
      "grad_norm": 0.6913831233978271,
      "learning_rate": 0.00026014503035885663,
      "loss": 4.0176,
      "step": 115530
    },
    {
      "epoch": 0.24070833333333333,
      "grad_norm": 0.7792788743972778,
      "learning_rate": 0.0002601383378890307,
      "loss": 4.0364,
      "step": 115540
    },
    {
      "epoch": 0.24072916666666666,
      "grad_norm": 0.7344367504119873,
      "learning_rate": 0.00026013164494345073,
      "loss": 3.9964,
      "step": 115550
    },
    {
      "epoch": 0.24075,
      "grad_norm": 0.7833885550498962,
      "learning_rate": 0.00026012495152214567,
      "loss": 4.0095,
      "step": 115560
    },
    {
      "epoch": 0.24077083333333332,
      "grad_norm": 0.6592714190483093,
      "learning_rate": 0.00026011825762514446,
      "loss": 3.8675,
      "step": 115570
    },
    {
      "epoch": 0.24079166666666665,
      "grad_norm": 0.8733033537864685,
      "learning_rate": 0.0002601115632524759,
      "loss": 3.8531,
      "step": 115580
    },
    {
      "epoch": 0.2408125,
      "grad_norm": 0.7357209920883179,
      "learning_rate": 0.000260104868404169,
      "loss": 3.8205,
      "step": 115590
    },
    {
      "epoch": 0.24083333333333334,
      "grad_norm": 0.6903390884399414,
      "learning_rate": 0.0002600981730802526,
      "loss": 3.9439,
      "step": 115600
    },
    {
      "epoch": 0.24085416666666667,
      "grad_norm": 0.7157521843910217,
      "learning_rate": 0.0002600914772807557,
      "loss": 3.8341,
      "step": 115610
    },
    {
      "epoch": 0.240875,
      "grad_norm": 0.7281493544578552,
      "learning_rate": 0.00026008478100570726,
      "loss": 3.7966,
      "step": 115620
    },
    {
      "epoch": 0.24089583333333334,
      "grad_norm": 0.8439201712608337,
      "learning_rate": 0.00026007808425513603,
      "loss": 3.8699,
      "step": 115630
    },
    {
      "epoch": 0.24091666666666667,
      "grad_norm": 0.827664315700531,
      "learning_rate": 0.00026007138702907113,
      "loss": 3.8798,
      "step": 115640
    },
    {
      "epoch": 0.2409375,
      "grad_norm": 0.7361575365066528,
      "learning_rate": 0.00026006468932754135,
      "loss": 4.0136,
      "step": 115650
    },
    {
      "epoch": 0.24095833333333333,
      "grad_norm": 0.6786472201347351,
      "learning_rate": 0.0002600579911505757,
      "loss": 3.9109,
      "step": 115660
    },
    {
      "epoch": 0.24097916666666666,
      "grad_norm": 0.6592401266098022,
      "learning_rate": 0.0002600512924982031,
      "loss": 3.7852,
      "step": 115670
    },
    {
      "epoch": 0.241,
      "grad_norm": 0.6761149168014526,
      "learning_rate": 0.0002600445933704525,
      "loss": 3.9503,
      "step": 115680
    },
    {
      "epoch": 0.24102083333333332,
      "grad_norm": 0.8813633918762207,
      "learning_rate": 0.0002600378937673528,
      "loss": 3.8897,
      "step": 115690
    },
    {
      "epoch": 0.24104166666666665,
      "grad_norm": 0.8154450058937073,
      "learning_rate": 0.0002600311936889329,
      "loss": 3.7943,
      "step": 115700
    },
    {
      "epoch": 0.2410625,
      "grad_norm": 0.7494574785232544,
      "learning_rate": 0.00026002449313522187,
      "loss": 3.806,
      "step": 115710
    },
    {
      "epoch": 0.24108333333333334,
      "grad_norm": 0.8022719621658325,
      "learning_rate": 0.00026001779210624857,
      "loss": 4.0115,
      "step": 115720
    },
    {
      "epoch": 0.24110416666666667,
      "grad_norm": 0.7826627492904663,
      "learning_rate": 0.0002600110906020419,
      "loss": 3.9712,
      "step": 115730
    },
    {
      "epoch": 0.241125,
      "grad_norm": 0.8162029981613159,
      "learning_rate": 0.00026000438862263097,
      "loss": 3.929,
      "step": 115740
    },
    {
      "epoch": 0.24114583333333334,
      "grad_norm": 0.7820276021957397,
      "learning_rate": 0.00025999768616804457,
      "loss": 3.9347,
      "step": 115750
    },
    {
      "epoch": 0.24116666666666667,
      "grad_norm": 0.8058353662490845,
      "learning_rate": 0.00025999098323831166,
      "loss": 4.1583,
      "step": 115760
    },
    {
      "epoch": 0.2411875,
      "grad_norm": 0.7865243554115295,
      "learning_rate": 0.0002599842798334613,
      "loss": 4.0209,
      "step": 115770
    },
    {
      "epoch": 0.24120833333333333,
      "grad_norm": 0.8769298195838928,
      "learning_rate": 0.00025997757595352234,
      "loss": 3.8901,
      "step": 115780
    },
    {
      "epoch": 0.24122916666666666,
      "grad_norm": 0.843979001045227,
      "learning_rate": 0.0002599708715985238,
      "loss": 3.9604,
      "step": 115790
    },
    {
      "epoch": 0.24125,
      "grad_norm": 0.7673715353012085,
      "learning_rate": 0.00025996416676849464,
      "loss": 3.7127,
      "step": 115800
    },
    {
      "epoch": 0.24127083333333332,
      "grad_norm": 0.7727834582328796,
      "learning_rate": 0.0002599574614634638,
      "loss": 3.8271,
      "step": 115810
    },
    {
      "epoch": 0.24129166666666665,
      "grad_norm": 0.7556334733963013,
      "learning_rate": 0.00025995075568346025,
      "loss": 4.1219,
      "step": 115820
    },
    {
      "epoch": 0.2413125,
      "grad_norm": 0.8232370018959045,
      "learning_rate": 0.0002599440494285129,
      "loss": 4.1545,
      "step": 115830
    },
    {
      "epoch": 0.24133333333333334,
      "grad_norm": 0.8181596398353577,
      "learning_rate": 0.0002599373426986509,
      "loss": 3.7967,
      "step": 115840
    },
    {
      "epoch": 0.24135416666666668,
      "grad_norm": 0.8050000667572021,
      "learning_rate": 0.00025993063549390296,
      "loss": 3.9781,
      "step": 115850
    },
    {
      "epoch": 0.241375,
      "grad_norm": 0.7994040250778198,
      "learning_rate": 0.0002599239278142983,
      "loss": 3.891,
      "step": 115860
    },
    {
      "epoch": 0.24139583333333334,
      "grad_norm": 0.7868145704269409,
      "learning_rate": 0.0002599172196598657,
      "loss": 3.8387,
      "step": 115870
    },
    {
      "epoch": 0.24141666666666667,
      "grad_norm": 0.742220401763916,
      "learning_rate": 0.0002599105110306343,
      "loss": 3.8433,
      "step": 115880
    },
    {
      "epoch": 0.2414375,
      "grad_norm": 0.919288158416748,
      "learning_rate": 0.0002599038019266329,
      "loss": 3.8763,
      "step": 115890
    },
    {
      "epoch": 0.24145833333333333,
      "grad_norm": 0.7905799746513367,
      "learning_rate": 0.00025989709234789066,
      "loss": 3.686,
      "step": 115900
    },
    {
      "epoch": 0.24147916666666666,
      "grad_norm": 0.7417182922363281,
      "learning_rate": 0.00025989038229443643,
      "loss": 3.8377,
      "step": 115910
    },
    {
      "epoch": 0.2415,
      "grad_norm": 0.7821013331413269,
      "learning_rate": 0.00025988367176629925,
      "loss": 3.8474,
      "step": 115920
    },
    {
      "epoch": 0.24152083333333332,
      "grad_norm": 0.9150959849357605,
      "learning_rate": 0.0002598769607635081,
      "loss": 3.6116,
      "step": 115930
    },
    {
      "epoch": 0.24154166666666665,
      "grad_norm": 0.6710528135299683,
      "learning_rate": 0.00025987024928609203,
      "loss": 3.737,
      "step": 115940
    },
    {
      "epoch": 0.2415625,
      "grad_norm": 0.8117600083351135,
      "learning_rate": 0.00025986353733407994,
      "loss": 3.8148,
      "step": 115950
    },
    {
      "epoch": 0.24158333333333334,
      "grad_norm": 0.7698238492012024,
      "learning_rate": 0.00025985682490750085,
      "loss": 4.0023,
      "step": 115960
    },
    {
      "epoch": 0.24160416666666668,
      "grad_norm": 0.9356105327606201,
      "learning_rate": 0.00025985011200638377,
      "loss": 3.8954,
      "step": 115970
    },
    {
      "epoch": 0.241625,
      "grad_norm": 0.773661732673645,
      "learning_rate": 0.0002598433986307577,
      "loss": 4.0737,
      "step": 115980
    },
    {
      "epoch": 0.24164583333333334,
      "grad_norm": 0.7811927795410156,
      "learning_rate": 0.0002598366847806516,
      "loss": 3.5673,
      "step": 115990
    },
    {
      "epoch": 0.24166666666666667,
      "grad_norm": 0.7317502498626709,
      "learning_rate": 0.0002598299704560945,
      "loss": 3.93,
      "step": 116000
    },
    {
      "epoch": 0.24166666666666667,
      "eval_loss": 4.257462978363037,
      "eval_runtime": 9.5771,
      "eval_samples_per_second": 1.044,
      "eval_steps_per_second": 0.313,
      "step": 116000
    },
    {
      "epoch": 0.2416875,
      "grad_norm": 0.6917761564254761,
      "learning_rate": 0.0002598232556571154,
      "loss": 3.9443,
      "step": 116010
    },
    {
      "epoch": 0.24170833333333333,
      "grad_norm": 0.7054569125175476,
      "learning_rate": 0.00025981654038374335,
      "loss": 3.8276,
      "step": 116020
    },
    {
      "epoch": 0.24172916666666666,
      "grad_norm": 0.8852920532226562,
      "learning_rate": 0.0002598098246360072,
      "loss": 3.8606,
      "step": 116030
    },
    {
      "epoch": 0.24175,
      "grad_norm": 0.8094838857650757,
      "learning_rate": 0.0002598031084139362,
      "loss": 4.0563,
      "step": 116040
    },
    {
      "epoch": 0.24177083333333332,
      "grad_norm": 0.7740088701248169,
      "learning_rate": 0.0002597963917175592,
      "loss": 3.8043,
      "step": 116050
    },
    {
      "epoch": 0.24179166666666665,
      "grad_norm": 0.7583639621734619,
      "learning_rate": 0.0002597896745469052,
      "loss": 3.929,
      "step": 116060
    },
    {
      "epoch": 0.2418125,
      "grad_norm": 0.7717350721359253,
      "learning_rate": 0.0002597829569020033,
      "loss": 3.6648,
      "step": 116070
    },
    {
      "epoch": 0.24183333333333334,
      "grad_norm": 0.7236257195472717,
      "learning_rate": 0.00025977623878288244,
      "loss": 3.9055,
      "step": 116080
    },
    {
      "epoch": 0.24185416666666668,
      "grad_norm": 0.7113205194473267,
      "learning_rate": 0.0002597695201895718,
      "loss": 3.9422,
      "step": 116090
    },
    {
      "epoch": 0.241875,
      "grad_norm": 0.8215823173522949,
      "learning_rate": 0.00025976280112210016,
      "loss": 3.8281,
      "step": 116100
    },
    {
      "epoch": 0.24189583333333334,
      "grad_norm": 0.8866168260574341,
      "learning_rate": 0.0002597560815804967,
      "loss": 4.0249,
      "step": 116110
    },
    {
      "epoch": 0.24191666666666667,
      "grad_norm": 0.8423787355422974,
      "learning_rate": 0.00025974936156479046,
      "loss": 3.8418,
      "step": 116120
    },
    {
      "epoch": 0.2419375,
      "grad_norm": 0.9628915190696716,
      "learning_rate": 0.00025974264107501033,
      "loss": 3.9925,
      "step": 116130
    },
    {
      "epoch": 0.24195833333333333,
      "grad_norm": 0.851317822933197,
      "learning_rate": 0.0002597359201111855,
      "loss": 3.9211,
      "step": 116140
    },
    {
      "epoch": 0.24197916666666666,
      "grad_norm": 0.8120859861373901,
      "learning_rate": 0.0002597291986733449,
      "loss": 3.7712,
      "step": 116150
    },
    {
      "epoch": 0.242,
      "grad_norm": 0.6859013438224792,
      "learning_rate": 0.0002597224767615176,
      "loss": 3.8546,
      "step": 116160
    },
    {
      "epoch": 0.24202083333333332,
      "grad_norm": 0.7952880263328552,
      "learning_rate": 0.00025971575437573266,
      "loss": 3.6966,
      "step": 116170
    },
    {
      "epoch": 0.24204166666666665,
      "grad_norm": 0.7338311672210693,
      "learning_rate": 0.00025970903151601907,
      "loss": 4.0408,
      "step": 116180
    },
    {
      "epoch": 0.2420625,
      "grad_norm": 0.8171995282173157,
      "learning_rate": 0.0002597023081824059,
      "loss": 3.8387,
      "step": 116190
    },
    {
      "epoch": 0.24208333333333334,
      "grad_norm": 0.7956803441047668,
      "learning_rate": 0.00025969558437492215,
      "loss": 3.7903,
      "step": 116200
    },
    {
      "epoch": 0.24210416666666668,
      "grad_norm": 0.8171812891960144,
      "learning_rate": 0.00025968886009359693,
      "loss": 3.8972,
      "step": 116210
    },
    {
      "epoch": 0.242125,
      "grad_norm": 0.6809042692184448,
      "learning_rate": 0.0002596821353384592,
      "loss": 3.8001,
      "step": 116220
    },
    {
      "epoch": 0.24214583333333334,
      "grad_norm": 0.6739193201065063,
      "learning_rate": 0.00025967541010953814,
      "loss": 3.8659,
      "step": 116230
    },
    {
      "epoch": 0.24216666666666667,
      "grad_norm": 0.7918659448623657,
      "learning_rate": 0.0002596686844068627,
      "loss": 3.9693,
      "step": 116240
    },
    {
      "epoch": 0.2421875,
      "grad_norm": 0.8061742782592773,
      "learning_rate": 0.0002596619582304619,
      "loss": 3.8957,
      "step": 116250
    },
    {
      "epoch": 0.24220833333333333,
      "grad_norm": 0.7432987689971924,
      "learning_rate": 0.0002596552315803649,
      "loss": 3.9082,
      "step": 116260
    },
    {
      "epoch": 0.24222916666666666,
      "grad_norm": 0.6846911907196045,
      "learning_rate": 0.00025964850445660064,
      "loss": 3.7562,
      "step": 116270
    },
    {
      "epoch": 0.24225,
      "grad_norm": 0.9619568586349487,
      "learning_rate": 0.00025964177685919824,
      "loss": 3.861,
      "step": 116280
    },
    {
      "epoch": 0.24227083333333332,
      "grad_norm": 0.789553165435791,
      "learning_rate": 0.0002596350487881869,
      "loss": 4.0047,
      "step": 116290
    },
    {
      "epoch": 0.24229166666666666,
      "grad_norm": 0.7478734850883484,
      "learning_rate": 0.0002596283202435954,
      "loss": 3.9989,
      "step": 116300
    },
    {
      "epoch": 0.2423125,
      "grad_norm": 0.7954090237617493,
      "learning_rate": 0.000259621591225453,
      "loss": 3.8302,
      "step": 116310
    },
    {
      "epoch": 0.24233333333333335,
      "grad_norm": 0.9067075848579407,
      "learning_rate": 0.00025961486173378874,
      "loss": 3.9416,
      "step": 116320
    },
    {
      "epoch": 0.24235416666666668,
      "grad_norm": 0.7972802519798279,
      "learning_rate": 0.00025960813176863164,
      "loss": 3.9194,
      "step": 116330
    },
    {
      "epoch": 0.242375,
      "grad_norm": 0.9493650794029236,
      "learning_rate": 0.0002596014013300109,
      "loss": 3.9079,
      "step": 116340
    },
    {
      "epoch": 0.24239583333333334,
      "grad_norm": 0.7626553177833557,
      "learning_rate": 0.00025959467041795534,
      "loss": 3.8957,
      "step": 116350
    },
    {
      "epoch": 0.24241666666666667,
      "grad_norm": 0.7938113212585449,
      "learning_rate": 0.00025958793903249427,
      "loss": 3.9083,
      "step": 116360
    },
    {
      "epoch": 0.2424375,
      "grad_norm": 0.8069543242454529,
      "learning_rate": 0.0002595812071736566,
      "loss": 3.971,
      "step": 116370
    },
    {
      "epoch": 0.24245833333333333,
      "grad_norm": 0.7843195199966431,
      "learning_rate": 0.00025957447484147153,
      "loss": 3.9601,
      "step": 116380
    },
    {
      "epoch": 0.24247916666666666,
      "grad_norm": 0.7222977876663208,
      "learning_rate": 0.00025956774203596814,
      "loss": 3.6944,
      "step": 116390
    },
    {
      "epoch": 0.2425,
      "grad_norm": 0.6622121334075928,
      "learning_rate": 0.00025956100875717544,
      "loss": 3.7766,
      "step": 116400
    },
    {
      "epoch": 0.24252083333333332,
      "grad_norm": 0.6966058611869812,
      "learning_rate": 0.0002595542750051225,
      "loss": 3.6411,
      "step": 116410
    },
    {
      "epoch": 0.24254166666666666,
      "grad_norm": 0.9141052961349487,
      "learning_rate": 0.00025954754077983855,
      "loss": 3.9816,
      "step": 116420
    },
    {
      "epoch": 0.2425625,
      "grad_norm": 0.727435290813446,
      "learning_rate": 0.00025954080608135254,
      "loss": 3.7795,
      "step": 116430
    },
    {
      "epoch": 0.24258333333333335,
      "grad_norm": 0.8648117780685425,
      "learning_rate": 0.00025953407090969366,
      "loss": 4.0119,
      "step": 116440
    },
    {
      "epoch": 0.24260416666666668,
      "grad_norm": 0.7691929936408997,
      "learning_rate": 0.0002595273352648909,
      "loss": 3.8281,
      "step": 116450
    },
    {
      "epoch": 0.242625,
      "grad_norm": 0.7509002685546875,
      "learning_rate": 0.0002595205991469734,
      "loss": 3.7915,
      "step": 116460
    },
    {
      "epoch": 0.24264583333333334,
      "grad_norm": 0.8490985631942749,
      "learning_rate": 0.0002595138625559703,
      "loss": 3.9081,
      "step": 116470
    },
    {
      "epoch": 0.24266666666666667,
      "grad_norm": 0.8261803388595581,
      "learning_rate": 0.0002595071254919106,
      "loss": 3.9555,
      "step": 116480
    },
    {
      "epoch": 0.2426875,
      "grad_norm": 0.7897732853889465,
      "learning_rate": 0.0002595003879548235,
      "loss": 3.8452,
      "step": 116490
    },
    {
      "epoch": 0.24270833333333333,
      "grad_norm": 0.8003754615783691,
      "learning_rate": 0.0002594936499447381,
      "loss": 3.8708,
      "step": 116500
    },
    {
      "epoch": 0.24272916666666666,
      "grad_norm": 0.7413751482963562,
      "learning_rate": 0.00025948691146168343,
      "loss": 4.0482,
      "step": 116510
    },
    {
      "epoch": 0.24275,
      "grad_norm": 0.6921604871749878,
      "learning_rate": 0.00025948017250568864,
      "loss": 3.9819,
      "step": 116520
    },
    {
      "epoch": 0.24277083333333332,
      "grad_norm": 0.6663542985916138,
      "learning_rate": 0.00025947343307678285,
      "loss": 3.9209,
      "step": 116530
    },
    {
      "epoch": 0.24279166666666666,
      "grad_norm": 0.7911424040794373,
      "learning_rate": 0.00025946669317499513,
      "loss": 4.1013,
      "step": 116540
    },
    {
      "epoch": 0.2428125,
      "grad_norm": 0.7296214699745178,
      "learning_rate": 0.0002594599528003547,
      "loss": 3.9969,
      "step": 116550
    },
    {
      "epoch": 0.24283333333333335,
      "grad_norm": 0.8899838924407959,
      "learning_rate": 0.00025945321195289055,
      "loss": 3.7518,
      "step": 116560
    },
    {
      "epoch": 0.24285416666666668,
      "grad_norm": 0.7114010453224182,
      "learning_rate": 0.00025944647063263186,
      "loss": 3.992,
      "step": 116570
    },
    {
      "epoch": 0.242875,
      "grad_norm": 0.857628583908081,
      "learning_rate": 0.00025943972883960773,
      "loss": 3.8461,
      "step": 116580
    },
    {
      "epoch": 0.24289583333333334,
      "grad_norm": 0.7786334753036499,
      "learning_rate": 0.0002594329865738473,
      "loss": 3.9069,
      "step": 116590
    },
    {
      "epoch": 0.24291666666666667,
      "grad_norm": 0.8355357050895691,
      "learning_rate": 0.00025942624383537967,
      "loss": 3.9935,
      "step": 116600
    },
    {
      "epoch": 0.2429375,
      "grad_norm": 0.8979407548904419,
      "learning_rate": 0.000259419500624234,
      "loss": 3.9506,
      "step": 116610
    },
    {
      "epoch": 0.24295833333333333,
      "grad_norm": 0.6659632921218872,
      "learning_rate": 0.0002594127569404394,
      "loss": 3.8784,
      "step": 116620
    },
    {
      "epoch": 0.24297916666666666,
      "grad_norm": 0.7302885055541992,
      "learning_rate": 0.000259406012784025,
      "loss": 3.7433,
      "step": 116630
    },
    {
      "epoch": 0.243,
      "grad_norm": 0.8123252987861633,
      "learning_rate": 0.0002593992681550199,
      "loss": 4.0612,
      "step": 116640
    },
    {
      "epoch": 0.24302083333333332,
      "grad_norm": 0.7398465275764465,
      "learning_rate": 0.0002593925230534533,
      "loss": 3.9271,
      "step": 116650
    },
    {
      "epoch": 0.24304166666666666,
      "grad_norm": 0.7925382256507874,
      "learning_rate": 0.0002593857774793543,
      "loss": 3.9625,
      "step": 116660
    },
    {
      "epoch": 0.2430625,
      "grad_norm": 0.9005240797996521,
      "learning_rate": 0.00025937903143275203,
      "loss": 3.7249,
      "step": 116670
    },
    {
      "epoch": 0.24308333333333335,
      "grad_norm": 0.789962887763977,
      "learning_rate": 0.0002593722849136756,
      "loss": 3.8014,
      "step": 116680
    },
    {
      "epoch": 0.24310416666666668,
      "grad_norm": 0.8386132121086121,
      "learning_rate": 0.00025936553792215426,
      "loss": 3.8312,
      "step": 116690
    },
    {
      "epoch": 0.243125,
      "grad_norm": 0.7865932583808899,
      "learning_rate": 0.000259358790458217,
      "loss": 3.812,
      "step": 116700
    },
    {
      "epoch": 0.24314583333333334,
      "grad_norm": 0.8433756828308105,
      "learning_rate": 0.00025935204252189314,
      "loss": 3.9282,
      "step": 116710
    },
    {
      "epoch": 0.24316666666666667,
      "grad_norm": 0.7681934833526611,
      "learning_rate": 0.0002593452941132117,
      "loss": 3.7525,
      "step": 116720
    },
    {
      "epoch": 0.2431875,
      "grad_norm": 0.9916110038757324,
      "learning_rate": 0.0002593385452322019,
      "loss": 3.8572,
      "step": 116730
    },
    {
      "epoch": 0.24320833333333333,
      "grad_norm": 0.7875805497169495,
      "learning_rate": 0.0002593317958788928,
      "loss": 3.9969,
      "step": 116740
    },
    {
      "epoch": 0.24322916666666666,
      "grad_norm": 0.7784370183944702,
      "learning_rate": 0.0002593250460533137,
      "loss": 3.9646,
      "step": 116750
    },
    {
      "epoch": 0.24325,
      "grad_norm": 0.8628151416778564,
      "learning_rate": 0.00025931829575549364,
      "loss": 3.9546,
      "step": 116760
    },
    {
      "epoch": 0.24327083333333333,
      "grad_norm": 0.6791853904724121,
      "learning_rate": 0.0002593115449854618,
      "loss": 3.9645,
      "step": 116770
    },
    {
      "epoch": 0.24329166666666666,
      "grad_norm": 0.6625243425369263,
      "learning_rate": 0.00025930479374324737,
      "loss": 3.8641,
      "step": 116780
    },
    {
      "epoch": 0.2433125,
      "grad_norm": 0.782039225101471,
      "learning_rate": 0.0002592980420288795,
      "loss": 3.7476,
      "step": 116790
    },
    {
      "epoch": 0.24333333333333335,
      "grad_norm": 0.7374080419540405,
      "learning_rate": 0.00025929128984238727,
      "loss": 4.0216,
      "step": 116800
    },
    {
      "epoch": 0.24335416666666668,
      "grad_norm": 0.7469167709350586,
      "learning_rate": 0.0002592845371838001,
      "loss": 3.7283,
      "step": 116810
    },
    {
      "epoch": 0.243375,
      "grad_norm": 0.6884095668792725,
      "learning_rate": 0.0002592777840531469,
      "loss": 3.9686,
      "step": 116820
    },
    {
      "epoch": 0.24339583333333334,
      "grad_norm": 0.7887201309204102,
      "learning_rate": 0.0002592710304504568,
      "loss": 3.9597,
      "step": 116830
    },
    {
      "epoch": 0.24341666666666667,
      "grad_norm": 0.7530519962310791,
      "learning_rate": 0.00025926427637575924,
      "loss": 3.8162,
      "step": 116840
    },
    {
      "epoch": 0.2434375,
      "grad_norm": 0.6478872299194336,
      "learning_rate": 0.00025925752182908324,
      "loss": 4.1641,
      "step": 116850
    },
    {
      "epoch": 0.24345833333333333,
      "grad_norm": 0.7160364985466003,
      "learning_rate": 0.000259250766810458,
      "loss": 4.0355,
      "step": 116860
    },
    {
      "epoch": 0.24347916666666666,
      "grad_norm": 0.9682184457778931,
      "learning_rate": 0.00025924401131991267,
      "loss": 3.9978,
      "step": 116870
    },
    {
      "epoch": 0.2435,
      "grad_norm": 0.752261757850647,
      "learning_rate": 0.00025923725535747643,
      "loss": 3.8223,
      "step": 116880
    },
    {
      "epoch": 0.24352083333333333,
      "grad_norm": 0.8060197830200195,
      "learning_rate": 0.00025923049892317854,
      "loss": 3.865,
      "step": 116890
    },
    {
      "epoch": 0.24354166666666666,
      "grad_norm": 0.7600920796394348,
      "learning_rate": 0.0002592237420170481,
      "loss": 3.8748,
      "step": 116900
    },
    {
      "epoch": 0.2435625,
      "grad_norm": 0.8843249082565308,
      "learning_rate": 0.0002592169846391144,
      "loss": 3.8346,
      "step": 116910
    },
    {
      "epoch": 0.24358333333333335,
      "grad_norm": 0.859544038772583,
      "learning_rate": 0.00025921022678940643,
      "loss": 3.7077,
      "step": 116920
    },
    {
      "epoch": 0.24360416666666668,
      "grad_norm": 0.763481855392456,
      "learning_rate": 0.0002592034684679536,
      "loss": 3.902,
      "step": 116930
    },
    {
      "epoch": 0.243625,
      "grad_norm": 0.7508820295333862,
      "learning_rate": 0.000259196709674785,
      "loss": 3.9739,
      "step": 116940
    },
    {
      "epoch": 0.24364583333333334,
      "grad_norm": 0.7567071914672852,
      "learning_rate": 0.00025918995040992974,
      "loss": 3.9304,
      "step": 116950
    },
    {
      "epoch": 0.24366666666666667,
      "grad_norm": 0.7885265946388245,
      "learning_rate": 0.00025918319067341723,
      "loss": 3.9852,
      "step": 116960
    },
    {
      "epoch": 0.2436875,
      "grad_norm": 0.7665534615516663,
      "learning_rate": 0.0002591764304652765,
      "loss": 4.0126,
      "step": 116970
    },
    {
      "epoch": 0.24370833333333333,
      "grad_norm": 0.6745424866676331,
      "learning_rate": 0.00025916966978553683,
      "loss": 3.9742,
      "step": 116980
    },
    {
      "epoch": 0.24372916666666666,
      "grad_norm": 0.7563460469245911,
      "learning_rate": 0.00025916290863422744,
      "loss": 4.0185,
      "step": 116990
    },
    {
      "epoch": 0.24375,
      "grad_norm": 0.7510818243026733,
      "learning_rate": 0.0002591561470113774,
      "loss": 3.8582,
      "step": 117000
    },
    {
      "epoch": 0.24375,
      "eval_loss": 4.26155948638916,
      "eval_runtime": 9.6524,
      "eval_samples_per_second": 1.036,
      "eval_steps_per_second": 0.311,
      "step": 117000
    },
    {
      "epoch": 0.24377083333333333,
      "grad_norm": 0.7554516196250916,
      "learning_rate": 0.0002591493849170161,
      "loss": 4.0088,
      "step": 117010
    },
    {
      "epoch": 0.24379166666666666,
      "grad_norm": 0.6987264752388,
      "learning_rate": 0.00025914262235117257,
      "loss": 3.6363,
      "step": 117020
    },
    {
      "epoch": 0.2438125,
      "grad_norm": 0.7333374619483948,
      "learning_rate": 0.00025913585931387615,
      "loss": 3.9231,
      "step": 117030
    },
    {
      "epoch": 0.24383333333333335,
      "grad_norm": 0.7988362908363342,
      "learning_rate": 0.0002591290958051561,
      "loss": 4.1034,
      "step": 117040
    },
    {
      "epoch": 0.24385416666666668,
      "grad_norm": 0.7397446036338806,
      "learning_rate": 0.00025912233182504143,
      "loss": 3.7541,
      "step": 117050
    },
    {
      "epoch": 0.243875,
      "grad_norm": 0.832311749458313,
      "learning_rate": 0.0002591155673735616,
      "loss": 3.9655,
      "step": 117060
    },
    {
      "epoch": 0.24389583333333334,
      "grad_norm": 0.7686418294906616,
      "learning_rate": 0.0002591088024507456,
      "loss": 3.9101,
      "step": 117070
    },
    {
      "epoch": 0.24391666666666667,
      "grad_norm": 0.7144972681999207,
      "learning_rate": 0.0002591020370566228,
      "loss": 3.9001,
      "step": 117080
    },
    {
      "epoch": 0.2439375,
      "grad_norm": 0.7584365010261536,
      "learning_rate": 0.0002590952711912224,
      "loss": 3.8508,
      "step": 117090
    },
    {
      "epoch": 0.24395833333333333,
      "grad_norm": 0.629894495010376,
      "learning_rate": 0.0002590885048545736,
      "loss": 4.0654,
      "step": 117100
    },
    {
      "epoch": 0.24397916666666666,
      "grad_norm": 0.7575013041496277,
      "learning_rate": 0.00025908173804670565,
      "loss": 3.957,
      "step": 117110
    },
    {
      "epoch": 0.244,
      "grad_norm": 0.8635952472686768,
      "learning_rate": 0.0002590749707676477,
      "loss": 3.7749,
      "step": 117120
    },
    {
      "epoch": 0.24402083333333333,
      "grad_norm": 0.6803057193756104,
      "learning_rate": 0.00025906820301742914,
      "loss": 3.778,
      "step": 117130
    },
    {
      "epoch": 0.24404166666666666,
      "grad_norm": 0.7499809861183167,
      "learning_rate": 0.0002590614347960791,
      "loss": 3.7579,
      "step": 117140
    },
    {
      "epoch": 0.2440625,
      "grad_norm": 0.8167714476585388,
      "learning_rate": 0.0002590546661036268,
      "loss": 4.0128,
      "step": 117150
    },
    {
      "epoch": 0.24408333333333335,
      "grad_norm": 0.7857744097709656,
      "learning_rate": 0.00025904789694010155,
      "loss": 3.8611,
      "step": 117160
    },
    {
      "epoch": 0.24410416666666668,
      "grad_norm": 0.9107292294502258,
      "learning_rate": 0.0002590411273055325,
      "loss": 3.9661,
      "step": 117170
    },
    {
      "epoch": 0.244125,
      "grad_norm": 0.7575744986534119,
      "learning_rate": 0.000259034357199949,
      "loss": 3.7755,
      "step": 117180
    },
    {
      "epoch": 0.24414583333333334,
      "grad_norm": 0.8039848208427429,
      "learning_rate": 0.0002590275866233802,
      "loss": 3.7417,
      "step": 117190
    },
    {
      "epoch": 0.24416666666666667,
      "grad_norm": 0.8951263427734375,
      "learning_rate": 0.00025902081557585533,
      "loss": 3.9693,
      "step": 117200
    },
    {
      "epoch": 0.2441875,
      "grad_norm": 0.6488986611366272,
      "learning_rate": 0.0002590140440574038,
      "loss": 3.9269,
      "step": 117210
    },
    {
      "epoch": 0.24420833333333333,
      "grad_norm": 0.7462566494941711,
      "learning_rate": 0.00025900727206805467,
      "loss": 3.9519,
      "step": 117220
    },
    {
      "epoch": 0.24422916666666666,
      "grad_norm": 0.7055051326751709,
      "learning_rate": 0.0002590004996078373,
      "loss": 3.9398,
      "step": 117230
    },
    {
      "epoch": 0.24425,
      "grad_norm": 0.7725315093994141,
      "learning_rate": 0.00025899372667678093,
      "loss": 3.8799,
      "step": 117240
    },
    {
      "epoch": 0.24427083333333333,
      "grad_norm": 0.813205361366272,
      "learning_rate": 0.00025898695327491474,
      "loss": 3.7179,
      "step": 117250
    },
    {
      "epoch": 0.24429166666666666,
      "grad_norm": 0.8894073963165283,
      "learning_rate": 0.0002589801794022681,
      "loss": 3.8764,
      "step": 117260
    },
    {
      "epoch": 0.2443125,
      "grad_norm": 0.7551104426383972,
      "learning_rate": 0.00025897340505887025,
      "loss": 3.8527,
      "step": 117270
    },
    {
      "epoch": 0.24433333333333335,
      "grad_norm": 0.8153460025787354,
      "learning_rate": 0.0002589666302447504,
      "loss": 3.8497,
      "step": 117280
    },
    {
      "epoch": 0.24435416666666668,
      "grad_norm": 0.6907312273979187,
      "learning_rate": 0.0002589598549599378,
      "loss": 3.8355,
      "step": 117290
    },
    {
      "epoch": 0.244375,
      "grad_norm": 0.8143213391304016,
      "learning_rate": 0.00025895307920446186,
      "loss": 3.9018,
      "step": 117300
    },
    {
      "epoch": 0.24439583333333334,
      "grad_norm": 0.791246771812439,
      "learning_rate": 0.0002589463029783517,
      "loss": 3.9516,
      "step": 117310
    },
    {
      "epoch": 0.24441666666666667,
      "grad_norm": 0.8003825545310974,
      "learning_rate": 0.00025893952628163657,
      "loss": 3.6461,
      "step": 117320
    },
    {
      "epoch": 0.2444375,
      "grad_norm": 0.7607778906822205,
      "learning_rate": 0.0002589327491143458,
      "loss": 3.7387,
      "step": 117330
    },
    {
      "epoch": 0.24445833333333333,
      "grad_norm": 0.9828870892524719,
      "learning_rate": 0.0002589259714765088,
      "loss": 3.9542,
      "step": 117340
    },
    {
      "epoch": 0.24447916666666666,
      "grad_norm": 0.7388181090354919,
      "learning_rate": 0.0002589191933681546,
      "loss": 3.8616,
      "step": 117350
    },
    {
      "epoch": 0.2445,
      "grad_norm": 0.7895506024360657,
      "learning_rate": 0.00025891241478931263,
      "loss": 3.8009,
      "step": 117360
    },
    {
      "epoch": 0.24452083333333333,
      "grad_norm": 0.8436576724052429,
      "learning_rate": 0.00025890563574001215,
      "loss": 3.9693,
      "step": 117370
    },
    {
      "epoch": 0.24454166666666666,
      "grad_norm": 0.7068819403648376,
      "learning_rate": 0.0002588988562202824,
      "loss": 3.797,
      "step": 117380
    },
    {
      "epoch": 0.2445625,
      "grad_norm": 0.7679857015609741,
      "learning_rate": 0.00025889207623015277,
      "loss": 3.7666,
      "step": 117390
    },
    {
      "epoch": 0.24458333333333335,
      "grad_norm": 1.0029438734054565,
      "learning_rate": 0.00025888529576965246,
      "loss": 3.9507,
      "step": 117400
    },
    {
      "epoch": 0.24460416666666668,
      "grad_norm": 0.9146065711975098,
      "learning_rate": 0.00025887851483881073,
      "loss": 3.7531,
      "step": 117410
    },
    {
      "epoch": 0.244625,
      "grad_norm": 0.8020023703575134,
      "learning_rate": 0.00025887173343765694,
      "loss": 3.8742,
      "step": 117420
    },
    {
      "epoch": 0.24464583333333334,
      "grad_norm": 0.8427119851112366,
      "learning_rate": 0.0002588649515662203,
      "loss": 3.9582,
      "step": 117430
    },
    {
      "epoch": 0.24466666666666667,
      "grad_norm": 0.859825074672699,
      "learning_rate": 0.0002588581692245302,
      "loss": 3.9081,
      "step": 117440
    },
    {
      "epoch": 0.2446875,
      "grad_norm": 0.7488427758216858,
      "learning_rate": 0.00025885138641261587,
      "loss": 3.7319,
      "step": 117450
    },
    {
      "epoch": 0.24470833333333333,
      "grad_norm": 0.7474827766418457,
      "learning_rate": 0.0002588446031305067,
      "loss": 4.1,
      "step": 117460
    },
    {
      "epoch": 0.24472916666666666,
      "grad_norm": 0.7461313009262085,
      "learning_rate": 0.00025883781937823187,
      "loss": 3.8202,
      "step": 117470
    },
    {
      "epoch": 0.24475,
      "grad_norm": 0.750504732131958,
      "learning_rate": 0.0002588310351558208,
      "loss": 3.8696,
      "step": 117480
    },
    {
      "epoch": 0.24477083333333333,
      "grad_norm": 0.7263540625572205,
      "learning_rate": 0.0002588242504633027,
      "loss": 3.7726,
      "step": 117490
    },
    {
      "epoch": 0.24479166666666666,
      "grad_norm": 0.8759488463401794,
      "learning_rate": 0.0002588174653007069,
      "loss": 3.8658,
      "step": 117500
    },
    {
      "epoch": 0.2448125,
      "grad_norm": 0.9535866379737854,
      "learning_rate": 0.00025881067966806277,
      "loss": 3.8374,
      "step": 117510
    },
    {
      "epoch": 0.24483333333333332,
      "grad_norm": 0.7921175956726074,
      "learning_rate": 0.00025880389356539957,
      "loss": 3.7613,
      "step": 117520
    },
    {
      "epoch": 0.24485416666666668,
      "grad_norm": 0.8246281743049622,
      "learning_rate": 0.00025879710699274654,
      "loss": 3.7673,
      "step": 117530
    },
    {
      "epoch": 0.244875,
      "grad_norm": 0.7820576429367065,
      "learning_rate": 0.0002587903199501331,
      "loss": 4.0497,
      "step": 117540
    },
    {
      "epoch": 0.24489583333333334,
      "grad_norm": 0.7198566794395447,
      "learning_rate": 0.00025878353243758854,
      "loss": 3.9102,
      "step": 117550
    },
    {
      "epoch": 0.24491666666666667,
      "grad_norm": 0.7308896780014038,
      "learning_rate": 0.00025877674445514223,
      "loss": 3.9733,
      "step": 117560
    },
    {
      "epoch": 0.2449375,
      "grad_norm": 0.798051118850708,
      "learning_rate": 0.0002587699560028234,
      "loss": 3.7004,
      "step": 117570
    },
    {
      "epoch": 0.24495833333333333,
      "grad_norm": 1.5684512853622437,
      "learning_rate": 0.00025876316708066144,
      "loss": 4.0953,
      "step": 117580
    },
    {
      "epoch": 0.24497916666666666,
      "grad_norm": 0.7186267971992493,
      "learning_rate": 0.0002587563776886857,
      "loss": 3.7871,
      "step": 117590
    },
    {
      "epoch": 0.245,
      "grad_norm": 0.7487741112709045,
      "learning_rate": 0.00025874958782692533,
      "loss": 3.9525,
      "step": 117600
    },
    {
      "epoch": 0.24502083333333333,
      "grad_norm": 0.7397080659866333,
      "learning_rate": 0.00025874279749540984,
      "loss": 3.9106,
      "step": 117610
    },
    {
      "epoch": 0.24504166666666666,
      "grad_norm": 0.8941218256950378,
      "learning_rate": 0.0002587360066941686,
      "loss": 3.7492,
      "step": 117620
    },
    {
      "epoch": 0.2450625,
      "grad_norm": 0.7385103702545166,
      "learning_rate": 0.0002587292154232307,
      "loss": 3.9872,
      "step": 117630
    },
    {
      "epoch": 0.24508333333333332,
      "grad_norm": 0.6979750990867615,
      "learning_rate": 0.00025872242368262573,
      "loss": 4.0853,
      "step": 117640
    },
    {
      "epoch": 0.24510416666666668,
      "grad_norm": 0.7693807482719421,
      "learning_rate": 0.00025871563147238287,
      "loss": 3.9558,
      "step": 117650
    },
    {
      "epoch": 0.245125,
      "grad_norm": 0.7990791201591492,
      "learning_rate": 0.00025870883879253154,
      "loss": 3.9242,
      "step": 117660
    },
    {
      "epoch": 0.24514583333333334,
      "grad_norm": 0.8244684934616089,
      "learning_rate": 0.00025870204564310104,
      "loss": 3.8094,
      "step": 117670
    },
    {
      "epoch": 0.24516666666666667,
      "grad_norm": 0.8368804454803467,
      "learning_rate": 0.0002586952520241208,
      "loss": 4.0372,
      "step": 117680
    },
    {
      "epoch": 0.2451875,
      "grad_norm": 0.8076561093330383,
      "learning_rate": 0.00025868845793562,
      "loss": 3.9389,
      "step": 117690
    },
    {
      "epoch": 0.24520833333333333,
      "grad_norm": 0.9318450093269348,
      "learning_rate": 0.0002586816633776281,
      "loss": 3.8375,
      "step": 117700
    },
    {
      "epoch": 0.24522916666666666,
      "grad_norm": 0.7877236008644104,
      "learning_rate": 0.00025867486835017445,
      "loss": 4.0749,
      "step": 117710
    },
    {
      "epoch": 0.24525,
      "grad_norm": 0.6671950817108154,
      "learning_rate": 0.00025866807285328844,
      "loss": 4.0142,
      "step": 117720
    },
    {
      "epoch": 0.24527083333333333,
      "grad_norm": 0.9261797070503235,
      "learning_rate": 0.0002586612768869993,
      "loss": 3.9154,
      "step": 117730
    },
    {
      "epoch": 0.24529166666666666,
      "grad_norm": 0.8583394885063171,
      "learning_rate": 0.00025865448045133646,
      "loss": 3.801,
      "step": 117740
    },
    {
      "epoch": 0.2453125,
      "grad_norm": 0.7578561305999756,
      "learning_rate": 0.0002586476835463293,
      "loss": 3.9084,
      "step": 117750
    },
    {
      "epoch": 0.24533333333333332,
      "grad_norm": 0.7461709976196289,
      "learning_rate": 0.00025864088617200717,
      "loss": 4.0578,
      "step": 117760
    },
    {
      "epoch": 0.24535416666666668,
      "grad_norm": 0.6663042902946472,
      "learning_rate": 0.0002586340883283994,
      "loss": 3.8212,
      "step": 117770
    },
    {
      "epoch": 0.245375,
      "grad_norm": 0.8195911645889282,
      "learning_rate": 0.0002586272900155353,
      "loss": 3.8269,
      "step": 117780
    },
    {
      "epoch": 0.24539583333333334,
      "grad_norm": 0.7312809228897095,
      "learning_rate": 0.00025862049123344437,
      "loss": 3.8748,
      "step": 117790
    },
    {
      "epoch": 0.24541666666666667,
      "grad_norm": 0.7168952822685242,
      "learning_rate": 0.0002586136919821559,
      "loss": 3.8224,
      "step": 117800
    },
    {
      "epoch": 0.2454375,
      "grad_norm": 0.6587426662445068,
      "learning_rate": 0.0002586068922616993,
      "loss": 3.8837,
      "step": 117810
    },
    {
      "epoch": 0.24545833333333333,
      "grad_norm": 0.7248347997665405,
      "learning_rate": 0.0002586000920721039,
      "loss": 3.8846,
      "step": 117820
    },
    {
      "epoch": 0.24547916666666666,
      "grad_norm": 0.9438204169273376,
      "learning_rate": 0.00025859329141339905,
      "loss": 3.8208,
      "step": 117830
    },
    {
      "epoch": 0.2455,
      "grad_norm": 0.7446009516716003,
      "learning_rate": 0.00025858649028561424,
      "loss": 3.6054,
      "step": 117840
    },
    {
      "epoch": 0.24552083333333333,
      "grad_norm": 0.7440967559814453,
      "learning_rate": 0.0002585796886887787,
      "loss": 3.9672,
      "step": 117850
    },
    {
      "epoch": 0.24554166666666666,
      "grad_norm": 0.8069555759429932,
      "learning_rate": 0.0002585728866229219,
      "loss": 4.0227,
      "step": 117860
    },
    {
      "epoch": 0.2455625,
      "grad_norm": 0.6850826144218445,
      "learning_rate": 0.0002585660840880732,
      "loss": 3.7899,
      "step": 117870
    },
    {
      "epoch": 0.24558333333333332,
      "grad_norm": 0.8871257901191711,
      "learning_rate": 0.00025855928108426204,
      "loss": 3.8527,
      "step": 117880
    },
    {
      "epoch": 0.24560416666666668,
      "grad_norm": 0.7395383715629578,
      "learning_rate": 0.0002585524776115177,
      "loss": 3.9098,
      "step": 117890
    },
    {
      "epoch": 0.245625,
      "grad_norm": 0.8603458404541016,
      "learning_rate": 0.00025854567366986967,
      "loss": 4.0497,
      "step": 117900
    },
    {
      "epoch": 0.24564583333333334,
      "grad_norm": 0.848872721195221,
      "learning_rate": 0.0002585388692593473,
      "loss": 3.7729,
      "step": 117910
    },
    {
      "epoch": 0.24566666666666667,
      "grad_norm": 0.8818458318710327,
      "learning_rate": 0.00025853206437997993,
      "loss": 3.8417,
      "step": 117920
    },
    {
      "epoch": 0.2456875,
      "grad_norm": 0.8350204229354858,
      "learning_rate": 0.00025852525903179705,
      "loss": 3.9054,
      "step": 117930
    },
    {
      "epoch": 0.24570833333333333,
      "grad_norm": 0.8009337782859802,
      "learning_rate": 0.0002585184532148279,
      "loss": 3.8578,
      "step": 117940
    },
    {
      "epoch": 0.24572916666666667,
      "grad_norm": 0.7838413715362549,
      "learning_rate": 0.0002585116469291021,
      "loss": 3.8416,
      "step": 117950
    },
    {
      "epoch": 0.24575,
      "grad_norm": 0.7169784307479858,
      "learning_rate": 0.00025850484017464893,
      "loss": 3.9229,
      "step": 117960
    },
    {
      "epoch": 0.24577083333333333,
      "grad_norm": 0.7186762094497681,
      "learning_rate": 0.0002584980329514978,
      "loss": 4.0552,
      "step": 117970
    },
    {
      "epoch": 0.24579166666666666,
      "grad_norm": 0.6634181141853333,
      "learning_rate": 0.00025849122525967806,
      "loss": 3.8731,
      "step": 117980
    },
    {
      "epoch": 0.2458125,
      "grad_norm": 0.7562337517738342,
      "learning_rate": 0.0002584844170992192,
      "loss": 3.7924,
      "step": 117990
    },
    {
      "epoch": 0.24583333333333332,
      "grad_norm": 0.8085762858390808,
      "learning_rate": 0.0002584776084701506,
      "loss": 4.0219,
      "step": 118000
    },
    {
      "epoch": 0.24583333333333332,
      "eval_loss": 4.266958713531494,
      "eval_runtime": 10.2424,
      "eval_samples_per_second": 0.976,
      "eval_steps_per_second": 0.293,
      "step": 118000
    },
    {
      "epoch": 0.24585416666666668,
      "grad_norm": 0.8509557843208313,
      "learning_rate": 0.0002584707993725017,
      "loss": 3.8858,
      "step": 118010
    },
    {
      "epoch": 0.245875,
      "grad_norm": 0.7315271496772766,
      "learning_rate": 0.0002584639898063018,
      "loss": 3.9974,
      "step": 118020
    },
    {
      "epoch": 0.24589583333333334,
      "grad_norm": 0.7400884628295898,
      "learning_rate": 0.0002584571797715805,
      "loss": 3.7917,
      "step": 118030
    },
    {
      "epoch": 0.24591666666666667,
      "grad_norm": 0.823716402053833,
      "learning_rate": 0.00025845036926836704,
      "loss": 3.9015,
      "step": 118040
    },
    {
      "epoch": 0.2459375,
      "grad_norm": 0.7612546682357788,
      "learning_rate": 0.0002584435582966909,
      "loss": 3.9922,
      "step": 118050
    },
    {
      "epoch": 0.24595833333333333,
      "grad_norm": 0.8200158476829529,
      "learning_rate": 0.0002584367468565816,
      "loss": 4.0538,
      "step": 118060
    },
    {
      "epoch": 0.24597916666666667,
      "grad_norm": 1.0333000421524048,
      "learning_rate": 0.00025842993494806836,
      "loss": 3.9545,
      "step": 118070
    },
    {
      "epoch": 0.246,
      "grad_norm": 0.754226565361023,
      "learning_rate": 0.00025842312257118083,
      "loss": 3.7857,
      "step": 118080
    },
    {
      "epoch": 0.24602083333333333,
      "grad_norm": 0.7303328514099121,
      "learning_rate": 0.0002584163097259483,
      "loss": 3.8981,
      "step": 118090
    },
    {
      "epoch": 0.24604166666666666,
      "grad_norm": 0.9526427984237671,
      "learning_rate": 0.0002584094964124002,
      "loss": 3.9291,
      "step": 118100
    },
    {
      "epoch": 0.2460625,
      "grad_norm": 0.8157503604888916,
      "learning_rate": 0.000258402682630566,
      "loss": 3.9873,
      "step": 118110
    },
    {
      "epoch": 0.24608333333333332,
      "grad_norm": 0.7763271927833557,
      "learning_rate": 0.0002583958683804751,
      "loss": 3.786,
      "step": 118120
    },
    {
      "epoch": 0.24610416666666668,
      "grad_norm": 0.8745626211166382,
      "learning_rate": 0.00025838905366215695,
      "loss": 3.8689,
      "step": 118130
    },
    {
      "epoch": 0.246125,
      "grad_norm": 0.7494639158248901,
      "learning_rate": 0.000258382238475641,
      "loss": 3.9522,
      "step": 118140
    },
    {
      "epoch": 0.24614583333333334,
      "grad_norm": 0.7587249279022217,
      "learning_rate": 0.0002583754228209567,
      "loss": 4.0,
      "step": 118150
    },
    {
      "epoch": 0.24616666666666667,
      "grad_norm": 0.7290973663330078,
      "learning_rate": 0.0002583686066981335,
      "loss": 3.775,
      "step": 118160
    },
    {
      "epoch": 0.2461875,
      "grad_norm": 0.7882353067398071,
      "learning_rate": 0.0002583617901072008,
      "loss": 4.0013,
      "step": 118170
    },
    {
      "epoch": 0.24620833333333333,
      "grad_norm": 0.7927708625793457,
      "learning_rate": 0.000258354973048188,
      "loss": 3.7872,
      "step": 118180
    },
    {
      "epoch": 0.24622916666666667,
      "grad_norm": 0.7805205583572388,
      "learning_rate": 0.00025834815552112467,
      "loss": 3.8634,
      "step": 118190
    },
    {
      "epoch": 0.24625,
      "grad_norm": 0.7336538434028625,
      "learning_rate": 0.00025834133752604014,
      "loss": 3.8598,
      "step": 118200
    },
    {
      "epoch": 0.24627083333333333,
      "grad_norm": 0.8449468612670898,
      "learning_rate": 0.0002583345190629639,
      "loss": 3.8523,
      "step": 118210
    },
    {
      "epoch": 0.24629166666666666,
      "grad_norm": 0.6761786341667175,
      "learning_rate": 0.0002583277001319255,
      "loss": 3.9557,
      "step": 118220
    },
    {
      "epoch": 0.2463125,
      "grad_norm": 0.7736433148384094,
      "learning_rate": 0.00025832088073295427,
      "loss": 3.7703,
      "step": 118230
    },
    {
      "epoch": 0.24633333333333332,
      "grad_norm": 1.455973744392395,
      "learning_rate": 0.00025831406086607975,
      "loss": 3.8762,
      "step": 118240
    },
    {
      "epoch": 0.24635416666666668,
      "grad_norm": 0.7978841662406921,
      "learning_rate": 0.00025830724053133134,
      "loss": 3.7365,
      "step": 118250
    },
    {
      "epoch": 0.246375,
      "grad_norm": 0.7907574772834778,
      "learning_rate": 0.00025830041972873846,
      "loss": 3.8346,
      "step": 118260
    },
    {
      "epoch": 0.24639583333333334,
      "grad_norm": 0.8256410360336304,
      "learning_rate": 0.00025829359845833073,
      "loss": 4.0863,
      "step": 118270
    },
    {
      "epoch": 0.24641666666666667,
      "grad_norm": 0.8104029893875122,
      "learning_rate": 0.00025828677672013747,
      "loss": 3.8549,
      "step": 118280
    },
    {
      "epoch": 0.2464375,
      "grad_norm": 0.7649282813072205,
      "learning_rate": 0.0002582799545141882,
      "loss": 3.7909,
      "step": 118290
    },
    {
      "epoch": 0.24645833333333333,
      "grad_norm": 0.7104467749595642,
      "learning_rate": 0.0002582731318405124,
      "loss": 3.8779,
      "step": 118300
    },
    {
      "epoch": 0.24647916666666667,
      "grad_norm": 0.7515720725059509,
      "learning_rate": 0.00025826630869913954,
      "loss": 4.0247,
      "step": 118310
    },
    {
      "epoch": 0.2465,
      "grad_norm": 0.7575503587722778,
      "learning_rate": 0.00025825948509009905,
      "loss": 3.8245,
      "step": 118320
    },
    {
      "epoch": 0.24652083333333333,
      "grad_norm": 0.7842723727226257,
      "learning_rate": 0.0002582526610134205,
      "loss": 3.7684,
      "step": 118330
    },
    {
      "epoch": 0.24654166666666666,
      "grad_norm": 0.7189513444900513,
      "learning_rate": 0.00025824583646913315,
      "loss": 3.698,
      "step": 118340
    },
    {
      "epoch": 0.2465625,
      "grad_norm": 0.9049310088157654,
      "learning_rate": 0.0002582390114572668,
      "loss": 3.7851,
      "step": 118350
    },
    {
      "epoch": 0.24658333333333332,
      "grad_norm": 0.7991364002227783,
      "learning_rate": 0.0002582321859778507,
      "loss": 3.8576,
      "step": 118360
    },
    {
      "epoch": 0.24660416666666668,
      "grad_norm": 0.7606180310249329,
      "learning_rate": 0.00025822536003091437,
      "loss": 4.0814,
      "step": 118370
    },
    {
      "epoch": 0.246625,
      "grad_norm": 0.6880004405975342,
      "learning_rate": 0.00025821853361648737,
      "loss": 3.8324,
      "step": 118380
    },
    {
      "epoch": 0.24664583333333334,
      "grad_norm": 0.6642782092094421,
      "learning_rate": 0.0002582117067345991,
      "loss": 3.9126,
      "step": 118390
    },
    {
      "epoch": 0.24666666666666667,
      "grad_norm": 0.7893816828727722,
      "learning_rate": 0.0002582048793852791,
      "loss": 3.7172,
      "step": 118400
    },
    {
      "epoch": 0.2466875,
      "grad_norm": 0.7701625227928162,
      "learning_rate": 0.0002581980515685569,
      "loss": 3.8943,
      "step": 118410
    },
    {
      "epoch": 0.24670833333333334,
      "grad_norm": 0.7917223572731018,
      "learning_rate": 0.0002581912232844619,
      "loss": 3.9412,
      "step": 118420
    },
    {
      "epoch": 0.24672916666666667,
      "grad_norm": 0.6916700601577759,
      "learning_rate": 0.0002581843945330236,
      "loss": 4.0062,
      "step": 118430
    },
    {
      "epoch": 0.24675,
      "grad_norm": 0.7683937549591064,
      "learning_rate": 0.00025817756531427164,
      "loss": 3.9351,
      "step": 118440
    },
    {
      "epoch": 0.24677083333333333,
      "grad_norm": 0.7596041560173035,
      "learning_rate": 0.00025817073562823536,
      "loss": 3.9528,
      "step": 118450
    },
    {
      "epoch": 0.24679166666666666,
      "grad_norm": 0.7966545224189758,
      "learning_rate": 0.0002581639054749443,
      "loss": 3.8081,
      "step": 118460
    },
    {
      "epoch": 0.2468125,
      "grad_norm": 0.7783086895942688,
      "learning_rate": 0.000258157074854428,
      "loss": 3.9701,
      "step": 118470
    },
    {
      "epoch": 0.24683333333333332,
      "grad_norm": 0.7720364928245544,
      "learning_rate": 0.000258150243766716,
      "loss": 3.8943,
      "step": 118480
    },
    {
      "epoch": 0.24685416666666668,
      "grad_norm": 0.7991997003555298,
      "learning_rate": 0.0002581434122118377,
      "loss": 3.8773,
      "step": 118490
    },
    {
      "epoch": 0.246875,
      "grad_norm": 0.8031527400016785,
      "learning_rate": 0.00025813658018982263,
      "loss": 3.8566,
      "step": 118500
    },
    {
      "epoch": 0.24689583333333334,
      "grad_norm": 0.7115350961685181,
      "learning_rate": 0.0002581297477007004,
      "loss": 3.81,
      "step": 118510
    },
    {
      "epoch": 0.24691666666666667,
      "grad_norm": 0.8297569751739502,
      "learning_rate": 0.0002581229147445005,
      "loss": 3.9956,
      "step": 118520
    },
    {
      "epoch": 0.2469375,
      "grad_norm": 0.6959481239318848,
      "learning_rate": 0.0002581160813212523,
      "loss": 3.8531,
      "step": 118530
    },
    {
      "epoch": 0.24695833333333334,
      "grad_norm": 0.7457829117774963,
      "learning_rate": 0.0002581092474309855,
      "loss": 3.9337,
      "step": 118540
    },
    {
      "epoch": 0.24697916666666667,
      "grad_norm": 0.7139862179756165,
      "learning_rate": 0.0002581024130737295,
      "loss": 3.8651,
      "step": 118550
    },
    {
      "epoch": 0.247,
      "grad_norm": 0.8388549089431763,
      "learning_rate": 0.0002580955782495139,
      "loss": 3.8096,
      "step": 118560
    },
    {
      "epoch": 0.24702083333333333,
      "grad_norm": 0.8134562969207764,
      "learning_rate": 0.0002580887429583681,
      "loss": 3.8764,
      "step": 118570
    },
    {
      "epoch": 0.24704166666666666,
      "grad_norm": 0.7748236060142517,
      "learning_rate": 0.0002580819072003218,
      "loss": 3.9372,
      "step": 118580
    },
    {
      "epoch": 0.2470625,
      "grad_norm": 0.8163461685180664,
      "learning_rate": 0.00025807507097540445,
      "loss": 3.9046,
      "step": 118590
    },
    {
      "epoch": 0.24708333333333332,
      "grad_norm": 0.7864865064620972,
      "learning_rate": 0.0002580682342836455,
      "loss": 3.9183,
      "step": 118600
    },
    {
      "epoch": 0.24710416666666668,
      "grad_norm": 0.6933535933494568,
      "learning_rate": 0.00025806139712507465,
      "loss": 3.8614,
      "step": 118610
    },
    {
      "epoch": 0.247125,
      "grad_norm": 0.7521572709083557,
      "learning_rate": 0.0002580545594997213,
      "loss": 3.9273,
      "step": 118620
    },
    {
      "epoch": 0.24714583333333334,
      "grad_norm": 0.8213915824890137,
      "learning_rate": 0.00025804772140761503,
      "loss": 3.9741,
      "step": 118630
    },
    {
      "epoch": 0.24716666666666667,
      "grad_norm": 0.8198223114013672,
      "learning_rate": 0.00025804088284878536,
      "loss": 3.7938,
      "step": 118640
    },
    {
      "epoch": 0.2471875,
      "grad_norm": 0.7838565111160278,
      "learning_rate": 0.00025803404382326184,
      "loss": 3.6433,
      "step": 118650
    },
    {
      "epoch": 0.24720833333333334,
      "grad_norm": 0.7857825756072998,
      "learning_rate": 0.000258027204331074,
      "loss": 3.8687,
      "step": 118660
    },
    {
      "epoch": 0.24722916666666667,
      "grad_norm": 0.7897281646728516,
      "learning_rate": 0.0002580203643722514,
      "loss": 3.7845,
      "step": 118670
    },
    {
      "epoch": 0.24725,
      "grad_norm": 0.7169413566589355,
      "learning_rate": 0.0002580135239468236,
      "loss": 3.9585,
      "step": 118680
    },
    {
      "epoch": 0.24727083333333333,
      "grad_norm": 0.714391827583313,
      "learning_rate": 0.00025800668305482014,
      "loss": 3.9187,
      "step": 118690
    },
    {
      "epoch": 0.24729166666666666,
      "grad_norm": 0.874221920967102,
      "learning_rate": 0.00025799984169627054,
      "loss": 3.7858,
      "step": 118700
    },
    {
      "epoch": 0.2473125,
      "grad_norm": 0.9348215460777283,
      "learning_rate": 0.0002579929998712044,
      "loss": 3.8379,
      "step": 118710
    },
    {
      "epoch": 0.24733333333333332,
      "grad_norm": 0.7128881812095642,
      "learning_rate": 0.0002579861575796512,
      "loss": 3.8892,
      "step": 118720
    },
    {
      "epoch": 0.24735416666666668,
      "grad_norm": 0.785354495048523,
      "learning_rate": 0.0002579793148216406,
      "loss": 3.9584,
      "step": 118730
    },
    {
      "epoch": 0.247375,
      "grad_norm": 0.7651207447052002,
      "learning_rate": 0.000257972471597202,
      "loss": 3.8266,
      "step": 118740
    },
    {
      "epoch": 0.24739583333333334,
      "grad_norm": 0.7556189894676208,
      "learning_rate": 0.0002579656279063652,
      "loss": 3.9462,
      "step": 118750
    },
    {
      "epoch": 0.24741666666666667,
      "grad_norm": 0.7322025895118713,
      "learning_rate": 0.00025795878374915957,
      "loss": 3.966,
      "step": 118760
    },
    {
      "epoch": 0.2474375,
      "grad_norm": 0.7910550236701965,
      "learning_rate": 0.0002579519391256147,
      "loss": 3.9621,
      "step": 118770
    },
    {
      "epoch": 0.24745833333333334,
      "grad_norm": 0.8131060004234314,
      "learning_rate": 0.0002579450940357602,
      "loss": 3.7817,
      "step": 118780
    },
    {
      "epoch": 0.24747916666666667,
      "grad_norm": 0.7775981426239014,
      "learning_rate": 0.0002579382484796256,
      "loss": 3.7924,
      "step": 118790
    },
    {
      "epoch": 0.2475,
      "grad_norm": 0.7095739841461182,
      "learning_rate": 0.00025793140245724053,
      "loss": 3.919,
      "step": 118800
    },
    {
      "epoch": 0.24752083333333333,
      "grad_norm": 0.808732807636261,
      "learning_rate": 0.0002579245559686345,
      "loss": 3.6478,
      "step": 118810
    },
    {
      "epoch": 0.24754166666666666,
      "grad_norm": 0.7501935958862305,
      "learning_rate": 0.0002579177090138371,
      "loss": 4.0657,
      "step": 118820
    },
    {
      "epoch": 0.2475625,
      "grad_norm": 0.7679192423820496,
      "learning_rate": 0.0002579108615928779,
      "loss": 3.9001,
      "step": 118830
    },
    {
      "epoch": 0.24758333333333332,
      "grad_norm": 0.831760823726654,
      "learning_rate": 0.00025790401370578655,
      "loss": 3.9945,
      "step": 118840
    },
    {
      "epoch": 0.24760416666666665,
      "grad_norm": 0.7904289960861206,
      "learning_rate": 0.00025789716535259255,
      "loss": 3.8589,
      "step": 118850
    },
    {
      "epoch": 0.247625,
      "grad_norm": 0.7790654301643372,
      "learning_rate": 0.0002578903165333255,
      "loss": 3.8282,
      "step": 118860
    },
    {
      "epoch": 0.24764583333333334,
      "grad_norm": 0.7892662286758423,
      "learning_rate": 0.000257883467248015,
      "loss": 3.9182,
      "step": 118870
    },
    {
      "epoch": 0.24766666666666667,
      "grad_norm": 0.7266308069229126,
      "learning_rate": 0.0002578766174966906,
      "loss": 3.9661,
      "step": 118880
    },
    {
      "epoch": 0.2476875,
      "grad_norm": 0.8332687020301819,
      "learning_rate": 0.0002578697672793819,
      "loss": 4.0452,
      "step": 118890
    },
    {
      "epoch": 0.24770833333333334,
      "grad_norm": 0.8307802081108093,
      "learning_rate": 0.0002578629165961185,
      "loss": 3.9783,
      "step": 118900
    },
    {
      "epoch": 0.24772916666666667,
      "grad_norm": 0.7504441738128662,
      "learning_rate": 0.00025785606544693004,
      "loss": 4.0456,
      "step": 118910
    },
    {
      "epoch": 0.24775,
      "grad_norm": 0.9212787747383118,
      "learning_rate": 0.00025784921383184605,
      "loss": 3.9358,
      "step": 118920
    },
    {
      "epoch": 0.24777083333333333,
      "grad_norm": 0.8976601362228394,
      "learning_rate": 0.00025784236175089615,
      "loss": 3.8662,
      "step": 118930
    },
    {
      "epoch": 0.24779166666666666,
      "grad_norm": 0.8270803689956665,
      "learning_rate": 0.00025783550920410996,
      "loss": 3.9675,
      "step": 118940
    },
    {
      "epoch": 0.2478125,
      "grad_norm": 0.7403931021690369,
      "learning_rate": 0.00025782865619151696,
      "loss": 3.9215,
      "step": 118950
    },
    {
      "epoch": 0.24783333333333332,
      "grad_norm": 0.7046790719032288,
      "learning_rate": 0.0002578218027131469,
      "loss": 3.9054,
      "step": 118960
    },
    {
      "epoch": 0.24785416666666665,
      "grad_norm": 0.795700192451477,
      "learning_rate": 0.00025781494876902936,
      "loss": 3.8708,
      "step": 118970
    },
    {
      "epoch": 0.247875,
      "grad_norm": 0.7278501391410828,
      "learning_rate": 0.0002578080943591939,
      "loss": 3.8362,
      "step": 118980
    },
    {
      "epoch": 0.24789583333333334,
      "grad_norm": 0.7614150643348694,
      "learning_rate": 0.00025780123948367014,
      "loss": 3.8015,
      "step": 118990
    },
    {
      "epoch": 0.24791666666666667,
      "grad_norm": 0.7986441254615784,
      "learning_rate": 0.0002577943841424877,
      "loss": 3.7756,
      "step": 119000
    },
    {
      "epoch": 0.24791666666666667,
      "eval_loss": 4.25430965423584,
      "eval_runtime": 10.5281,
      "eval_samples_per_second": 0.95,
      "eval_steps_per_second": 0.285,
      "step": 119000
    },
    {
      "epoch": 0.2479375,
      "grad_norm": 0.7183091044425964,
      "learning_rate": 0.0002577875283356762,
      "loss": 3.9684,
      "step": 119010
    },
    {
      "epoch": 0.24795833333333334,
      "grad_norm": 0.7396254539489746,
      "learning_rate": 0.0002577806720632652,
      "loss": 3.8953,
      "step": 119020
    },
    {
      "epoch": 0.24797916666666667,
      "grad_norm": 0.8980370759963989,
      "learning_rate": 0.0002577738153252844,
      "loss": 3.9279,
      "step": 119030
    },
    {
      "epoch": 0.248,
      "grad_norm": 0.6665918827056885,
      "learning_rate": 0.0002577669581217634,
      "loss": 3.829,
      "step": 119040
    },
    {
      "epoch": 0.24802083333333333,
      "grad_norm": 0.7784817814826965,
      "learning_rate": 0.00025776010045273174,
      "loss": 3.906,
      "step": 119050
    },
    {
      "epoch": 0.24804166666666666,
      "grad_norm": 0.6717686653137207,
      "learning_rate": 0.00025775324231821914,
      "loss": 3.9668,
      "step": 119060
    },
    {
      "epoch": 0.2480625,
      "grad_norm": 0.7231533527374268,
      "learning_rate": 0.0002577463837182552,
      "loss": 3.9343,
      "step": 119070
    },
    {
      "epoch": 0.24808333333333332,
      "grad_norm": 0.8420966267585754,
      "learning_rate": 0.0002577395246528695,
      "loss": 3.9364,
      "step": 119080
    },
    {
      "epoch": 0.24810416666666665,
      "grad_norm": 0.6961618661880493,
      "learning_rate": 0.00025773266512209167,
      "loss": 3.9292,
      "step": 119090
    },
    {
      "epoch": 0.248125,
      "grad_norm": 0.7590980529785156,
      "learning_rate": 0.0002577258051259514,
      "loss": 3.8922,
      "step": 119100
    },
    {
      "epoch": 0.24814583333333334,
      "grad_norm": 0.7866113781929016,
      "learning_rate": 0.0002577189446644783,
      "loss": 4.0258,
      "step": 119110
    },
    {
      "epoch": 0.24816666666666667,
      "grad_norm": 0.7445114254951477,
      "learning_rate": 0.000257712083737702,
      "loss": 4.057,
      "step": 119120
    },
    {
      "epoch": 0.2481875,
      "grad_norm": 0.8174688816070557,
      "learning_rate": 0.00025770522234565214,
      "loss": 3.8783,
      "step": 119130
    },
    {
      "epoch": 0.24820833333333334,
      "grad_norm": 0.768875777721405,
      "learning_rate": 0.00025769836048835835,
      "loss": 3.8768,
      "step": 119140
    },
    {
      "epoch": 0.24822916666666667,
      "grad_norm": 0.7465024590492249,
      "learning_rate": 0.0002576914981658502,
      "loss": 3.9433,
      "step": 119150
    },
    {
      "epoch": 0.24825,
      "grad_norm": 0.7953804731369019,
      "learning_rate": 0.00025768463537815747,
      "loss": 3.8746,
      "step": 119160
    },
    {
      "epoch": 0.24827083333333333,
      "grad_norm": 0.8756990432739258,
      "learning_rate": 0.00025767777212530975,
      "loss": 3.9471,
      "step": 119170
    },
    {
      "epoch": 0.24829166666666666,
      "grad_norm": 0.6783236861228943,
      "learning_rate": 0.00025767090840733665,
      "loss": 3.7586,
      "step": 119180
    },
    {
      "epoch": 0.2483125,
      "grad_norm": 0.7433435916900635,
      "learning_rate": 0.00025766404422426786,
      "loss": 3.9846,
      "step": 119190
    },
    {
      "epoch": 0.24833333333333332,
      "grad_norm": 0.9738131761550903,
      "learning_rate": 0.00025765717957613305,
      "loss": 3.9793,
      "step": 119200
    },
    {
      "epoch": 0.24835416666666665,
      "grad_norm": 0.9018031358718872,
      "learning_rate": 0.0002576503144629618,
      "loss": 3.776,
      "step": 119210
    },
    {
      "epoch": 0.248375,
      "grad_norm": 0.8421837687492371,
      "learning_rate": 0.00025764344888478384,
      "loss": 3.8659,
      "step": 119220
    },
    {
      "epoch": 0.24839583333333334,
      "grad_norm": 0.7560642957687378,
      "learning_rate": 0.0002576365828416287,
      "loss": 3.9978,
      "step": 119230
    },
    {
      "epoch": 0.24841666666666667,
      "grad_norm": 0.9240201115608215,
      "learning_rate": 0.0002576297163335262,
      "loss": 3.7973,
      "step": 119240
    },
    {
      "epoch": 0.2484375,
      "grad_norm": 0.7427593469619751,
      "learning_rate": 0.0002576228493605059,
      "loss": 3.7976,
      "step": 119250
    },
    {
      "epoch": 0.24845833333333334,
      "grad_norm": 0.7888592481613159,
      "learning_rate": 0.00025761598192259753,
      "loss": 3.9443,
      "step": 119260
    },
    {
      "epoch": 0.24847916666666667,
      "grad_norm": 0.7696585655212402,
      "learning_rate": 0.00025760911401983064,
      "loss": 3.8123,
      "step": 119270
    },
    {
      "epoch": 0.2485,
      "grad_norm": 0.7770204544067383,
      "learning_rate": 0.000257602245652235,
      "loss": 3.6487,
      "step": 119280
    },
    {
      "epoch": 0.24852083333333333,
      "grad_norm": 0.8350966572761536,
      "learning_rate": 0.0002575953768198403,
      "loss": 3.9704,
      "step": 119290
    },
    {
      "epoch": 0.24854166666666666,
      "grad_norm": 0.8749803900718689,
      "learning_rate": 0.0002575885075226761,
      "loss": 4.0506,
      "step": 119300
    },
    {
      "epoch": 0.2485625,
      "grad_norm": 0.7713797092437744,
      "learning_rate": 0.0002575816377607722,
      "loss": 3.8592,
      "step": 119310
    },
    {
      "epoch": 0.24858333333333332,
      "grad_norm": 0.7840929627418518,
      "learning_rate": 0.00025757476753415814,
      "loss": 3.9434,
      "step": 119320
    },
    {
      "epoch": 0.24860416666666665,
      "grad_norm": 0.7748851776123047,
      "learning_rate": 0.0002575678968428637,
      "loss": 4.0439,
      "step": 119330
    },
    {
      "epoch": 0.248625,
      "grad_norm": 0.8977269530296326,
      "learning_rate": 0.00025756102568691853,
      "loss": 3.7257,
      "step": 119340
    },
    {
      "epoch": 0.24864583333333334,
      "grad_norm": 1.0532125234603882,
      "learning_rate": 0.0002575541540663523,
      "loss": 3.8985,
      "step": 119350
    },
    {
      "epoch": 0.24866666666666667,
      "grad_norm": 0.7944119572639465,
      "learning_rate": 0.0002575472819811947,
      "loss": 4.0293,
      "step": 119360
    },
    {
      "epoch": 0.2486875,
      "grad_norm": 0.7961151003837585,
      "learning_rate": 0.0002575404094314754,
      "loss": 3.7829,
      "step": 119370
    },
    {
      "epoch": 0.24870833333333334,
      "grad_norm": 0.8592562079429626,
      "learning_rate": 0.00025753353641722406,
      "loss": 3.8202,
      "step": 119380
    },
    {
      "epoch": 0.24872916666666667,
      "grad_norm": 0.7673205733299255,
      "learning_rate": 0.0002575266629384705,
      "loss": 3.7408,
      "step": 119390
    },
    {
      "epoch": 0.24875,
      "grad_norm": 0.7821853160858154,
      "learning_rate": 0.00025751978899524425,
      "loss": 4.0078,
      "step": 119400
    },
    {
      "epoch": 0.24877083333333333,
      "grad_norm": 0.80134117603302,
      "learning_rate": 0.0002575129145875751,
      "loss": 3.8949,
      "step": 119410
    },
    {
      "epoch": 0.24879166666666666,
      "grad_norm": 0.8038097023963928,
      "learning_rate": 0.0002575060397154927,
      "loss": 3.9979,
      "step": 119420
    },
    {
      "epoch": 0.2488125,
      "grad_norm": 0.698530912399292,
      "learning_rate": 0.0002574991643790268,
      "loss": 3.9226,
      "step": 119430
    },
    {
      "epoch": 0.24883333333333332,
      "grad_norm": 0.8223938345909119,
      "learning_rate": 0.00025749228857820697,
      "loss": 4.0191,
      "step": 119440
    },
    {
      "epoch": 0.24885416666666665,
      "grad_norm": 1.0998618602752686,
      "learning_rate": 0.0002574854123130631,
      "loss": 3.9105,
      "step": 119450
    },
    {
      "epoch": 0.248875,
      "grad_norm": 0.8840294480323792,
      "learning_rate": 0.0002574785355836247,
      "loss": 3.9844,
      "step": 119460
    },
    {
      "epoch": 0.24889583333333334,
      "grad_norm": 0.7713092565536499,
      "learning_rate": 0.00025747165838992163,
      "loss": 3.8983,
      "step": 119470
    },
    {
      "epoch": 0.24891666666666667,
      "grad_norm": 0.7873407006263733,
      "learning_rate": 0.00025746478073198357,
      "loss": 4.0182,
      "step": 119480
    },
    {
      "epoch": 0.2489375,
      "grad_norm": 0.8315816521644592,
      "learning_rate": 0.0002574579026098401,
      "loss": 3.9179,
      "step": 119490
    },
    {
      "epoch": 0.24895833333333334,
      "grad_norm": 0.7342570424079895,
      "learning_rate": 0.0002574510240235211,
      "loss": 3.8784,
      "step": 119500
    },
    {
      "epoch": 0.24897916666666667,
      "grad_norm": 0.6908738017082214,
      "learning_rate": 0.0002574441449730562,
      "loss": 3.7849,
      "step": 119510
    },
    {
      "epoch": 0.249,
      "grad_norm": 0.8053215742111206,
      "learning_rate": 0.00025743726545847514,
      "loss": 3.8258,
      "step": 119520
    },
    {
      "epoch": 0.24902083333333333,
      "grad_norm": 0.8010688424110413,
      "learning_rate": 0.0002574303854798076,
      "loss": 3.7594,
      "step": 119530
    },
    {
      "epoch": 0.24904166666666666,
      "grad_norm": 0.7700222134590149,
      "learning_rate": 0.0002574235050370833,
      "loss": 3.7725,
      "step": 119540
    },
    {
      "epoch": 0.2490625,
      "grad_norm": 0.7160970568656921,
      "learning_rate": 0.000257416624130332,
      "loss": 3.779,
      "step": 119550
    },
    {
      "epoch": 0.24908333333333332,
      "grad_norm": 0.8002211451530457,
      "learning_rate": 0.0002574097427595834,
      "loss": 3.9337,
      "step": 119560
    },
    {
      "epoch": 0.24910416666666665,
      "grad_norm": 0.8235437870025635,
      "learning_rate": 0.0002574028609248672,
      "loss": 3.8452,
      "step": 119570
    },
    {
      "epoch": 0.249125,
      "grad_norm": 0.7225263118743896,
      "learning_rate": 0.00025739597862621316,
      "loss": 3.7191,
      "step": 119580
    },
    {
      "epoch": 0.24914583333333334,
      "grad_norm": 0.6830423474311829,
      "learning_rate": 0.000257389095863651,
      "loss": 3.8314,
      "step": 119590
    },
    {
      "epoch": 0.24916666666666668,
      "grad_norm": 0.655307412147522,
      "learning_rate": 0.0002573822126372105,
      "loss": 4.003,
      "step": 119600
    },
    {
      "epoch": 0.2491875,
      "grad_norm": 0.6475358009338379,
      "learning_rate": 0.00025737532894692125,
      "loss": 3.9405,
      "step": 119610
    },
    {
      "epoch": 0.24920833333333334,
      "grad_norm": 0.7996302247047424,
      "learning_rate": 0.00025736844479281316,
      "loss": 3.9271,
      "step": 119620
    },
    {
      "epoch": 0.24922916666666667,
      "grad_norm": 0.7359477877616882,
      "learning_rate": 0.0002573615601749159,
      "loss": 3.7936,
      "step": 119630
    },
    {
      "epoch": 0.24925,
      "grad_norm": 0.7516186237335205,
      "learning_rate": 0.0002573546750932592,
      "loss": 3.9198,
      "step": 119640
    },
    {
      "epoch": 0.24927083333333333,
      "grad_norm": 0.7371119856834412,
      "learning_rate": 0.0002573477895478727,
      "loss": 4.0028,
      "step": 119650
    },
    {
      "epoch": 0.24929166666666666,
      "grad_norm": 0.6925827860832214,
      "learning_rate": 0.0002573409035387863,
      "loss": 3.868,
      "step": 119660
    },
    {
      "epoch": 0.2493125,
      "grad_norm": 0.7882235646247864,
      "learning_rate": 0.00025733401706602975,
      "loss": 3.8277,
      "step": 119670
    },
    {
      "epoch": 0.24933333333333332,
      "grad_norm": 0.696254312992096,
      "learning_rate": 0.00025732713012963267,
      "loss": 4.1132,
      "step": 119680
    },
    {
      "epoch": 0.24935416666666665,
      "grad_norm": 0.7049545049667358,
      "learning_rate": 0.0002573202427296249,
      "loss": 3.9165,
      "step": 119690
    },
    {
      "epoch": 0.249375,
      "grad_norm": 0.8547190427780151,
      "learning_rate": 0.00025731335486603614,
      "loss": 3.9967,
      "step": 119700
    },
    {
      "epoch": 0.24939583333333334,
      "grad_norm": 0.7897358536720276,
      "learning_rate": 0.0002573064665388961,
      "loss": 4.0586,
      "step": 119710
    },
    {
      "epoch": 0.24941666666666668,
      "grad_norm": 0.809725284576416,
      "learning_rate": 0.0002572995777482347,
      "loss": 3.9585,
      "step": 119720
    },
    {
      "epoch": 0.2494375,
      "grad_norm": 0.7695266604423523,
      "learning_rate": 0.0002572926884940815,
      "loss": 3.8964,
      "step": 119730
    },
    {
      "epoch": 0.24945833333333334,
      "grad_norm": 0.7468916773796082,
      "learning_rate": 0.00025728579877646647,
      "loss": 3.8965,
      "step": 119740
    },
    {
      "epoch": 0.24947916666666667,
      "grad_norm": 0.8666465282440186,
      "learning_rate": 0.00025727890859541917,
      "loss": 3.6965,
      "step": 119750
    },
    {
      "epoch": 0.2495,
      "grad_norm": 0.7638580799102783,
      "learning_rate": 0.0002572720179509695,
      "loss": 4.0191,
      "step": 119760
    },
    {
      "epoch": 0.24952083333333333,
      "grad_norm": 0.7271072268486023,
      "learning_rate": 0.00025726512684314716,
      "loss": 3.9314,
      "step": 119770
    },
    {
      "epoch": 0.24954166666666666,
      "grad_norm": 0.8101192116737366,
      "learning_rate": 0.0002572582352719819,
      "loss": 3.961,
      "step": 119780
    },
    {
      "epoch": 0.2495625,
      "grad_norm": 0.8703235387802124,
      "learning_rate": 0.00025725134323750353,
      "loss": 3.9955,
      "step": 119790
    },
    {
      "epoch": 0.24958333333333332,
      "grad_norm": 0.7605385780334473,
      "learning_rate": 0.00025724445073974187,
      "loss": 3.8108,
      "step": 119800
    },
    {
      "epoch": 0.24960416666666665,
      "grad_norm": 0.8410705327987671,
      "learning_rate": 0.00025723755777872653,
      "loss": 3.8291,
      "step": 119810
    },
    {
      "epoch": 0.249625,
      "grad_norm": 0.8532662987709045,
      "learning_rate": 0.00025723066435448744,
      "loss": 3.9263,
      "step": 119820
    },
    {
      "epoch": 0.24964583333333334,
      "grad_norm": 0.8252196311950684,
      "learning_rate": 0.00025722377046705436,
      "loss": 3.8751,
      "step": 119830
    },
    {
      "epoch": 0.24966666666666668,
      "grad_norm": 0.7906928062438965,
      "learning_rate": 0.000257216876116457,
      "loss": 3.8821,
      "step": 119840
    },
    {
      "epoch": 0.2496875,
      "grad_norm": 0.7223817110061646,
      "learning_rate": 0.00025720998130272516,
      "loss": 4.1374,
      "step": 119850
    },
    {
      "epoch": 0.24970833333333334,
      "grad_norm": 0.7797434329986572,
      "learning_rate": 0.0002572030860258887,
      "loss": 3.8997,
      "step": 119860
    },
    {
      "epoch": 0.24972916666666667,
      "grad_norm": 0.6658298373222351,
      "learning_rate": 0.00025719619028597725,
      "loss": 3.8031,
      "step": 119870
    },
    {
      "epoch": 0.24975,
      "grad_norm": 0.7384726405143738,
      "learning_rate": 0.00025718929408302075,
      "loss": 3.9821,
      "step": 119880
    },
    {
      "epoch": 0.24977083333333333,
      "grad_norm": 1.0788984298706055,
      "learning_rate": 0.00025718239741704893,
      "loss": 4.1502,
      "step": 119890
    },
    {
      "epoch": 0.24979166666666666,
      "grad_norm": 0.716058075428009,
      "learning_rate": 0.00025717550028809156,
      "loss": 4.0253,
      "step": 119900
    },
    {
      "epoch": 0.2498125,
      "grad_norm": 0.782516360282898,
      "learning_rate": 0.00025716860269617845,
      "loss": 3.8881,
      "step": 119910
    },
    {
      "epoch": 0.24983333333333332,
      "grad_norm": 0.7745581865310669,
      "learning_rate": 0.00025716170464133936,
      "loss": 3.7859,
      "step": 119920
    },
    {
      "epoch": 0.24985416666666665,
      "grad_norm": 0.73885178565979,
      "learning_rate": 0.0002571548061236042,
      "loss": 3.7987,
      "step": 119930
    },
    {
      "epoch": 0.249875,
      "grad_norm": 0.7535274624824524,
      "learning_rate": 0.00025714790714300264,
      "loss": 3.8836,
      "step": 119940
    },
    {
      "epoch": 0.24989583333333334,
      "grad_norm": 0.7769490480422974,
      "learning_rate": 0.0002571410076995646,
      "loss": 4.0735,
      "step": 119950
    },
    {
      "epoch": 0.24991666666666668,
      "grad_norm": 0.8473771214485168,
      "learning_rate": 0.0002571341077933197,
      "loss": 3.9483,
      "step": 119960
    },
    {
      "epoch": 0.2499375,
      "grad_norm": 0.7447115182876587,
      "learning_rate": 0.00025712720742429796,
      "loss": 3.8819,
      "step": 119970
    },
    {
      "epoch": 0.24995833333333334,
      "grad_norm": 0.7020084261894226,
      "learning_rate": 0.00025712030659252904,
      "loss": 3.8774,
      "step": 119980
    },
    {
      "epoch": 0.24997916666666667,
      "grad_norm": 0.8581231236457825,
      "learning_rate": 0.0002571134052980428,
      "loss": 3.939,
      "step": 119990
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8581737279891968,
      "learning_rate": 0.0002571065035408691,
      "loss": 3.9143,
      "step": 120000
    },
    {
      "epoch": 0.25,
      "eval_loss": 4.261592864990234,
      "eval_runtime": 10.3068,
      "eval_samples_per_second": 0.97,
      "eval_steps_per_second": 0.291,
      "step": 120000
    },
    {
      "epoch": 0.25002083333333336,
      "grad_norm": 0.7196207642555237,
      "learning_rate": 0.0002570996013210376,
      "loss": 3.8037,
      "step": 120010
    },
    {
      "epoch": 0.25004166666666666,
      "grad_norm": 0.9250383377075195,
      "learning_rate": 0.0002570926986385783,
      "loss": 3.9844,
      "step": 120020
    },
    {
      "epoch": 0.2500625,
      "grad_norm": 0.6978735327720642,
      "learning_rate": 0.0002570857954935209,
      "loss": 3.8167,
      "step": 120030
    },
    {
      "epoch": 0.2500833333333333,
      "grad_norm": 0.8068959712982178,
      "learning_rate": 0.0002570788918858952,
      "loss": 3.9997,
      "step": 120040
    },
    {
      "epoch": 0.2501041666666667,
      "grad_norm": 0.7485742568969727,
      "learning_rate": 0.00025707198781573117,
      "loss": 4.0533,
      "step": 120050
    },
    {
      "epoch": 0.250125,
      "grad_norm": 0.7088474035263062,
      "learning_rate": 0.0002570650832830585,
      "loss": 3.9384,
      "step": 120060
    },
    {
      "epoch": 0.25014583333333335,
      "grad_norm": 1.0014783143997192,
      "learning_rate": 0.00025705817828790707,
      "loss": 3.9971,
      "step": 120070
    },
    {
      "epoch": 0.25016666666666665,
      "grad_norm": 0.8636044263839722,
      "learning_rate": 0.0002570512728303067,
      "loss": 3.988,
      "step": 120080
    },
    {
      "epoch": 0.2501875,
      "grad_norm": 0.7610726356506348,
      "learning_rate": 0.0002570443669102871,
      "loss": 3.9117,
      "step": 120090
    },
    {
      "epoch": 0.2502083333333333,
      "grad_norm": 0.7410914301872253,
      "learning_rate": 0.00025703746052787826,
      "loss": 3.8422,
      "step": 120100
    },
    {
      "epoch": 0.25022916666666667,
      "grad_norm": 0.783126950263977,
      "learning_rate": 0.00025703055368311,
      "loss": 3.7672,
      "step": 120110
    },
    {
      "epoch": 0.25025,
      "grad_norm": 0.708441436290741,
      "learning_rate": 0.00025702364637601206,
      "loss": 4.0285,
      "step": 120120
    },
    {
      "epoch": 0.25027083333333333,
      "grad_norm": 0.8758186101913452,
      "learning_rate": 0.00025701673860661434,
      "loss": 3.864,
      "step": 120130
    },
    {
      "epoch": 0.2502916666666667,
      "grad_norm": 0.7664844393730164,
      "learning_rate": 0.0002570098303749467,
      "loss": 3.9303,
      "step": 120140
    },
    {
      "epoch": 0.2503125,
      "grad_norm": 0.651258647441864,
      "learning_rate": 0.00025700292168103893,
      "loss": 3.6243,
      "step": 120150
    },
    {
      "epoch": 0.25033333333333335,
      "grad_norm": 0.8410717248916626,
      "learning_rate": 0.00025699601252492094,
      "loss": 4.0824,
      "step": 120160
    },
    {
      "epoch": 0.25035416666666666,
      "grad_norm": 0.7638306617736816,
      "learning_rate": 0.00025698910290662246,
      "loss": 3.97,
      "step": 120170
    },
    {
      "epoch": 0.250375,
      "grad_norm": 0.9296189546585083,
      "learning_rate": 0.00025698219282617343,
      "loss": 3.7967,
      "step": 120180
    },
    {
      "epoch": 0.2503958333333333,
      "grad_norm": 0.7620874047279358,
      "learning_rate": 0.00025697528228360366,
      "loss": 3.9088,
      "step": 120190
    },
    {
      "epoch": 0.2504166666666667,
      "grad_norm": 0.846098005771637,
      "learning_rate": 0.000256968371278943,
      "loss": 3.8756,
      "step": 120200
    },
    {
      "epoch": 0.2504375,
      "grad_norm": 0.8499286770820618,
      "learning_rate": 0.00025696145981222133,
      "loss": 3.7899,
      "step": 120210
    },
    {
      "epoch": 0.25045833333333334,
      "grad_norm": 1.0266681909561157,
      "learning_rate": 0.00025695454788346857,
      "loss": 3.8183,
      "step": 120220
    },
    {
      "epoch": 0.25047916666666664,
      "grad_norm": 0.7563195824623108,
      "learning_rate": 0.00025694763549271443,
      "loss": 3.8023,
      "step": 120230
    },
    {
      "epoch": 0.2505,
      "grad_norm": 0.7384623289108276,
      "learning_rate": 0.0002569407226399888,
      "loss": 4.0139,
      "step": 120240
    },
    {
      "epoch": 0.25052083333333336,
      "grad_norm": 0.7467703223228455,
      "learning_rate": 0.00025693380932532165,
      "loss": 3.9776,
      "step": 120250
    },
    {
      "epoch": 0.25054166666666666,
      "grad_norm": 0.702704131603241,
      "learning_rate": 0.00025692689554874273,
      "loss": 3.9946,
      "step": 120260
    },
    {
      "epoch": 0.2505625,
      "grad_norm": 0.6703928112983704,
      "learning_rate": 0.00025691998131028193,
      "loss": 3.8944,
      "step": 120270
    },
    {
      "epoch": 0.2505833333333333,
      "grad_norm": 0.776542067527771,
      "learning_rate": 0.00025691306660996917,
      "loss": 3.9993,
      "step": 120280
    },
    {
      "epoch": 0.2506041666666667,
      "grad_norm": 0.7373493313789368,
      "learning_rate": 0.0002569061514478343,
      "loss": 3.9558,
      "step": 120290
    },
    {
      "epoch": 0.250625,
      "grad_norm": 0.9582806825637817,
      "learning_rate": 0.0002568992358239071,
      "loss": 3.8902,
      "step": 120300
    },
    {
      "epoch": 0.25064583333333335,
      "grad_norm": 0.8311376571655273,
      "learning_rate": 0.00025689231973821756,
      "loss": 3.9308,
      "step": 120310
    },
    {
      "epoch": 0.25066666666666665,
      "grad_norm": 0.808879554271698,
      "learning_rate": 0.0002568854031907955,
      "loss": 3.91,
      "step": 120320
    },
    {
      "epoch": 0.2506875,
      "grad_norm": 0.7261315584182739,
      "learning_rate": 0.00025687848618167087,
      "loss": 4.0456,
      "step": 120330
    },
    {
      "epoch": 0.2507083333333333,
      "grad_norm": 0.8664923310279846,
      "learning_rate": 0.0002568715687108734,
      "loss": 4.0785,
      "step": 120340
    },
    {
      "epoch": 0.25072916666666667,
      "grad_norm": 0.7615532875061035,
      "learning_rate": 0.0002568646507784331,
      "loss": 4.1091,
      "step": 120350
    },
    {
      "epoch": 0.25075,
      "grad_norm": 0.6846241354942322,
      "learning_rate": 0.0002568577323843798,
      "loss": 4.0046,
      "step": 120360
    },
    {
      "epoch": 0.25077083333333333,
      "grad_norm": 0.7713476419448853,
      "learning_rate": 0.0002568508135287434,
      "loss": 3.7219,
      "step": 120370
    },
    {
      "epoch": 0.2507916666666667,
      "grad_norm": 0.7852568030357361,
      "learning_rate": 0.00025684389421155374,
      "loss": 3.8986,
      "step": 120380
    },
    {
      "epoch": 0.2508125,
      "grad_norm": 0.9310546517372131,
      "learning_rate": 0.0002568369744328408,
      "loss": 3.9398,
      "step": 120390
    },
    {
      "epoch": 0.25083333333333335,
      "grad_norm": 0.8564936518669128,
      "learning_rate": 0.00025683005419263437,
      "loss": 3.9567,
      "step": 120400
    },
    {
      "epoch": 0.25085416666666666,
      "grad_norm": 0.8029220700263977,
      "learning_rate": 0.0002568231334909644,
      "loss": 3.8286,
      "step": 120410
    },
    {
      "epoch": 0.250875,
      "grad_norm": 0.8428359627723694,
      "learning_rate": 0.0002568162123278608,
      "loss": 3.8974,
      "step": 120420
    },
    {
      "epoch": 0.2508958333333333,
      "grad_norm": 0.689613401889801,
      "learning_rate": 0.00025680929070335347,
      "loss": 4.0764,
      "step": 120430
    },
    {
      "epoch": 0.2509166666666667,
      "grad_norm": 0.7259794473648071,
      "learning_rate": 0.00025680236861747225,
      "loss": 3.9828,
      "step": 120440
    },
    {
      "epoch": 0.2509375,
      "grad_norm": 0.9921327233314514,
      "learning_rate": 0.000256795446070247,
      "loss": 3.8557,
      "step": 120450
    },
    {
      "epoch": 0.25095833333333334,
      "grad_norm": 0.7935556173324585,
      "learning_rate": 0.0002567885230617078,
      "loss": 3.9139,
      "step": 120460
    },
    {
      "epoch": 0.25097916666666664,
      "grad_norm": 0.8191713690757751,
      "learning_rate": 0.0002567815995918845,
      "loss": 3.9586,
      "step": 120470
    },
    {
      "epoch": 0.251,
      "grad_norm": 0.6904999613761902,
      "learning_rate": 0.0002567746756608068,
      "loss": 4.0007,
      "step": 120480
    },
    {
      "epoch": 0.25102083333333336,
      "grad_norm": 0.8289191722869873,
      "learning_rate": 0.00025676775126850485,
      "loss": 3.9152,
      "step": 120490
    },
    {
      "epoch": 0.25104166666666666,
      "grad_norm": 0.9427592754364014,
      "learning_rate": 0.0002567608264150085,
      "loss": 3.902,
      "step": 120500
    },
    {
      "epoch": 0.2510625,
      "grad_norm": 0.9983726143836975,
      "learning_rate": 0.0002567539011003476,
      "loss": 3.7956,
      "step": 120510
    },
    {
      "epoch": 0.2510833333333333,
      "grad_norm": 0.9104589223861694,
      "learning_rate": 0.0002567469753245521,
      "loss": 3.8721,
      "step": 120520
    },
    {
      "epoch": 0.2511041666666667,
      "grad_norm": 0.8815751075744629,
      "learning_rate": 0.0002567400490876519,
      "loss": 3.9859,
      "step": 120530
    },
    {
      "epoch": 0.251125,
      "grad_norm": 0.7189062833786011,
      "learning_rate": 0.000256733122389677,
      "loss": 4.0409,
      "step": 120540
    },
    {
      "epoch": 0.25114583333333335,
      "grad_norm": 0.7398726344108582,
      "learning_rate": 0.00025672619523065725,
      "loss": 3.9185,
      "step": 120550
    },
    {
      "epoch": 0.25116666666666665,
      "grad_norm": 0.7329086661338806,
      "learning_rate": 0.00025671926761062255,
      "loss": 4.0417,
      "step": 120560
    },
    {
      "epoch": 0.2511875,
      "grad_norm": 0.788835346698761,
      "learning_rate": 0.00025671233952960287,
      "loss": 3.9282,
      "step": 120570
    },
    {
      "epoch": 0.2512083333333333,
      "grad_norm": 0.8098801970481873,
      "learning_rate": 0.0002567054109876281,
      "loss": 3.8954,
      "step": 120580
    },
    {
      "epoch": 0.25122916666666667,
      "grad_norm": 0.8776403069496155,
      "learning_rate": 0.0002566984819847282,
      "loss": 3.9758,
      "step": 120590
    },
    {
      "epoch": 0.25125,
      "grad_norm": 0.8316168785095215,
      "learning_rate": 0.0002566915525209331,
      "loss": 3.9024,
      "step": 120600
    },
    {
      "epoch": 0.25127083333333333,
      "grad_norm": 0.814089834690094,
      "learning_rate": 0.00025668462259627274,
      "loss": 3.9025,
      "step": 120610
    },
    {
      "epoch": 0.2512916666666667,
      "grad_norm": 0.7521693110466003,
      "learning_rate": 0.00025667769221077706,
      "loss": 3.86,
      "step": 120620
    },
    {
      "epoch": 0.2513125,
      "grad_norm": 0.7050708532333374,
      "learning_rate": 0.0002566707613644759,
      "loss": 4.0459,
      "step": 120630
    },
    {
      "epoch": 0.25133333333333335,
      "grad_norm": 0.9159626364707947,
      "learning_rate": 0.0002566638300573993,
      "loss": 3.949,
      "step": 120640
    },
    {
      "epoch": 0.25135416666666666,
      "grad_norm": 0.7556700706481934,
      "learning_rate": 0.0002566568982895772,
      "loss": 3.9265,
      "step": 120650
    },
    {
      "epoch": 0.251375,
      "grad_norm": 0.6899934411048889,
      "learning_rate": 0.0002566499660610395,
      "loss": 3.9014,
      "step": 120660
    },
    {
      "epoch": 0.2513958333333333,
      "grad_norm": 0.8057700395584106,
      "learning_rate": 0.00025664303337181614,
      "loss": 4.1396,
      "step": 120670
    },
    {
      "epoch": 0.2514166666666667,
      "grad_norm": 0.6997473239898682,
      "learning_rate": 0.00025663610022193717,
      "loss": 3.7866,
      "step": 120680
    },
    {
      "epoch": 0.2514375,
      "grad_norm": 0.7382404804229736,
      "learning_rate": 0.0002566291666114324,
      "loss": 3.9484,
      "step": 120690
    },
    {
      "epoch": 0.25145833333333334,
      "grad_norm": 0.6613016128540039,
      "learning_rate": 0.00025662223254033185,
      "loss": 3.8351,
      "step": 120700
    },
    {
      "epoch": 0.25147916666666664,
      "grad_norm": 0.8942535519599915,
      "learning_rate": 0.0002566152980086654,
      "loss": 3.9486,
      "step": 120710
    },
    {
      "epoch": 0.2515,
      "grad_norm": 0.8438344597816467,
      "learning_rate": 0.0002566083630164631,
      "loss": 3.8869,
      "step": 120720
    },
    {
      "epoch": 0.25152083333333336,
      "grad_norm": 0.6995416283607483,
      "learning_rate": 0.00025660142756375493,
      "loss": 4.1183,
      "step": 120730
    },
    {
      "epoch": 0.25154166666666666,
      "grad_norm": 0.7075271010398865,
      "learning_rate": 0.0002565944916505707,
      "loss": 3.8999,
      "step": 120740
    },
    {
      "epoch": 0.2515625,
      "grad_norm": 0.8115150928497314,
      "learning_rate": 0.00025658755527694055,
      "loss": 3.8649,
      "step": 120750
    },
    {
      "epoch": 0.2515833333333333,
      "grad_norm": 0.7834635376930237,
      "learning_rate": 0.00025658061844289424,
      "loss": 3.8302,
      "step": 120760
    },
    {
      "epoch": 0.2516041666666667,
      "grad_norm": 0.6540688872337341,
      "learning_rate": 0.00025657368114846197,
      "loss": 3.66,
      "step": 120770
    },
    {
      "epoch": 0.251625,
      "grad_norm": 0.7945818901062012,
      "learning_rate": 0.0002565667433936735,
      "loss": 3.8645,
      "step": 120780
    },
    {
      "epoch": 0.25164583333333335,
      "grad_norm": 0.7202977538108826,
      "learning_rate": 0.0002565598051785589,
      "loss": 3.8834,
      "step": 120790
    },
    {
      "epoch": 0.25166666666666665,
      "grad_norm": 0.7724462747573853,
      "learning_rate": 0.0002565528665031481,
      "loss": 3.9432,
      "step": 120800
    },
    {
      "epoch": 0.2516875,
      "grad_norm": 0.8133946657180786,
      "learning_rate": 0.0002565459273674711,
      "loss": 3.9977,
      "step": 120810
    },
    {
      "epoch": 0.2517083333333333,
      "grad_norm": 0.8408694267272949,
      "learning_rate": 0.0002565389877715579,
      "loss": 3.8379,
      "step": 120820
    },
    {
      "epoch": 0.25172916666666667,
      "grad_norm": 0.83116215467453,
      "learning_rate": 0.00025653204771543844,
      "loss": 3.8071,
      "step": 120830
    },
    {
      "epoch": 0.25175,
      "grad_norm": 0.6928322315216064,
      "learning_rate": 0.0002565251071991427,
      "loss": 3.7203,
      "step": 120840
    },
    {
      "epoch": 0.25177083333333333,
      "grad_norm": 0.947693407535553,
      "learning_rate": 0.0002565181662227006,
      "loss": 4.0644,
      "step": 120850
    },
    {
      "epoch": 0.2517916666666667,
      "grad_norm": 0.9372751712799072,
      "learning_rate": 0.0002565112247861423,
      "loss": 3.9368,
      "step": 120860
    },
    {
      "epoch": 0.2518125,
      "grad_norm": 0.8435293436050415,
      "learning_rate": 0.0002565042828894976,
      "loss": 3.7475,
      "step": 120870
    },
    {
      "epoch": 0.25183333333333335,
      "grad_norm": 0.7374646663665771,
      "learning_rate": 0.0002564973405327965,
      "loss": 3.9464,
      "step": 120880
    },
    {
      "epoch": 0.25185416666666666,
      "grad_norm": 0.7349865436553955,
      "learning_rate": 0.0002564903977160692,
      "loss": 3.7989,
      "step": 120890
    },
    {
      "epoch": 0.251875,
      "grad_norm": 0.7688719630241394,
      "learning_rate": 0.00025648345443934537,
      "loss": 3.8215,
      "step": 120900
    },
    {
      "epoch": 0.2518958333333333,
      "grad_norm": 0.6803123950958252,
      "learning_rate": 0.00025647651070265524,
      "loss": 3.8269,
      "step": 120910
    },
    {
      "epoch": 0.2519166666666667,
      "grad_norm": 0.7390249371528625,
      "learning_rate": 0.0002564695665060287,
      "loss": 4.0176,
      "step": 120920
    },
    {
      "epoch": 0.2519375,
      "grad_norm": 0.8346250653266907,
      "learning_rate": 0.00025646262184949583,
      "loss": 3.909,
      "step": 120930
    },
    {
      "epoch": 0.25195833333333334,
      "grad_norm": 0.692915678024292,
      "learning_rate": 0.00025645567673308656,
      "loss": 3.8148,
      "step": 120940
    },
    {
      "epoch": 0.25197916666666664,
      "grad_norm": 0.8743824362754822,
      "learning_rate": 0.0002564487311568309,
      "loss": 3.9949,
      "step": 120950
    },
    {
      "epoch": 0.252,
      "grad_norm": 0.6724885702133179,
      "learning_rate": 0.0002564417851207588,
      "loss": 3.9243,
      "step": 120960
    },
    {
      "epoch": 0.25202083333333336,
      "grad_norm": 0.7604882121086121,
      "learning_rate": 0.0002564348386249004,
      "loss": 3.8941,
      "step": 120970
    },
    {
      "epoch": 0.25204166666666666,
      "grad_norm": 0.8701813220977783,
      "learning_rate": 0.00025642789166928554,
      "loss": 3.9283,
      "step": 120980
    },
    {
      "epoch": 0.2520625,
      "grad_norm": 0.7348516583442688,
      "learning_rate": 0.0002564209442539444,
      "loss": 3.9366,
      "step": 120990
    },
    {
      "epoch": 0.2520833333333333,
      "grad_norm": 0.8052191734313965,
      "learning_rate": 0.0002564139963789069,
      "loss": 3.6382,
      "step": 121000
    },
    {
      "epoch": 0.2520833333333333,
      "eval_loss": 4.246208667755127,
      "eval_runtime": 10.6645,
      "eval_samples_per_second": 0.938,
      "eval_steps_per_second": 0.281,
      "step": 121000
    },
    {
      "epoch": 0.2521041666666667,
      "grad_norm": 0.6820250153541565,
      "learning_rate": 0.000256407048044203,
      "loss": 4.0514,
      "step": 121010
    },
    {
      "epoch": 0.252125,
      "grad_norm": 0.7678816318511963,
      "learning_rate": 0.00025640009924986283,
      "loss": 3.8597,
      "step": 121020
    },
    {
      "epoch": 0.25214583333333335,
      "grad_norm": 0.7259016036987305,
      "learning_rate": 0.0002563931499959163,
      "loss": 3.661,
      "step": 121030
    },
    {
      "epoch": 0.25216666666666665,
      "grad_norm": 0.8856896162033081,
      "learning_rate": 0.0002563862002823935,
      "loss": 3.7957,
      "step": 121040
    },
    {
      "epoch": 0.2521875,
      "grad_norm": 0.8250541090965271,
      "learning_rate": 0.0002563792501093244,
      "loss": 3.7969,
      "step": 121050
    },
    {
      "epoch": 0.2522083333333333,
      "grad_norm": 0.8893131017684937,
      "learning_rate": 0.0002563722994767391,
      "loss": 4.2698,
      "step": 121060
    },
    {
      "epoch": 0.25222916666666667,
      "grad_norm": 0.6815268993377686,
      "learning_rate": 0.0002563653483846675,
      "loss": 3.9815,
      "step": 121070
    },
    {
      "epoch": 0.25225,
      "grad_norm": 1.1333216428756714,
      "learning_rate": 0.0002563583968331398,
      "loss": 3.9378,
      "step": 121080
    },
    {
      "epoch": 0.25227083333333333,
      "grad_norm": 0.7402220368385315,
      "learning_rate": 0.0002563514448221858,
      "loss": 3.9592,
      "step": 121090
    },
    {
      "epoch": 0.2522916666666667,
      "grad_norm": 0.747617244720459,
      "learning_rate": 0.00025634449235183577,
      "loss": 3.9641,
      "step": 121100
    },
    {
      "epoch": 0.2523125,
      "grad_norm": 0.7477725148200989,
      "learning_rate": 0.00025633753942211953,
      "loss": 3.9679,
      "step": 121110
    },
    {
      "epoch": 0.25233333333333335,
      "grad_norm": 0.7867988348007202,
      "learning_rate": 0.00025633058603306727,
      "loss": 4.0219,
      "step": 121120
    },
    {
      "epoch": 0.25235416666666666,
      "grad_norm": 0.764771044254303,
      "learning_rate": 0.00025632363218470897,
      "loss": 3.8568,
      "step": 121130
    },
    {
      "epoch": 0.252375,
      "grad_norm": 0.835657000541687,
      "learning_rate": 0.00025631667787707465,
      "loss": 3.7132,
      "step": 121140
    },
    {
      "epoch": 0.2523958333333333,
      "grad_norm": 0.795664370059967,
      "learning_rate": 0.00025630972311019436,
      "loss": 3.9105,
      "step": 121150
    },
    {
      "epoch": 0.2524166666666667,
      "grad_norm": 0.871938943862915,
      "learning_rate": 0.00025630276788409813,
      "loss": 3.8246,
      "step": 121160
    },
    {
      "epoch": 0.2524375,
      "grad_norm": 0.6908974647521973,
      "learning_rate": 0.00025629581219881604,
      "loss": 3.8606,
      "step": 121170
    },
    {
      "epoch": 0.25245833333333334,
      "grad_norm": 0.7372518181800842,
      "learning_rate": 0.0002562888560543781,
      "loss": 3.729,
      "step": 121180
    },
    {
      "epoch": 0.25247916666666664,
      "grad_norm": 0.7179344296455383,
      "learning_rate": 0.0002562818994508144,
      "loss": 3.9234,
      "step": 121190
    },
    {
      "epoch": 0.2525,
      "grad_norm": 0.7773375511169434,
      "learning_rate": 0.00025627494238815495,
      "loss": 3.8526,
      "step": 121200
    },
    {
      "epoch": 0.25252083333333336,
      "grad_norm": 0.7609033584594727,
      "learning_rate": 0.0002562679848664298,
      "loss": 3.9,
      "step": 121210
    },
    {
      "epoch": 0.25254166666666666,
      "grad_norm": 0.8296442031860352,
      "learning_rate": 0.00025626102688566907,
      "loss": 4.0644,
      "step": 121220
    },
    {
      "epoch": 0.2525625,
      "grad_norm": 0.9762999415397644,
      "learning_rate": 0.00025625406844590273,
      "loss": 3.8283,
      "step": 121230
    },
    {
      "epoch": 0.2525833333333333,
      "grad_norm": 0.9745132923126221,
      "learning_rate": 0.00025624710954716087,
      "loss": 3.9061,
      "step": 121240
    },
    {
      "epoch": 0.2526041666666667,
      "grad_norm": 0.7505293488502502,
      "learning_rate": 0.0002562401501894735,
      "loss": 3.8799,
      "step": 121250
    },
    {
      "epoch": 0.252625,
      "grad_norm": 0.8659419417381287,
      "learning_rate": 0.0002562331903728708,
      "loss": 3.9376,
      "step": 121260
    },
    {
      "epoch": 0.25264583333333335,
      "grad_norm": 0.7473782896995544,
      "learning_rate": 0.0002562262300973828,
      "loss": 3.9667,
      "step": 121270
    },
    {
      "epoch": 0.25266666666666665,
      "grad_norm": 0.8147486448287964,
      "learning_rate": 0.0002562192693630395,
      "loss": 4.0208,
      "step": 121280
    },
    {
      "epoch": 0.2526875,
      "grad_norm": 0.7939549088478088,
      "learning_rate": 0.000256212308169871,
      "loss": 4.0011,
      "step": 121290
    },
    {
      "epoch": 0.2527083333333333,
      "grad_norm": 0.7588374614715576,
      "learning_rate": 0.0002562053465179073,
      "loss": 3.9369,
      "step": 121300
    },
    {
      "epoch": 0.25272916666666667,
      "grad_norm": 0.8071586489677429,
      "learning_rate": 0.00025619838440717863,
      "loss": 3.8986,
      "step": 121310
    },
    {
      "epoch": 0.25275,
      "grad_norm": 0.7463551163673401,
      "learning_rate": 0.00025619142183771495,
      "loss": 3.9455,
      "step": 121320
    },
    {
      "epoch": 0.25277083333333333,
      "grad_norm": 0.7694637179374695,
      "learning_rate": 0.0002561844588095464,
      "loss": 3.8133,
      "step": 121330
    },
    {
      "epoch": 0.2527916666666667,
      "grad_norm": 0.7189456820487976,
      "learning_rate": 0.00025617749532270295,
      "loss": 3.8953,
      "step": 121340
    },
    {
      "epoch": 0.2528125,
      "grad_norm": 0.999331533908844,
      "learning_rate": 0.00025617053137721475,
      "loss": 3.7433,
      "step": 121350
    },
    {
      "epoch": 0.25283333333333335,
      "grad_norm": 0.7411221265792847,
      "learning_rate": 0.00025616356697311197,
      "loss": 4.0012,
      "step": 121360
    },
    {
      "epoch": 0.25285416666666666,
      "grad_norm": 0.764446496963501,
      "learning_rate": 0.0002561566021104245,
      "loss": 3.7173,
      "step": 121370
    },
    {
      "epoch": 0.252875,
      "grad_norm": 0.792792558670044,
      "learning_rate": 0.0002561496367891826,
      "loss": 3.7169,
      "step": 121380
    },
    {
      "epoch": 0.2528958333333333,
      "grad_norm": 0.7789154052734375,
      "learning_rate": 0.00025614267100941627,
      "loss": 3.7799,
      "step": 121390
    },
    {
      "epoch": 0.2529166666666667,
      "grad_norm": 0.701579749584198,
      "learning_rate": 0.00025613570477115555,
      "loss": 3.7476,
      "step": 121400
    },
    {
      "epoch": 0.2529375,
      "grad_norm": 0.7868003249168396,
      "learning_rate": 0.00025612873807443067,
      "loss": 3.8748,
      "step": 121410
    },
    {
      "epoch": 0.25295833333333334,
      "grad_norm": 0.6738545298576355,
      "learning_rate": 0.00025612177091927167,
      "loss": 3.9102,
      "step": 121420
    },
    {
      "epoch": 0.25297916666666664,
      "grad_norm": 0.785890519618988,
      "learning_rate": 0.0002561148033057085,
      "loss": 3.9156,
      "step": 121430
    },
    {
      "epoch": 0.253,
      "grad_norm": 0.7122005820274353,
      "learning_rate": 0.0002561078352337715,
      "loss": 3.8696,
      "step": 121440
    },
    {
      "epoch": 0.2530208333333333,
      "grad_norm": 0.8468227386474609,
      "learning_rate": 0.0002561008667034906,
      "loss": 4.0213,
      "step": 121450
    },
    {
      "epoch": 0.25304166666666666,
      "grad_norm": 0.8565512895584106,
      "learning_rate": 0.000256093897714896,
      "loss": 3.7186,
      "step": 121460
    },
    {
      "epoch": 0.2530625,
      "grad_norm": 0.8735508918762207,
      "learning_rate": 0.0002560869282680177,
      "loss": 3.8769,
      "step": 121470
    },
    {
      "epoch": 0.2530833333333333,
      "grad_norm": 0.8435592651367188,
      "learning_rate": 0.00025607995836288594,
      "loss": 3.864,
      "step": 121480
    },
    {
      "epoch": 0.2531041666666667,
      "grad_norm": 0.7849438190460205,
      "learning_rate": 0.0002560729879995307,
      "loss": 3.8788,
      "step": 121490
    },
    {
      "epoch": 0.253125,
      "grad_norm": 0.9178645610809326,
      "learning_rate": 0.00025606601717798207,
      "loss": 3.7566,
      "step": 121500
    },
    {
      "epoch": 0.25314583333333335,
      "grad_norm": 0.7460588812828064,
      "learning_rate": 0.0002560590458982703,
      "loss": 4.0017,
      "step": 121510
    },
    {
      "epoch": 0.25316666666666665,
      "grad_norm": 0.7886908650398254,
      "learning_rate": 0.00025605207416042546,
      "loss": 3.9789,
      "step": 121520
    },
    {
      "epoch": 0.2531875,
      "grad_norm": 0.7329227328300476,
      "learning_rate": 0.0002560451019644776,
      "loss": 3.7887,
      "step": 121530
    },
    {
      "epoch": 0.2532083333333333,
      "grad_norm": 0.8514488339424133,
      "learning_rate": 0.00025603812931045686,
      "loss": 3.7902,
      "step": 121540
    },
    {
      "epoch": 0.25322916666666667,
      "grad_norm": 0.7593547105789185,
      "learning_rate": 0.00025603115619839346,
      "loss": 3.8891,
      "step": 121550
    },
    {
      "epoch": 0.25325,
      "grad_norm": 0.8803709745407104,
      "learning_rate": 0.0002560241826283173,
      "loss": 3.8734,
      "step": 121560
    },
    {
      "epoch": 0.25327083333333333,
      "grad_norm": 0.759268581867218,
      "learning_rate": 0.00025601720860025874,
      "loss": 3.9089,
      "step": 121570
    },
    {
      "epoch": 0.2532916666666667,
      "grad_norm": 0.8182417154312134,
      "learning_rate": 0.00025601023411424783,
      "loss": 4.0116,
      "step": 121580
    },
    {
      "epoch": 0.2533125,
      "grad_norm": 0.8800984025001526,
      "learning_rate": 0.0002560032591703146,
      "loss": 3.998,
      "step": 121590
    },
    {
      "epoch": 0.25333333333333335,
      "grad_norm": 0.7970669865608215,
      "learning_rate": 0.00025599628376848926,
      "loss": 3.8529,
      "step": 121600
    },
    {
      "epoch": 0.25335416666666666,
      "grad_norm": 0.6910083889961243,
      "learning_rate": 0.0002559893079088019,
      "loss": 3.871,
      "step": 121610
    },
    {
      "epoch": 0.253375,
      "grad_norm": 1.010529637336731,
      "learning_rate": 0.00025598233159128273,
      "loss": 3.8961,
      "step": 121620
    },
    {
      "epoch": 0.2533958333333333,
      "grad_norm": 0.7742412090301514,
      "learning_rate": 0.00025597535481596185,
      "loss": 3.9687,
      "step": 121630
    },
    {
      "epoch": 0.2534166666666667,
      "grad_norm": 0.7229279279708862,
      "learning_rate": 0.00025596837758286935,
      "loss": 3.9386,
      "step": 121640
    },
    {
      "epoch": 0.2534375,
      "grad_norm": 0.7028369307518005,
      "learning_rate": 0.0002559613998920354,
      "loss": 3.937,
      "step": 121650
    },
    {
      "epoch": 0.25345833333333334,
      "grad_norm": 0.7590677738189697,
      "learning_rate": 0.0002559544217434902,
      "loss": 3.9575,
      "step": 121660
    },
    {
      "epoch": 0.25347916666666664,
      "grad_norm": 0.7592951655387878,
      "learning_rate": 0.0002559474431372638,
      "loss": 4.1414,
      "step": 121670
    },
    {
      "epoch": 0.2535,
      "grad_norm": 0.7253739237785339,
      "learning_rate": 0.00025594046407338635,
      "loss": 4.09,
      "step": 121680
    },
    {
      "epoch": 0.2535208333333333,
      "grad_norm": 0.756971538066864,
      "learning_rate": 0.00025593348455188805,
      "loss": 3.961,
      "step": 121690
    },
    {
      "epoch": 0.25354166666666667,
      "grad_norm": 0.7953006029129028,
      "learning_rate": 0.00025592650457279903,
      "loss": 3.8939,
      "step": 121700
    },
    {
      "epoch": 0.2535625,
      "grad_norm": 0.8033788800239563,
      "learning_rate": 0.0002559195241361494,
      "loss": 3.9133,
      "step": 121710
    },
    {
      "epoch": 0.2535833333333333,
      "grad_norm": 0.6636620759963989,
      "learning_rate": 0.00025591254324196943,
      "loss": 4.0028,
      "step": 121720
    },
    {
      "epoch": 0.2536041666666667,
      "grad_norm": 0.799985408782959,
      "learning_rate": 0.0002559055618902892,
      "loss": 3.8861,
      "step": 121730
    },
    {
      "epoch": 0.253625,
      "grad_norm": 0.7275139093399048,
      "learning_rate": 0.00025589858008113884,
      "loss": 4.0048,
      "step": 121740
    },
    {
      "epoch": 0.25364583333333335,
      "grad_norm": 0.7423003911972046,
      "learning_rate": 0.0002558915978145485,
      "loss": 3.7237,
      "step": 121750
    },
    {
      "epoch": 0.25366666666666665,
      "grad_norm": 0.8169599771499634,
      "learning_rate": 0.00025588461509054843,
      "loss": 3.8936,
      "step": 121760
    },
    {
      "epoch": 0.2536875,
      "grad_norm": 0.9925155639648438,
      "learning_rate": 0.00025587763190916866,
      "loss": 3.9105,
      "step": 121770
    },
    {
      "epoch": 0.2537083333333333,
      "grad_norm": 0.897539496421814,
      "learning_rate": 0.00025587064827043945,
      "loss": 4.0486,
      "step": 121780
    },
    {
      "epoch": 0.2537291666666667,
      "grad_norm": 0.8197892904281616,
      "learning_rate": 0.000255863664174391,
      "loss": 3.8992,
      "step": 121790
    },
    {
      "epoch": 0.25375,
      "grad_norm": 0.7355786561965942,
      "learning_rate": 0.0002558566796210534,
      "loss": 3.9267,
      "step": 121800
    },
    {
      "epoch": 0.25377083333333333,
      "grad_norm": 0.8426274061203003,
      "learning_rate": 0.00025584969461045677,
      "loss": 3.7266,
      "step": 121810
    },
    {
      "epoch": 0.2537916666666667,
      "grad_norm": 0.696071207523346,
      "learning_rate": 0.00025584270914263144,
      "loss": 3.866,
      "step": 121820
    },
    {
      "epoch": 0.2538125,
      "grad_norm": 0.8615666031837463,
      "learning_rate": 0.0002558357232176075,
      "loss": 3.7578,
      "step": 121830
    },
    {
      "epoch": 0.25383333333333336,
      "grad_norm": 0.8186092972755432,
      "learning_rate": 0.0002558287368354151,
      "loss": 4.0919,
      "step": 121840
    },
    {
      "epoch": 0.25385416666666666,
      "grad_norm": 0.7571873664855957,
      "learning_rate": 0.00025582174999608443,
      "loss": 3.8216,
      "step": 121850
    },
    {
      "epoch": 0.253875,
      "grad_norm": 0.7702712416648865,
      "learning_rate": 0.0002558147626996457,
      "loss": 3.7353,
      "step": 121860
    },
    {
      "epoch": 0.2538958333333333,
      "grad_norm": 0.9109023809432983,
      "learning_rate": 0.0002558077749461291,
      "loss": 3.7455,
      "step": 121870
    },
    {
      "epoch": 0.2539166666666667,
      "grad_norm": 0.6919938921928406,
      "learning_rate": 0.0002558007867355648,
      "loss": 4.0042,
      "step": 121880
    },
    {
      "epoch": 0.2539375,
      "grad_norm": 0.7383454442024231,
      "learning_rate": 0.000255793798067983,
      "loss": 3.9249,
      "step": 121890
    },
    {
      "epoch": 0.25395833333333334,
      "grad_norm": 0.8780270218849182,
      "learning_rate": 0.0002557868089434138,
      "loss": 3.8776,
      "step": 121900
    },
    {
      "epoch": 0.25397916666666664,
      "grad_norm": 0.8410590887069702,
      "learning_rate": 0.0002557798193618875,
      "loss": 3.8477,
      "step": 121910
    },
    {
      "epoch": 0.254,
      "grad_norm": 0.7239342331886292,
      "learning_rate": 0.0002557728293234343,
      "loss": 3.8128,
      "step": 121920
    },
    {
      "epoch": 0.2540208333333333,
      "grad_norm": 0.8340786099433899,
      "learning_rate": 0.0002557658388280842,
      "loss": 3.8515,
      "step": 121930
    },
    {
      "epoch": 0.25404166666666667,
      "grad_norm": 0.7492425441741943,
      "learning_rate": 0.0002557588478758677,
      "loss": 3.8772,
      "step": 121940
    },
    {
      "epoch": 0.2540625,
      "grad_norm": 0.7921425104141235,
      "learning_rate": 0.00025575185646681476,
      "loss": 3.7841,
      "step": 121950
    },
    {
      "epoch": 0.2540833333333333,
      "grad_norm": 0.8106657862663269,
      "learning_rate": 0.00025574486460095563,
      "loss": 3.8924,
      "step": 121960
    },
    {
      "epoch": 0.2541041666666667,
      "grad_norm": 0.7648448348045349,
      "learning_rate": 0.0002557378722783206,
      "loss": 3.861,
      "step": 121970
    },
    {
      "epoch": 0.254125,
      "grad_norm": 0.7433361411094666,
      "learning_rate": 0.0002557308794989398,
      "loss": 3.806,
      "step": 121980
    },
    {
      "epoch": 0.25414583333333335,
      "grad_norm": 0.796608030796051,
      "learning_rate": 0.00025572388626284346,
      "loss": 3.8557,
      "step": 121990
    },
    {
      "epoch": 0.25416666666666665,
      "grad_norm": 0.7360089421272278,
      "learning_rate": 0.00025571689257006177,
      "loss": 3.8568,
      "step": 122000
    },
    {
      "epoch": 0.25416666666666665,
      "eval_loss": 4.245745658874512,
      "eval_runtime": 12.15,
      "eval_samples_per_second": 0.823,
      "eval_steps_per_second": 0.247,
      "step": 122000
    },
    {
      "epoch": 0.2541875,
      "grad_norm": 0.8472940921783447,
      "learning_rate": 0.00025570989842062496,
      "loss": 3.8912,
      "step": 122010
    },
    {
      "epoch": 0.2542083333333333,
      "grad_norm": 0.9246723055839539,
      "learning_rate": 0.00025570290381456324,
      "loss": 3.9627,
      "step": 122020
    },
    {
      "epoch": 0.2542291666666667,
      "grad_norm": 0.6533786654472351,
      "learning_rate": 0.00025569590875190674,
      "loss": 3.8987,
      "step": 122030
    },
    {
      "epoch": 0.25425,
      "grad_norm": 0.7841284275054932,
      "learning_rate": 0.0002556889132326859,
      "loss": 4.0775,
      "step": 122040
    },
    {
      "epoch": 0.25427083333333333,
      "grad_norm": 0.748523473739624,
      "learning_rate": 0.00025568191725693063,
      "loss": 3.8426,
      "step": 122050
    },
    {
      "epoch": 0.2542916666666667,
      "grad_norm": 0.7868027091026306,
      "learning_rate": 0.0002556749208246714,
      "loss": 3.9721,
      "step": 122060
    },
    {
      "epoch": 0.2543125,
      "grad_norm": 0.7887148857116699,
      "learning_rate": 0.0002556679239359383,
      "loss": 3.9262,
      "step": 122070
    },
    {
      "epoch": 0.25433333333333336,
      "grad_norm": 0.7029684782028198,
      "learning_rate": 0.00025566092659076164,
      "loss": 3.9143,
      "step": 122080
    },
    {
      "epoch": 0.25435416666666666,
      "grad_norm": 0.7081499695777893,
      "learning_rate": 0.00025565392878917155,
      "loss": 3.8562,
      "step": 122090
    },
    {
      "epoch": 0.254375,
      "grad_norm": 0.8073983192443848,
      "learning_rate": 0.0002556469305311983,
      "loss": 3.9377,
      "step": 122100
    },
    {
      "epoch": 0.2543958333333333,
      "grad_norm": 0.7894736528396606,
      "learning_rate": 0.0002556399318168722,
      "loss": 3.9595,
      "step": 122110
    },
    {
      "epoch": 0.2544166666666667,
      "grad_norm": 0.9658898115158081,
      "learning_rate": 0.0002556329326462234,
      "loss": 3.9797,
      "step": 122120
    },
    {
      "epoch": 0.2544375,
      "grad_norm": 0.9060232043266296,
      "learning_rate": 0.00025562593301928205,
      "loss": 3.9695,
      "step": 122130
    },
    {
      "epoch": 0.25445833333333334,
      "grad_norm": 0.6842469573020935,
      "learning_rate": 0.0002556189329360786,
      "loss": 3.8601,
      "step": 122140
    },
    {
      "epoch": 0.25447916666666665,
      "grad_norm": 1.150064468383789,
      "learning_rate": 0.00025561193239664306,
      "loss": 3.9203,
      "step": 122150
    },
    {
      "epoch": 0.2545,
      "grad_norm": 0.9308398962020874,
      "learning_rate": 0.00025560493140100584,
      "loss": 3.8873,
      "step": 122160
    },
    {
      "epoch": 0.2545208333333333,
      "grad_norm": 0.7282404899597168,
      "learning_rate": 0.0002555979299491971,
      "loss": 3.79,
      "step": 122170
    },
    {
      "epoch": 0.25454166666666667,
      "grad_norm": 1.0073978900909424,
      "learning_rate": 0.00025559092804124713,
      "loss": 3.9872,
      "step": 122180
    },
    {
      "epoch": 0.2545625,
      "grad_norm": 0.9029121398925781,
      "learning_rate": 0.00025558392567718614,
      "loss": 3.7715,
      "step": 122190
    },
    {
      "epoch": 0.25458333333333333,
      "grad_norm": 0.8129239678382874,
      "learning_rate": 0.0002555769228570443,
      "loss": 3.6545,
      "step": 122200
    },
    {
      "epoch": 0.2546041666666667,
      "grad_norm": 0.7182120084762573,
      "learning_rate": 0.00025556991958085204,
      "loss": 3.8561,
      "step": 122210
    },
    {
      "epoch": 0.254625,
      "grad_norm": 1.0001956224441528,
      "learning_rate": 0.00025556291584863947,
      "loss": 3.8014,
      "step": 122220
    },
    {
      "epoch": 0.25464583333333335,
      "grad_norm": 0.7054966688156128,
      "learning_rate": 0.0002555559116604369,
      "loss": 4.0192,
      "step": 122230
    },
    {
      "epoch": 0.25466666666666665,
      "grad_norm": 0.7987936735153198,
      "learning_rate": 0.00025554890701627456,
      "loss": 3.925,
      "step": 122240
    },
    {
      "epoch": 0.2546875,
      "grad_norm": 0.828335702419281,
      "learning_rate": 0.00025554190191618277,
      "loss": 3.9721,
      "step": 122250
    },
    {
      "epoch": 0.2547083333333333,
      "grad_norm": 0.9285962581634521,
      "learning_rate": 0.0002555348963601917,
      "loss": 3.7932,
      "step": 122260
    },
    {
      "epoch": 0.2547291666666667,
      "grad_norm": 0.763226330280304,
      "learning_rate": 0.00025552789034833165,
      "loss": 4.0695,
      "step": 122270
    },
    {
      "epoch": 0.25475,
      "grad_norm": 0.767857015132904,
      "learning_rate": 0.0002555208838806329,
      "loss": 3.8776,
      "step": 122280
    },
    {
      "epoch": 0.25477083333333334,
      "grad_norm": 0.7867432236671448,
      "learning_rate": 0.0002555138769571257,
      "loss": 3.9555,
      "step": 122290
    },
    {
      "epoch": 0.2547916666666667,
      "grad_norm": 0.9079267978668213,
      "learning_rate": 0.00025550686957784025,
      "loss": 3.9725,
      "step": 122300
    },
    {
      "epoch": 0.2548125,
      "grad_norm": 0.7566112279891968,
      "learning_rate": 0.000255499861742807,
      "loss": 3.8875,
      "step": 122310
    },
    {
      "epoch": 0.25483333333333336,
      "grad_norm": 0.7526160478591919,
      "learning_rate": 0.000255492853452056,
      "loss": 3.7702,
      "step": 122320
    },
    {
      "epoch": 0.25485416666666666,
      "grad_norm": 0.674804151058197,
      "learning_rate": 0.0002554858447056177,
      "loss": 3.9145,
      "step": 122330
    },
    {
      "epoch": 0.254875,
      "grad_norm": 0.8304701447486877,
      "learning_rate": 0.0002554788355035223,
      "loss": 3.8947,
      "step": 122340
    },
    {
      "epoch": 0.2548958333333333,
      "grad_norm": 0.7669332027435303,
      "learning_rate": 0.00025547182584580006,
      "loss": 4.0562,
      "step": 122350
    },
    {
      "epoch": 0.2549166666666667,
      "grad_norm": 0.9039373993873596,
      "learning_rate": 0.0002554648157324813,
      "loss": 3.9634,
      "step": 122360
    },
    {
      "epoch": 0.2549375,
      "grad_norm": 1.0647691488265991,
      "learning_rate": 0.0002554578051635963,
      "loss": 3.8522,
      "step": 122370
    },
    {
      "epoch": 0.25495833333333334,
      "grad_norm": 0.7994902729988098,
      "learning_rate": 0.00025545079413917527,
      "loss": 3.8191,
      "step": 122380
    },
    {
      "epoch": 0.25497916666666665,
      "grad_norm": 0.8157479763031006,
      "learning_rate": 0.0002554437826592486,
      "loss": 3.9087,
      "step": 122390
    },
    {
      "epoch": 0.255,
      "grad_norm": 0.7394007444381714,
      "learning_rate": 0.00025543677072384645,
      "loss": 3.8407,
      "step": 122400
    },
    {
      "epoch": 0.2550208333333333,
      "grad_norm": 0.7095553278923035,
      "learning_rate": 0.00025542975833299926,
      "loss": 3.9824,
      "step": 122410
    },
    {
      "epoch": 0.25504166666666667,
      "grad_norm": 0.7835497856140137,
      "learning_rate": 0.0002554227454867372,
      "loss": 4.0136,
      "step": 122420
    },
    {
      "epoch": 0.2550625,
      "grad_norm": 0.7826550006866455,
      "learning_rate": 0.0002554157321850906,
      "loss": 3.962,
      "step": 122430
    },
    {
      "epoch": 0.25508333333333333,
      "grad_norm": 0.8854622840881348,
      "learning_rate": 0.00025540871842808985,
      "loss": 4.0852,
      "step": 122440
    },
    {
      "epoch": 0.2551041666666667,
      "grad_norm": 0.7793246507644653,
      "learning_rate": 0.0002554017042157651,
      "loss": 3.7513,
      "step": 122450
    },
    {
      "epoch": 0.255125,
      "grad_norm": 0.8006263971328735,
      "learning_rate": 0.0002553946895481467,
      "loss": 3.9724,
      "step": 122460
    },
    {
      "epoch": 0.25514583333333335,
      "grad_norm": 0.6950088143348694,
      "learning_rate": 0.00025538767442526497,
      "loss": 3.9372,
      "step": 122470
    },
    {
      "epoch": 0.25516666666666665,
      "grad_norm": 0.7269414663314819,
      "learning_rate": 0.0002553806588471502,
      "loss": 3.8277,
      "step": 122480
    },
    {
      "epoch": 0.2551875,
      "grad_norm": 0.7935929298400879,
      "learning_rate": 0.0002553736428138327,
      "loss": 3.77,
      "step": 122490
    },
    {
      "epoch": 0.2552083333333333,
      "grad_norm": 0.7291639447212219,
      "learning_rate": 0.0002553666263253428,
      "loss": 3.7836,
      "step": 122500
    },
    {
      "epoch": 0.2552291666666667,
      "grad_norm": 0.6680218577384949,
      "learning_rate": 0.00025535960938171076,
      "loss": 3.8837,
      "step": 122510
    },
    {
      "epoch": 0.25525,
      "grad_norm": 0.7831098437309265,
      "learning_rate": 0.0002553525919829669,
      "loss": 3.8234,
      "step": 122520
    },
    {
      "epoch": 0.25527083333333334,
      "grad_norm": 0.9405339360237122,
      "learning_rate": 0.00025534557412914156,
      "loss": 3.9128,
      "step": 122530
    },
    {
      "epoch": 0.25529166666666664,
      "grad_norm": 0.8431889414787292,
      "learning_rate": 0.00025533855582026506,
      "loss": 3.9239,
      "step": 122540
    },
    {
      "epoch": 0.2553125,
      "grad_norm": 0.8103720545768738,
      "learning_rate": 0.0002553315370563676,
      "loss": 3.8447,
      "step": 122550
    },
    {
      "epoch": 0.25533333333333336,
      "grad_norm": 0.7310870289802551,
      "learning_rate": 0.0002553245178374797,
      "loss": 3.9477,
      "step": 122560
    },
    {
      "epoch": 0.25535416666666666,
      "grad_norm": 0.798087477684021,
      "learning_rate": 0.0002553174981636315,
      "loss": 3.8384,
      "step": 122570
    },
    {
      "epoch": 0.255375,
      "grad_norm": 0.9288086295127869,
      "learning_rate": 0.0002553104780348534,
      "loss": 3.7052,
      "step": 122580
    },
    {
      "epoch": 0.2553958333333333,
      "grad_norm": 0.7807664275169373,
      "learning_rate": 0.0002553034574511758,
      "loss": 3.7648,
      "step": 122590
    },
    {
      "epoch": 0.2554166666666667,
      "grad_norm": 0.7199801802635193,
      "learning_rate": 0.00025529643641262887,
      "loss": 3.9649,
      "step": 122600
    },
    {
      "epoch": 0.2554375,
      "grad_norm": 0.7428087592124939,
      "learning_rate": 0.0002552894149192431,
      "loss": 3.7378,
      "step": 122610
    },
    {
      "epoch": 0.25545833333333334,
      "grad_norm": 0.8273755311965942,
      "learning_rate": 0.0002552823929710486,
      "loss": 3.8587,
      "step": 122620
    },
    {
      "epoch": 0.25547916666666665,
      "grad_norm": 0.7651100158691406,
      "learning_rate": 0.0002552753705680759,
      "loss": 3.8999,
      "step": 122630
    },
    {
      "epoch": 0.2555,
      "grad_norm": 0.7891558408737183,
      "learning_rate": 0.0002552683477103553,
      "loss": 3.7939,
      "step": 122640
    },
    {
      "epoch": 0.2555208333333333,
      "grad_norm": 0.7235525846481323,
      "learning_rate": 0.00025526132439791707,
      "loss": 3.9335,
      "step": 122650
    },
    {
      "epoch": 0.25554166666666667,
      "grad_norm": 0.8479325771331787,
      "learning_rate": 0.0002552543006307916,
      "loss": 3.8592,
      "step": 122660
    },
    {
      "epoch": 0.2555625,
      "grad_norm": 0.8167728185653687,
      "learning_rate": 0.0002552472764090092,
      "loss": 3.9896,
      "step": 122670
    },
    {
      "epoch": 0.25558333333333333,
      "grad_norm": 0.7632333040237427,
      "learning_rate": 0.0002552402517326002,
      "loss": 3.9471,
      "step": 122680
    },
    {
      "epoch": 0.2556041666666667,
      "grad_norm": 0.6817264556884766,
      "learning_rate": 0.000255233226601595,
      "loss": 3.8339,
      "step": 122690
    },
    {
      "epoch": 0.255625,
      "grad_norm": 0.6638977527618408,
      "learning_rate": 0.000255226201016024,
      "loss": 3.7955,
      "step": 122700
    },
    {
      "epoch": 0.25564583333333335,
      "grad_norm": 0.8164833188056946,
      "learning_rate": 0.0002552191749759173,
      "loss": 3.9719,
      "step": 122710
    },
    {
      "epoch": 0.25566666666666665,
      "grad_norm": 0.7554192543029785,
      "learning_rate": 0.00025521214848130553,
      "loss": 3.7683,
      "step": 122720
    },
    {
      "epoch": 0.2556875,
      "grad_norm": 0.862862229347229,
      "learning_rate": 0.0002552051215322189,
      "loss": 4.042,
      "step": 122730
    },
    {
      "epoch": 0.2557083333333333,
      "grad_norm": 0.7576764822006226,
      "learning_rate": 0.0002551980941286878,
      "loss": 3.8817,
      "step": 122740
    },
    {
      "epoch": 0.2557291666666667,
      "grad_norm": 0.7268933653831482,
      "learning_rate": 0.0002551910662707425,
      "loss": 3.8959,
      "step": 122750
    },
    {
      "epoch": 0.25575,
      "grad_norm": 0.7075655460357666,
      "learning_rate": 0.00025518403795841353,
      "loss": 3.8649,
      "step": 122760
    },
    {
      "epoch": 0.25577083333333334,
      "grad_norm": 0.7173409461975098,
      "learning_rate": 0.0002551770091917311,
      "loss": 3.7997,
      "step": 122770
    },
    {
      "epoch": 0.25579166666666664,
      "grad_norm": 0.7798449397087097,
      "learning_rate": 0.00025516997997072563,
      "loss": 3.8805,
      "step": 122780
    },
    {
      "epoch": 0.2558125,
      "grad_norm": 0.8994219303131104,
      "learning_rate": 0.00025516295029542744,
      "loss": 3.8036,
      "step": 122790
    },
    {
      "epoch": 0.25583333333333336,
      "grad_norm": 0.7527036666870117,
      "learning_rate": 0.00025515592016586697,
      "loss": 3.9481,
      "step": 122800
    },
    {
      "epoch": 0.25585416666666666,
      "grad_norm": 0.7440403699874878,
      "learning_rate": 0.0002551488895820745,
      "loss": 4.0159,
      "step": 122810
    },
    {
      "epoch": 0.255875,
      "grad_norm": 0.996717095375061,
      "learning_rate": 0.00025514185854408057,
      "loss": 3.8228,
      "step": 122820
    },
    {
      "epoch": 0.2558958333333333,
      "grad_norm": 0.7742910385131836,
      "learning_rate": 0.0002551348270519153,
      "loss": 4.0371,
      "step": 122830
    },
    {
      "epoch": 0.2559166666666667,
      "grad_norm": 0.7035742998123169,
      "learning_rate": 0.00025512779510560924,
      "loss": 3.929,
      "step": 122840
    },
    {
      "epoch": 0.2559375,
      "grad_norm": 0.7828935384750366,
      "learning_rate": 0.00025512076270519274,
      "loss": 3.8812,
      "step": 122850
    },
    {
      "epoch": 0.25595833333333334,
      "grad_norm": 0.8394277095794678,
      "learning_rate": 0.0002551137298506961,
      "loss": 4.0769,
      "step": 122860
    },
    {
      "epoch": 0.25597916666666665,
      "grad_norm": 0.8173779845237732,
      "learning_rate": 0.0002551066965421498,
      "loss": 3.8619,
      "step": 122870
    },
    {
      "epoch": 0.256,
      "grad_norm": 0.783973217010498,
      "learning_rate": 0.0002550996627795842,
      "loss": 3.8231,
      "step": 122880
    },
    {
      "epoch": 0.2560208333333333,
      "grad_norm": 0.7930118441581726,
      "learning_rate": 0.0002550926285630296,
      "loss": 3.8759,
      "step": 122890
    },
    {
      "epoch": 0.25604166666666667,
      "grad_norm": 0.7267900109291077,
      "learning_rate": 0.00025508559389251644,
      "loss": 3.9581,
      "step": 122900
    },
    {
      "epoch": 0.2560625,
      "grad_norm": 0.7776886224746704,
      "learning_rate": 0.0002550785587680751,
      "loss": 3.8788,
      "step": 122910
    },
    {
      "epoch": 0.25608333333333333,
      "grad_norm": 0.6874433159828186,
      "learning_rate": 0.00025507152318973605,
      "loss": 3.9295,
      "step": 122920
    },
    {
      "epoch": 0.2561041666666667,
      "grad_norm": 0.6802135705947876,
      "learning_rate": 0.0002550644871575296,
      "loss": 3.9914,
      "step": 122930
    },
    {
      "epoch": 0.256125,
      "grad_norm": 0.7601392269134521,
      "learning_rate": 0.0002550574506714861,
      "loss": 3.8849,
      "step": 122940
    },
    {
      "epoch": 0.25614583333333335,
      "grad_norm": 0.6520267128944397,
      "learning_rate": 0.000255050413731636,
      "loss": 3.8921,
      "step": 122950
    },
    {
      "epoch": 0.25616666666666665,
      "grad_norm": 0.8737296462059021,
      "learning_rate": 0.0002550433763380098,
      "loss": 3.7735,
      "step": 122960
    },
    {
      "epoch": 0.2561875,
      "grad_norm": 0.7600423693656921,
      "learning_rate": 0.00025503633849063763,
      "loss": 4.1348,
      "step": 122970
    },
    {
      "epoch": 0.2562083333333333,
      "grad_norm": 0.7844699621200562,
      "learning_rate": 0.0002550293001895501,
      "loss": 4.0016,
      "step": 122980
    },
    {
      "epoch": 0.2562291666666667,
      "grad_norm": 0.8737956285476685,
      "learning_rate": 0.0002550222614347777,
      "loss": 4.0822,
      "step": 122990
    },
    {
      "epoch": 0.25625,
      "grad_norm": 0.8076602220535278,
      "learning_rate": 0.00025501522222635053,
      "loss": 3.9708,
      "step": 123000
    },
    {
      "epoch": 0.25625,
      "eval_loss": 4.264017581939697,
      "eval_runtime": 10.1701,
      "eval_samples_per_second": 0.983,
      "eval_steps_per_second": 0.295,
      "step": 123000
    },
    {
      "epoch": 0.25627083333333334,
      "grad_norm": 0.6663829684257507,
      "learning_rate": 0.00025500818256429927,
      "loss": 3.8824,
      "step": 123010
    },
    {
      "epoch": 0.25629166666666664,
      "grad_norm": 0.7565566301345825,
      "learning_rate": 0.0002550011424486542,
      "loss": 3.842,
      "step": 123020
    },
    {
      "epoch": 0.2563125,
      "grad_norm": 0.6882497668266296,
      "learning_rate": 0.0002549941018794458,
      "loss": 3.7493,
      "step": 123030
    },
    {
      "epoch": 0.25633333333333336,
      "grad_norm": 0.7661148905754089,
      "learning_rate": 0.00025498706085670436,
      "loss": 3.904,
      "step": 123040
    },
    {
      "epoch": 0.25635416666666666,
      "grad_norm": 0.8320885300636292,
      "learning_rate": 0.00025498001938046037,
      "loss": 3.8333,
      "step": 123050
    },
    {
      "epoch": 0.256375,
      "grad_norm": 0.8629175424575806,
      "learning_rate": 0.0002549729774507443,
      "loss": 3.8462,
      "step": 123060
    },
    {
      "epoch": 0.2563958333333333,
      "grad_norm": 0.7744255065917969,
      "learning_rate": 0.0002549659350675865,
      "loss": 3.8889,
      "step": 123070
    },
    {
      "epoch": 0.2564166666666667,
      "grad_norm": 0.7551950216293335,
      "learning_rate": 0.0002549588922310175,
      "loss": 3.8855,
      "step": 123080
    },
    {
      "epoch": 0.2564375,
      "grad_norm": 0.7434254884719849,
      "learning_rate": 0.0002549518489410675,
      "loss": 3.7741,
      "step": 123090
    },
    {
      "epoch": 0.25645833333333334,
      "grad_norm": 0.7633050084114075,
      "learning_rate": 0.0002549448051977671,
      "loss": 3.9432,
      "step": 123100
    },
    {
      "epoch": 0.25647916666666665,
      "grad_norm": 0.8874149322509766,
      "learning_rate": 0.0002549377610011467,
      "loss": 3.8882,
      "step": 123110
    },
    {
      "epoch": 0.2565,
      "grad_norm": 0.7932197451591492,
      "learning_rate": 0.0002549307163512367,
      "loss": 3.9249,
      "step": 123120
    },
    {
      "epoch": 0.2565208333333333,
      "grad_norm": 0.7309422492980957,
      "learning_rate": 0.0002549236712480675,
      "loss": 3.9342,
      "step": 123130
    },
    {
      "epoch": 0.25654166666666667,
      "grad_norm": 0.7593932151794434,
      "learning_rate": 0.0002549166256916696,
      "loss": 3.7309,
      "step": 123140
    },
    {
      "epoch": 0.2565625,
      "grad_norm": 0.7775632739067078,
      "learning_rate": 0.00025490957968207344,
      "loss": 3.8367,
      "step": 123150
    },
    {
      "epoch": 0.25658333333333333,
      "grad_norm": 0.8250019550323486,
      "learning_rate": 0.00025490253321930936,
      "loss": 3.93,
      "step": 123160
    },
    {
      "epoch": 0.2566041666666667,
      "grad_norm": 0.7543537616729736,
      "learning_rate": 0.0002548954863034079,
      "loss": 3.8231,
      "step": 123170
    },
    {
      "epoch": 0.256625,
      "grad_norm": 0.7579241991043091,
      "learning_rate": 0.00025488843893439945,
      "loss": 3.8402,
      "step": 123180
    },
    {
      "epoch": 0.25664583333333335,
      "grad_norm": 0.7764449715614319,
      "learning_rate": 0.00025488139111231445,
      "loss": 3.8037,
      "step": 123190
    },
    {
      "epoch": 0.25666666666666665,
      "grad_norm": 0.7625073194503784,
      "learning_rate": 0.0002548743428371834,
      "loss": 3.8367,
      "step": 123200
    },
    {
      "epoch": 0.2566875,
      "grad_norm": 0.7020337581634521,
      "learning_rate": 0.00025486729410903664,
      "loss": 3.7437,
      "step": 123210
    },
    {
      "epoch": 0.2567083333333333,
      "grad_norm": 0.8053200244903564,
      "learning_rate": 0.0002548602449279047,
      "loss": 4.1377,
      "step": 123220
    },
    {
      "epoch": 0.2567291666666667,
      "grad_norm": 0.7035488486289978,
      "learning_rate": 0.00025485319529381804,
      "loss": 3.5944,
      "step": 123230
    },
    {
      "epoch": 0.25675,
      "grad_norm": 0.8079847693443298,
      "learning_rate": 0.00025484614520680706,
      "loss": 3.9193,
      "step": 123240
    },
    {
      "epoch": 0.25677083333333334,
      "grad_norm": 0.780421257019043,
      "learning_rate": 0.0002548390946669022,
      "loss": 3.9983,
      "step": 123250
    },
    {
      "epoch": 0.25679166666666664,
      "grad_norm": 0.7805395126342773,
      "learning_rate": 0.000254832043674134,
      "loss": 3.8802,
      "step": 123260
    },
    {
      "epoch": 0.2568125,
      "grad_norm": 0.9617951512336731,
      "learning_rate": 0.00025482499222853286,
      "loss": 3.8371,
      "step": 123270
    },
    {
      "epoch": 0.25683333333333336,
      "grad_norm": 0.7822078466415405,
      "learning_rate": 0.00025481794033012926,
      "loss": 4.0892,
      "step": 123280
    },
    {
      "epoch": 0.25685416666666666,
      "grad_norm": 0.7932943105697632,
      "learning_rate": 0.0002548108879789536,
      "loss": 4.0008,
      "step": 123290
    },
    {
      "epoch": 0.256875,
      "grad_norm": 0.6648269891738892,
      "learning_rate": 0.0002548038351750364,
      "loss": 3.9107,
      "step": 123300
    },
    {
      "epoch": 0.2568958333333333,
      "grad_norm": 0.7559646964073181,
      "learning_rate": 0.0002547967819184081,
      "loss": 3.9227,
      "step": 123310
    },
    {
      "epoch": 0.2569166666666667,
      "grad_norm": 0.8561594486236572,
      "learning_rate": 0.00025478972820909925,
      "loss": 3.8662,
      "step": 123320
    },
    {
      "epoch": 0.2569375,
      "grad_norm": 0.7902250289916992,
      "learning_rate": 0.0002547826740471402,
      "loss": 3.9132,
      "step": 123330
    },
    {
      "epoch": 0.25695833333333334,
      "grad_norm": 0.6709364056587219,
      "learning_rate": 0.0002547756194325615,
      "loss": 3.7501,
      "step": 123340
    },
    {
      "epoch": 0.25697916666666665,
      "grad_norm": 0.6332309246063232,
      "learning_rate": 0.00025476856436539355,
      "loss": 3.9666,
      "step": 123350
    },
    {
      "epoch": 0.257,
      "grad_norm": 0.7513301968574524,
      "learning_rate": 0.00025476150884566693,
      "loss": 3.8969,
      "step": 123360
    },
    {
      "epoch": 0.2570208333333333,
      "grad_norm": 0.7570653557777405,
      "learning_rate": 0.00025475445287341205,
      "loss": 3.8432,
      "step": 123370
    },
    {
      "epoch": 0.25704166666666667,
      "grad_norm": 0.9477332234382629,
      "learning_rate": 0.0002547473964486594,
      "loss": 3.6082,
      "step": 123380
    },
    {
      "epoch": 0.2570625,
      "grad_norm": 0.7053232192993164,
      "learning_rate": 0.0002547403395714394,
      "loss": 3.9389,
      "step": 123390
    },
    {
      "epoch": 0.25708333333333333,
      "grad_norm": 0.7853904366493225,
      "learning_rate": 0.00025473328224178267,
      "loss": 4.0302,
      "step": 123400
    },
    {
      "epoch": 0.2571041666666667,
      "grad_norm": 0.6600403785705566,
      "learning_rate": 0.00025472622445971957,
      "loss": 3.9181,
      "step": 123410
    },
    {
      "epoch": 0.257125,
      "grad_norm": 0.6581685543060303,
      "learning_rate": 0.00025471916622528065,
      "loss": 4.0294,
      "step": 123420
    },
    {
      "epoch": 0.25714583333333335,
      "grad_norm": 0.9002470374107361,
      "learning_rate": 0.0002547121075384964,
      "loss": 3.7531,
      "step": 123430
    },
    {
      "epoch": 0.25716666666666665,
      "grad_norm": 0.7525268197059631,
      "learning_rate": 0.00025470504839939726,
      "loss": 3.8562,
      "step": 123440
    },
    {
      "epoch": 0.2571875,
      "grad_norm": 0.7973129153251648,
      "learning_rate": 0.00025469798880801373,
      "loss": 3.8493,
      "step": 123450
    },
    {
      "epoch": 0.2572083333333333,
      "grad_norm": 0.7802343964576721,
      "learning_rate": 0.0002546909287643764,
      "loss": 3.8465,
      "step": 123460
    },
    {
      "epoch": 0.2572291666666667,
      "grad_norm": 0.816387951374054,
      "learning_rate": 0.0002546838682685157,
      "loss": 4.0178,
      "step": 123470
    },
    {
      "epoch": 0.25725,
      "grad_norm": 0.9299994707107544,
      "learning_rate": 0.00025467680732046207,
      "loss": 3.9357,
      "step": 123480
    },
    {
      "epoch": 0.25727083333333334,
      "grad_norm": 1.0197807550430298,
      "learning_rate": 0.00025466974592024605,
      "loss": 3.8494,
      "step": 123490
    },
    {
      "epoch": 0.25729166666666664,
      "grad_norm": 0.7756060361862183,
      "learning_rate": 0.00025466268406789826,
      "loss": 3.8866,
      "step": 123500
    },
    {
      "epoch": 0.2573125,
      "grad_norm": 1.6386724710464478,
      "learning_rate": 0.00025465562176344906,
      "loss": 3.9226,
      "step": 123510
    },
    {
      "epoch": 0.25733333333333336,
      "grad_norm": 0.9133806824684143,
      "learning_rate": 0.00025464855900692897,
      "loss": 4.0266,
      "step": 123520
    },
    {
      "epoch": 0.25735416666666666,
      "grad_norm": 0.901220440864563,
      "learning_rate": 0.0002546414957983685,
      "loss": 3.8631,
      "step": 123530
    },
    {
      "epoch": 0.257375,
      "grad_norm": 0.8609871864318848,
      "learning_rate": 0.00025463443213779826,
      "loss": 3.9756,
      "step": 123540
    },
    {
      "epoch": 0.2573958333333333,
      "grad_norm": 0.867235541343689,
      "learning_rate": 0.0002546273680252486,
      "loss": 3.9754,
      "step": 123550
    },
    {
      "epoch": 0.2574166666666667,
      "grad_norm": 0.7624629139900208,
      "learning_rate": 0.00025462030346075023,
      "loss": 3.8603,
      "step": 123560
    },
    {
      "epoch": 0.2574375,
      "grad_norm": 0.8174720406532288,
      "learning_rate": 0.0002546132384443335,
      "loss": 3.8073,
      "step": 123570
    },
    {
      "epoch": 0.25745833333333334,
      "grad_norm": 0.8174784183502197,
      "learning_rate": 0.000254606172976029,
      "loss": 3.7609,
      "step": 123580
    },
    {
      "epoch": 0.25747916666666665,
      "grad_norm": 0.7714561223983765,
      "learning_rate": 0.0002545991070558672,
      "loss": 3.8029,
      "step": 123590
    },
    {
      "epoch": 0.2575,
      "grad_norm": 0.7413188219070435,
      "learning_rate": 0.00025459204068387873,
      "loss": 3.9365,
      "step": 123600
    },
    {
      "epoch": 0.2575208333333333,
      "grad_norm": 0.7673822045326233,
      "learning_rate": 0.00025458497386009405,
      "loss": 3.6658,
      "step": 123610
    },
    {
      "epoch": 0.25754166666666667,
      "grad_norm": 0.721879243850708,
      "learning_rate": 0.00025457790658454363,
      "loss": 3.8931,
      "step": 123620
    },
    {
      "epoch": 0.2575625,
      "grad_norm": 0.68436199426651,
      "learning_rate": 0.00025457083885725804,
      "loss": 3.8777,
      "step": 123630
    },
    {
      "epoch": 0.25758333333333333,
      "grad_norm": 1.0688868761062622,
      "learning_rate": 0.00025456377067826786,
      "loss": 3.791,
      "step": 123640
    },
    {
      "epoch": 0.2576041666666667,
      "grad_norm": 1.0485574007034302,
      "learning_rate": 0.00025455670204760356,
      "loss": 3.9403,
      "step": 123650
    },
    {
      "epoch": 0.257625,
      "grad_norm": 0.6870851516723633,
      "learning_rate": 0.0002545496329652957,
      "loss": 3.8867,
      "step": 123660
    },
    {
      "epoch": 0.25764583333333335,
      "grad_norm": 0.7324002981185913,
      "learning_rate": 0.0002545425634313748,
      "loss": 3.9806,
      "step": 123670
    },
    {
      "epoch": 0.25766666666666665,
      "grad_norm": 0.702763557434082,
      "learning_rate": 0.0002545354934458714,
      "loss": 3.8342,
      "step": 123680
    },
    {
      "epoch": 0.2576875,
      "grad_norm": 0.7403936982154846,
      "learning_rate": 0.0002545284230088161,
      "loss": 3.966,
      "step": 123690
    },
    {
      "epoch": 0.2577083333333333,
      "grad_norm": 0.6795753240585327,
      "learning_rate": 0.0002545213521202393,
      "loss": 4.0627,
      "step": 123700
    },
    {
      "epoch": 0.2577291666666667,
      "grad_norm": 0.8602972030639648,
      "learning_rate": 0.00025451428078017175,
      "loss": 3.707,
      "step": 123710
    },
    {
      "epoch": 0.25775,
      "grad_norm": 0.779268205165863,
      "learning_rate": 0.0002545072089886438,
      "loss": 3.7883,
      "step": 123720
    },
    {
      "epoch": 0.25777083333333334,
      "grad_norm": 0.8189942836761475,
      "learning_rate": 0.000254500136745686,
      "loss": 3.8835,
      "step": 123730
    },
    {
      "epoch": 0.25779166666666664,
      "grad_norm": 0.7075591683387756,
      "learning_rate": 0.0002544930640513291,
      "loss": 3.7985,
      "step": 123740
    },
    {
      "epoch": 0.2578125,
      "grad_norm": 0.8226215243339539,
      "learning_rate": 0.0002544859909056035,
      "loss": 3.7181,
      "step": 123750
    },
    {
      "epoch": 0.25783333333333336,
      "grad_norm": 0.8728930950164795,
      "learning_rate": 0.0002544789173085397,
      "loss": 3.8686,
      "step": 123760
    },
    {
      "epoch": 0.25785416666666666,
      "grad_norm": 0.7152746915817261,
      "learning_rate": 0.0002544718432601684,
      "loss": 3.7939,
      "step": 123770
    },
    {
      "epoch": 0.257875,
      "grad_norm": 0.720248281955719,
      "learning_rate": 0.00025446476876052007,
      "loss": 4.0391,
      "step": 123780
    },
    {
      "epoch": 0.2578958333333333,
      "grad_norm": 0.8238843679428101,
      "learning_rate": 0.00025445769380962535,
      "loss": 3.8549,
      "step": 123790
    },
    {
      "epoch": 0.2579166666666667,
      "grad_norm": 0.7220585346221924,
      "learning_rate": 0.00025445061840751463,
      "loss": 3.8681,
      "step": 123800
    },
    {
      "epoch": 0.2579375,
      "grad_norm": 1.2090181112289429,
      "learning_rate": 0.00025444354255421865,
      "loss": 4.0841,
      "step": 123810
    },
    {
      "epoch": 0.25795833333333335,
      "grad_norm": 0.6954115033149719,
      "learning_rate": 0.0002544364662497679,
      "loss": 3.9127,
      "step": 123820
    },
    {
      "epoch": 0.25797916666666665,
      "grad_norm": 0.724224328994751,
      "learning_rate": 0.00025442938949419295,
      "loss": 3.8559,
      "step": 123830
    },
    {
      "epoch": 0.258,
      "grad_norm": 0.8149754405021667,
      "learning_rate": 0.00025442231228752437,
      "loss": 4.0301,
      "step": 123840
    },
    {
      "epoch": 0.2580208333333333,
      "grad_norm": 0.7905198335647583,
      "learning_rate": 0.0002544152346297927,
      "loss": 3.8119,
      "step": 123850
    },
    {
      "epoch": 0.25804166666666667,
      "grad_norm": 0.737500011920929,
      "learning_rate": 0.0002544081565210286,
      "loss": 3.8361,
      "step": 123860
    },
    {
      "epoch": 0.2580625,
      "grad_norm": 0.912706732749939,
      "learning_rate": 0.0002544010779612626,
      "loss": 3.9399,
      "step": 123870
    },
    {
      "epoch": 0.25808333333333333,
      "grad_norm": 0.8263036012649536,
      "learning_rate": 0.0002543939989505253,
      "loss": 3.919,
      "step": 123880
    },
    {
      "epoch": 0.2581041666666667,
      "grad_norm": 0.7969936728477478,
      "learning_rate": 0.0002543869194888471,
      "loss": 3.8462,
      "step": 123890
    },
    {
      "epoch": 0.258125,
      "grad_norm": 0.6786218881607056,
      "learning_rate": 0.00025437983957625883,
      "loss": 4.0343,
      "step": 123900
    },
    {
      "epoch": 0.25814583333333335,
      "grad_norm": 0.8772757053375244,
      "learning_rate": 0.000254372759212791,
      "loss": 3.7845,
      "step": 123910
    },
    {
      "epoch": 0.25816666666666666,
      "grad_norm": 0.828795850276947,
      "learning_rate": 0.0002543656783984741,
      "loss": 3.9971,
      "step": 123920
    },
    {
      "epoch": 0.2581875,
      "grad_norm": 1.021679162979126,
      "learning_rate": 0.0002543585971333388,
      "loss": 3.9205,
      "step": 123930
    },
    {
      "epoch": 0.2582083333333333,
      "grad_norm": 0.7323775887489319,
      "learning_rate": 0.00025435151541741566,
      "loss": 3.9553,
      "step": 123940
    },
    {
      "epoch": 0.2582291666666667,
      "grad_norm": 0.7828893661499023,
      "learning_rate": 0.0002543444332507353,
      "loss": 3.9174,
      "step": 123950
    },
    {
      "epoch": 0.25825,
      "grad_norm": 0.9655478596687317,
      "learning_rate": 0.0002543373506333283,
      "loss": 3.9622,
      "step": 123960
    },
    {
      "epoch": 0.25827083333333334,
      "grad_norm": 0.7928903698921204,
      "learning_rate": 0.00025433026756522517,
      "loss": 3.6581,
      "step": 123970
    },
    {
      "epoch": 0.25829166666666664,
      "grad_norm": 0.6856575608253479,
      "learning_rate": 0.00025432318404645666,
      "loss": 3.9822,
      "step": 123980
    },
    {
      "epoch": 0.2583125,
      "grad_norm": 0.6661348938941956,
      "learning_rate": 0.0002543161000770533,
      "loss": 3.9871,
      "step": 123990
    },
    {
      "epoch": 0.25833333333333336,
      "grad_norm": 0.8335661292076111,
      "learning_rate": 0.00025430901565704563,
      "loss": 4.0387,
      "step": 124000
    },
    {
      "epoch": 0.25833333333333336,
      "eval_loss": 4.251067638397217,
      "eval_runtime": 11.5743,
      "eval_samples_per_second": 0.864,
      "eval_steps_per_second": 0.259,
      "step": 124000
    },
    {
      "epoch": 0.25835416666666666,
      "grad_norm": 0.7266258001327515,
      "learning_rate": 0.0002543019307864643,
      "loss": 3.8805,
      "step": 124010
    },
    {
      "epoch": 0.258375,
      "grad_norm": 0.7812960147857666,
      "learning_rate": 0.0002542948454653399,
      "loss": 3.7982,
      "step": 124020
    },
    {
      "epoch": 0.2583958333333333,
      "grad_norm": 0.7820038199424744,
      "learning_rate": 0.0002542877596937031,
      "loss": 3.9949,
      "step": 124030
    },
    {
      "epoch": 0.2584166666666667,
      "grad_norm": 0.7133397459983826,
      "learning_rate": 0.00025428067347158445,
      "loss": 3.9642,
      "step": 124040
    },
    {
      "epoch": 0.2584375,
      "grad_norm": 0.824545681476593,
      "learning_rate": 0.00025427358679901455,
      "loss": 3.9314,
      "step": 124050
    },
    {
      "epoch": 0.25845833333333335,
      "grad_norm": 0.669272243976593,
      "learning_rate": 0.00025426649967602404,
      "loss": 3.9239,
      "step": 124060
    },
    {
      "epoch": 0.25847916666666665,
      "grad_norm": 0.7456676363945007,
      "learning_rate": 0.00025425941210264347,
      "loss": 3.9723,
      "step": 124070
    },
    {
      "epoch": 0.2585,
      "grad_norm": 0.7307913303375244,
      "learning_rate": 0.00025425232407890364,
      "loss": 3.9524,
      "step": 124080
    },
    {
      "epoch": 0.2585208333333333,
      "grad_norm": 0.7504796385765076,
      "learning_rate": 0.0002542452356048349,
      "loss": 3.9163,
      "step": 124090
    },
    {
      "epoch": 0.25854166666666667,
      "grad_norm": 0.7071918249130249,
      "learning_rate": 0.00025423814668046807,
      "loss": 4.0099,
      "step": 124100
    },
    {
      "epoch": 0.2585625,
      "grad_norm": 0.7127560973167419,
      "learning_rate": 0.0002542310573058337,
      "loss": 4.0147,
      "step": 124110
    },
    {
      "epoch": 0.25858333333333333,
      "grad_norm": 0.8011254072189331,
      "learning_rate": 0.0002542239674809624,
      "loss": 4.0284,
      "step": 124120
    },
    {
      "epoch": 0.2586041666666667,
      "grad_norm": 0.6737750768661499,
      "learning_rate": 0.00025421687720588484,
      "loss": 4.0175,
      "step": 124130
    },
    {
      "epoch": 0.258625,
      "grad_norm": 0.7255330085754395,
      "learning_rate": 0.0002542097864806316,
      "loss": 3.8888,
      "step": 124140
    },
    {
      "epoch": 0.25864583333333335,
      "grad_norm": 0.8695178627967834,
      "learning_rate": 0.00025420269530523334,
      "loss": 4.0788,
      "step": 124150
    },
    {
      "epoch": 0.25866666666666666,
      "grad_norm": 0.7425760626792908,
      "learning_rate": 0.00025419560367972066,
      "loss": 3.9175,
      "step": 124160
    },
    {
      "epoch": 0.2586875,
      "grad_norm": 0.770792543888092,
      "learning_rate": 0.00025418851160412427,
      "loss": 3.9048,
      "step": 124170
    },
    {
      "epoch": 0.2587083333333333,
      "grad_norm": 0.7816334962844849,
      "learning_rate": 0.0002541814190784747,
      "loss": 3.8385,
      "step": 124180
    },
    {
      "epoch": 0.2587291666666667,
      "grad_norm": 0.7317475080490112,
      "learning_rate": 0.00025417432610280266,
      "loss": 3.7843,
      "step": 124190
    },
    {
      "epoch": 0.25875,
      "grad_norm": 0.7474859952926636,
      "learning_rate": 0.00025416723267713875,
      "loss": 3.9264,
      "step": 124200
    },
    {
      "epoch": 0.25877083333333334,
      "grad_norm": 0.7384098768234253,
      "learning_rate": 0.00025416013880151365,
      "loss": 3.8893,
      "step": 124210
    },
    {
      "epoch": 0.25879166666666664,
      "grad_norm": 0.8004782795906067,
      "learning_rate": 0.000254153044475958,
      "loss": 3.8831,
      "step": 124220
    },
    {
      "epoch": 0.2588125,
      "grad_norm": 0.7437392473220825,
      "learning_rate": 0.0002541459497005024,
      "loss": 4.0504,
      "step": 124230
    },
    {
      "epoch": 0.25883333333333336,
      "grad_norm": 0.8078284859657288,
      "learning_rate": 0.0002541388544751775,
      "loss": 3.7986,
      "step": 124240
    },
    {
      "epoch": 0.25885416666666666,
      "grad_norm": 0.7285879254341125,
      "learning_rate": 0.000254131758800014,
      "loss": 3.959,
      "step": 124250
    },
    {
      "epoch": 0.258875,
      "grad_norm": 0.9711902141571045,
      "learning_rate": 0.0002541246626750425,
      "loss": 3.9585,
      "step": 124260
    },
    {
      "epoch": 0.2588958333333333,
      "grad_norm": 0.7593123912811279,
      "learning_rate": 0.00025411756610029364,
      "loss": 3.8611,
      "step": 124270
    },
    {
      "epoch": 0.2589166666666667,
      "grad_norm": 0.8298879861831665,
      "learning_rate": 0.00025411046907579816,
      "loss": 3.8176,
      "step": 124280
    },
    {
      "epoch": 0.2589375,
      "grad_norm": 0.9094129800796509,
      "learning_rate": 0.0002541033716015867,
      "loss": 3.9529,
      "step": 124290
    },
    {
      "epoch": 0.25895833333333335,
      "grad_norm": 0.7186413407325745,
      "learning_rate": 0.00025409627367768976,
      "loss": 3.8424,
      "step": 124300
    },
    {
      "epoch": 0.25897916666666665,
      "grad_norm": 0.9497385621070862,
      "learning_rate": 0.0002540891753041382,
      "loss": 3.7575,
      "step": 124310
    },
    {
      "epoch": 0.259,
      "grad_norm": 0.77397221326828,
      "learning_rate": 0.0002540820764809626,
      "loss": 3.8876,
      "step": 124320
    },
    {
      "epoch": 0.2590208333333333,
      "grad_norm": 0.8451095819473267,
      "learning_rate": 0.00025407497720819367,
      "loss": 3.8506,
      "step": 124330
    },
    {
      "epoch": 0.25904166666666667,
      "grad_norm": 0.7693751454353333,
      "learning_rate": 0.000254067877485862,
      "loss": 3.8838,
      "step": 124340
    },
    {
      "epoch": 0.2590625,
      "grad_norm": 0.7425490617752075,
      "learning_rate": 0.00025406077731399823,
      "loss": 3.9176,
      "step": 124350
    },
    {
      "epoch": 0.25908333333333333,
      "grad_norm": 0.6343768835067749,
      "learning_rate": 0.0002540536766926332,
      "loss": 3.8987,
      "step": 124360
    },
    {
      "epoch": 0.2591041666666667,
      "grad_norm": 0.7545706033706665,
      "learning_rate": 0.00025404657562179737,
      "loss": 3.9166,
      "step": 124370
    },
    {
      "epoch": 0.259125,
      "grad_norm": 0.8370146155357361,
      "learning_rate": 0.0002540394741015216,
      "loss": 3.8593,
      "step": 124380
    },
    {
      "epoch": 0.25914583333333335,
      "grad_norm": 0.7410882711410522,
      "learning_rate": 0.0002540323721318364,
      "loss": 3.997,
      "step": 124390
    },
    {
      "epoch": 0.25916666666666666,
      "grad_norm": 0.8228699564933777,
      "learning_rate": 0.0002540252697127726,
      "loss": 3.9093,
      "step": 124400
    },
    {
      "epoch": 0.2591875,
      "grad_norm": 0.8146182298660278,
      "learning_rate": 0.0002540181668443608,
      "loss": 3.7607,
      "step": 124410
    },
    {
      "epoch": 0.2592083333333333,
      "grad_norm": 0.8492233157157898,
      "learning_rate": 0.00025401106352663166,
      "loss": 3.8731,
      "step": 124420
    },
    {
      "epoch": 0.2592291666666667,
      "grad_norm": 0.6946579813957214,
      "learning_rate": 0.00025400395975961595,
      "loss": 3.7572,
      "step": 124430
    },
    {
      "epoch": 0.25925,
      "grad_norm": 0.7556657791137695,
      "learning_rate": 0.00025399685554334427,
      "loss": 3.938,
      "step": 124440
    },
    {
      "epoch": 0.25927083333333334,
      "grad_norm": 0.7477526068687439,
      "learning_rate": 0.00025398975087784735,
      "loss": 3.9119,
      "step": 124450
    },
    {
      "epoch": 0.25929166666666664,
      "grad_norm": 0.8839750289916992,
      "learning_rate": 0.0002539826457631558,
      "loss": 3.8058,
      "step": 124460
    },
    {
      "epoch": 0.2593125,
      "grad_norm": 0.8772867918014526,
      "learning_rate": 0.00025397554019930053,
      "loss": 3.872,
      "step": 124470
    },
    {
      "epoch": 0.25933333333333336,
      "grad_norm": 0.7418845295906067,
      "learning_rate": 0.00025396843418631194,
      "loss": 3.9967,
      "step": 124480
    },
    {
      "epoch": 0.25935416666666666,
      "grad_norm": 0.6874549388885498,
      "learning_rate": 0.00025396132772422095,
      "loss": 4.0313,
      "step": 124490
    },
    {
      "epoch": 0.259375,
      "grad_norm": 0.7634685635566711,
      "learning_rate": 0.00025395422081305813,
      "loss": 3.9071,
      "step": 124500
    },
    {
      "epoch": 0.2593958333333333,
      "grad_norm": 0.7108961939811707,
      "learning_rate": 0.00025394711345285423,
      "loss": 3.9105,
      "step": 124510
    },
    {
      "epoch": 0.2594166666666667,
      "grad_norm": 0.6719878315925598,
      "learning_rate": 0.00025394000564363993,
      "loss": 4.0194,
      "step": 124520
    },
    {
      "epoch": 0.2594375,
      "grad_norm": 0.7717917561531067,
      "learning_rate": 0.000253932897385446,
      "loss": 4.0139,
      "step": 124530
    },
    {
      "epoch": 0.25945833333333335,
      "grad_norm": 0.6774030923843384,
      "learning_rate": 0.00025392578867830306,
      "loss": 3.8643,
      "step": 124540
    },
    {
      "epoch": 0.25947916666666665,
      "grad_norm": 0.8911130428314209,
      "learning_rate": 0.00025391867952224186,
      "loss": 3.9496,
      "step": 124550
    },
    {
      "epoch": 0.2595,
      "grad_norm": 0.7360873222351074,
      "learning_rate": 0.0002539115699172931,
      "loss": 3.9751,
      "step": 124560
    },
    {
      "epoch": 0.2595208333333333,
      "grad_norm": 0.833248496055603,
      "learning_rate": 0.00025390445986348746,
      "loss": 3.7412,
      "step": 124570
    },
    {
      "epoch": 0.25954166666666667,
      "grad_norm": 0.8317424058914185,
      "learning_rate": 0.00025389734936085573,
      "loss": 3.7914,
      "step": 124580
    },
    {
      "epoch": 0.2595625,
      "grad_norm": 0.7068344950675964,
      "learning_rate": 0.00025389023840942853,
      "loss": 4.0938,
      "step": 124590
    },
    {
      "epoch": 0.25958333333333333,
      "grad_norm": 0.7601872086524963,
      "learning_rate": 0.0002538831270092366,
      "loss": 3.8722,
      "step": 124600
    },
    {
      "epoch": 0.2596041666666667,
      "grad_norm": 0.7938489317893982,
      "learning_rate": 0.00025387601516031077,
      "loss": 3.9926,
      "step": 124610
    },
    {
      "epoch": 0.259625,
      "grad_norm": 0.6657111048698425,
      "learning_rate": 0.0002538689028626816,
      "loss": 3.9657,
      "step": 124620
    },
    {
      "epoch": 0.25964583333333335,
      "grad_norm": 0.760567307472229,
      "learning_rate": 0.0002538617901163799,
      "loss": 3.7693,
      "step": 124630
    },
    {
      "epoch": 0.25966666666666666,
      "grad_norm": 0.7886583209037781,
      "learning_rate": 0.0002538546769214364,
      "loss": 3.9112,
      "step": 124640
    },
    {
      "epoch": 0.2596875,
      "grad_norm": 0.8053704500198364,
      "learning_rate": 0.0002538475632778818,
      "loss": 3.6496,
      "step": 124650
    },
    {
      "epoch": 0.2597083333333333,
      "grad_norm": 0.831885814666748,
      "learning_rate": 0.0002538404491857468,
      "loss": 3.8215,
      "step": 124660
    },
    {
      "epoch": 0.2597291666666667,
      "grad_norm": 0.7522137761116028,
      "learning_rate": 0.0002538333346450622,
      "loss": 4.012,
      "step": 124670
    },
    {
      "epoch": 0.25975,
      "grad_norm": 0.7375187277793884,
      "learning_rate": 0.0002538262196558587,
      "loss": 3.9396,
      "step": 124680
    },
    {
      "epoch": 0.25977083333333334,
      "grad_norm": 0.8019593358039856,
      "learning_rate": 0.000253819104218167,
      "loss": 3.853,
      "step": 124690
    },
    {
      "epoch": 0.25979166666666664,
      "grad_norm": 0.7113322615623474,
      "learning_rate": 0.00025381198833201784,
      "loss": 3.6619,
      "step": 124700
    },
    {
      "epoch": 0.2598125,
      "grad_norm": 0.8136866092681885,
      "learning_rate": 0.000253804871997442,
      "loss": 3.8443,
      "step": 124710
    },
    {
      "epoch": 0.25983333333333336,
      "grad_norm": 0.763820469379425,
      "learning_rate": 0.0002537977552144702,
      "loss": 3.855,
      "step": 124720
    },
    {
      "epoch": 0.25985416666666666,
      "grad_norm": 0.7539949417114258,
      "learning_rate": 0.0002537906379831333,
      "loss": 3.896,
      "step": 124730
    },
    {
      "epoch": 0.259875,
      "grad_norm": 0.8912409543991089,
      "learning_rate": 0.00025378352030346177,
      "loss": 3.906,
      "step": 124740
    },
    {
      "epoch": 0.2598958333333333,
      "grad_norm": 0.8272230625152588,
      "learning_rate": 0.00025377640217548653,
      "loss": 3.7073,
      "step": 124750
    },
    {
      "epoch": 0.2599166666666667,
      "grad_norm": 0.7370984554290771,
      "learning_rate": 0.0002537692835992384,
      "loss": 3.7798,
      "step": 124760
    },
    {
      "epoch": 0.2599375,
      "grad_norm": 0.7883222699165344,
      "learning_rate": 0.00025376216457474797,
      "loss": 3.8405,
      "step": 124770
    },
    {
      "epoch": 0.25995833333333335,
      "grad_norm": 0.8700327277183533,
      "learning_rate": 0.00025375504510204605,
      "loss": 3.8752,
      "step": 124780
    },
    {
      "epoch": 0.25997916666666665,
      "grad_norm": 0.7995094656944275,
      "learning_rate": 0.0002537479251811635,
      "loss": 3.919,
      "step": 124790
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8315398693084717,
      "learning_rate": 0.00025374080481213086,
      "loss": 3.8308,
      "step": 124800
    },
    {
      "epoch": 0.2600208333333333,
      "grad_norm": 0.6577749252319336,
      "learning_rate": 0.0002537336839949791,
      "loss": 3.9405,
      "step": 124810
    },
    {
      "epoch": 0.26004166666666667,
      "grad_norm": 0.6798194050788879,
      "learning_rate": 0.0002537265627297388,
      "loss": 3.9371,
      "step": 124820
    },
    {
      "epoch": 0.2600625,
      "grad_norm": 0.6858290433883667,
      "learning_rate": 0.0002537194410164409,
      "loss": 3.9768,
      "step": 124830
    },
    {
      "epoch": 0.26008333333333333,
      "grad_norm": 0.7330964803695679,
      "learning_rate": 0.000253712318855116,
      "loss": 4.0128,
      "step": 124840
    },
    {
      "epoch": 0.2601041666666667,
      "grad_norm": 0.8573942184448242,
      "learning_rate": 0.0002537051962457949,
      "loss": 3.7905,
      "step": 124850
    },
    {
      "epoch": 0.260125,
      "grad_norm": 0.8431234955787659,
      "learning_rate": 0.00025369807318850854,
      "loss": 3.8649,
      "step": 124860
    },
    {
      "epoch": 0.26014583333333335,
      "grad_norm": 0.9007709622383118,
      "learning_rate": 0.0002536909496832874,
      "loss": 3.9081,
      "step": 124870
    },
    {
      "epoch": 0.26016666666666666,
      "grad_norm": 0.7502970695495605,
      "learning_rate": 0.00025368382573016246,
      "loss": 3.6527,
      "step": 124880
    },
    {
      "epoch": 0.2601875,
      "grad_norm": 0.7453117966651917,
      "learning_rate": 0.0002536767013291645,
      "loss": 3.9686,
      "step": 124890
    },
    {
      "epoch": 0.2602083333333333,
      "grad_norm": 0.8530716300010681,
      "learning_rate": 0.00025366957648032413,
      "loss": 3.7969,
      "step": 124900
    },
    {
      "epoch": 0.2602291666666667,
      "grad_norm": 0.9883142113685608,
      "learning_rate": 0.0002536624511836723,
      "loss": 4.0666,
      "step": 124910
    },
    {
      "epoch": 0.26025,
      "grad_norm": 0.7952184677124023,
      "learning_rate": 0.00025365532543923967,
      "loss": 3.9035,
      "step": 124920
    },
    {
      "epoch": 0.26027083333333334,
      "grad_norm": 0.7789857983589172,
      "learning_rate": 0.0002536481992470571,
      "loss": 3.891,
      "step": 124930
    },
    {
      "epoch": 0.26029166666666664,
      "grad_norm": 0.7576115727424622,
      "learning_rate": 0.0002536410726071553,
      "loss": 3.9181,
      "step": 124940
    },
    {
      "epoch": 0.2603125,
      "grad_norm": 0.6916048526763916,
      "learning_rate": 0.0002536339455195651,
      "loss": 4.0107,
      "step": 124950
    },
    {
      "epoch": 0.26033333333333336,
      "grad_norm": 1.0502220392227173,
      "learning_rate": 0.0002536268179843173,
      "loss": 3.7253,
      "step": 124960
    },
    {
      "epoch": 0.26035416666666666,
      "grad_norm": 0.7687798142433167,
      "learning_rate": 0.0002536196900014426,
      "loss": 3.7717,
      "step": 124970
    },
    {
      "epoch": 0.260375,
      "grad_norm": 0.7347551584243774,
      "learning_rate": 0.0002536125615709719,
      "loss": 3.9158,
      "step": 124980
    },
    {
      "epoch": 0.2603958333333333,
      "grad_norm": 0.7819399833679199,
      "learning_rate": 0.00025360543269293596,
      "loss": 3.9072,
      "step": 124990
    },
    {
      "epoch": 0.2604166666666667,
      "grad_norm": 0.7034581899642944,
      "learning_rate": 0.0002535983033673655,
      "loss": 3.8761,
      "step": 125000
    },
    {
      "epoch": 0.2604166666666667,
      "eval_loss": 4.251437187194824,
      "eval_runtime": 11.5476,
      "eval_samples_per_second": 0.866,
      "eval_steps_per_second": 0.26,
      "step": 125000
    },
    {
      "epoch": 0.2604375,
      "grad_norm": 0.8109168410301208,
      "learning_rate": 0.00025359117359429145,
      "loss": 3.8974,
      "step": 125010
    },
    {
      "epoch": 0.26045833333333335,
      "grad_norm": 0.7516034245491028,
      "learning_rate": 0.00025358404337374454,
      "loss": 3.9793,
      "step": 125020
    },
    {
      "epoch": 0.26047916666666665,
      "grad_norm": 0.762546956539154,
      "learning_rate": 0.0002535769127057555,
      "loss": 3.9628,
      "step": 125030
    },
    {
      "epoch": 0.2605,
      "grad_norm": 0.7442500591278076,
      "learning_rate": 0.00025356978159035525,
      "loss": 3.9695,
      "step": 125040
    },
    {
      "epoch": 0.2605208333333333,
      "grad_norm": 0.7625104784965515,
      "learning_rate": 0.0002535626500275745,
      "loss": 3.9354,
      "step": 125050
    },
    {
      "epoch": 0.26054166666666667,
      "grad_norm": 0.8764498233795166,
      "learning_rate": 0.0002535555180174441,
      "loss": 3.8348,
      "step": 125060
    },
    {
      "epoch": 0.2605625,
      "grad_norm": 0.7545796632766724,
      "learning_rate": 0.0002535483855599948,
      "loss": 3.9992,
      "step": 125070
    },
    {
      "epoch": 0.26058333333333333,
      "grad_norm": 0.8688541054725647,
      "learning_rate": 0.00025354125265525753,
      "loss": 3.9295,
      "step": 125080
    },
    {
      "epoch": 0.2606041666666667,
      "grad_norm": 0.7376902103424072,
      "learning_rate": 0.00025353411930326304,
      "loss": 3.9494,
      "step": 125090
    },
    {
      "epoch": 0.260625,
      "grad_norm": 0.715073823928833,
      "learning_rate": 0.00025352698550404215,
      "loss": 3.8922,
      "step": 125100
    },
    {
      "epoch": 0.26064583333333335,
      "grad_norm": 0.7724918723106384,
      "learning_rate": 0.00025351985125762565,
      "loss": 3.6465,
      "step": 125110
    },
    {
      "epoch": 0.26066666666666666,
      "grad_norm": 0.8245839476585388,
      "learning_rate": 0.00025351271656404433,
      "loss": 3.7142,
      "step": 125120
    },
    {
      "epoch": 0.2606875,
      "grad_norm": 0.7072054147720337,
      "learning_rate": 0.0002535055814233291,
      "loss": 4.074,
      "step": 125130
    },
    {
      "epoch": 0.2607083333333333,
      "grad_norm": 0.7193695306777954,
      "learning_rate": 0.00025349844583551066,
      "loss": 3.904,
      "step": 125140
    },
    {
      "epoch": 0.2607291666666667,
      "grad_norm": 0.9093794822692871,
      "learning_rate": 0.00025349130980061995,
      "loss": 4.0865,
      "step": 125150
    },
    {
      "epoch": 0.26075,
      "grad_norm": 0.6889277100563049,
      "learning_rate": 0.00025348417331868774,
      "loss": 3.981,
      "step": 125160
    },
    {
      "epoch": 0.26077083333333334,
      "grad_norm": 0.8808034062385559,
      "learning_rate": 0.0002534770363897449,
      "loss": 3.893,
      "step": 125170
    },
    {
      "epoch": 0.26079166666666664,
      "grad_norm": 0.8726701736450195,
      "learning_rate": 0.00025346989901382214,
      "loss": 3.8266,
      "step": 125180
    },
    {
      "epoch": 0.2608125,
      "grad_norm": 0.7543821930885315,
      "learning_rate": 0.00025346276119095037,
      "loss": 3.7353,
      "step": 125190
    },
    {
      "epoch": 0.2608333333333333,
      "grad_norm": 0.7381551861763,
      "learning_rate": 0.00025345562292116054,
      "loss": 3.7702,
      "step": 125200
    },
    {
      "epoch": 0.26085416666666666,
      "grad_norm": 0.8949491381645203,
      "learning_rate": 0.0002534484842044833,
      "loss": 4.0156,
      "step": 125210
    },
    {
      "epoch": 0.260875,
      "grad_norm": 0.6781871318817139,
      "learning_rate": 0.0002534413450409495,
      "loss": 3.8625,
      "step": 125220
    },
    {
      "epoch": 0.2608958333333333,
      "grad_norm": 0.7328683137893677,
      "learning_rate": 0.0002534342054305901,
      "loss": 3.783,
      "step": 125230
    },
    {
      "epoch": 0.2609166666666667,
      "grad_norm": 0.7451244592666626,
      "learning_rate": 0.0002534270653734359,
      "loss": 3.8396,
      "step": 125240
    },
    {
      "epoch": 0.2609375,
      "grad_norm": 0.706762969493866,
      "learning_rate": 0.0002534199248695176,
      "loss": 3.979,
      "step": 125250
    },
    {
      "epoch": 0.26095833333333335,
      "grad_norm": 0.7193386554718018,
      "learning_rate": 0.0002534127839188663,
      "loss": 3.9226,
      "step": 125260
    },
    {
      "epoch": 0.26097916666666665,
      "grad_norm": 0.8288851976394653,
      "learning_rate": 0.0002534056425215126,
      "loss": 3.9423,
      "step": 125270
    },
    {
      "epoch": 0.261,
      "grad_norm": 0.6822898387908936,
      "learning_rate": 0.0002533985006774876,
      "loss": 3.8519,
      "step": 125280
    },
    {
      "epoch": 0.2610208333333333,
      "grad_norm": 0.7862265110015869,
      "learning_rate": 0.00025339135838682185,
      "loss": 3.8309,
      "step": 125290
    },
    {
      "epoch": 0.26104166666666667,
      "grad_norm": 0.7616347670555115,
      "learning_rate": 0.00025338421564954645,
      "loss": 3.9291,
      "step": 125300
    },
    {
      "epoch": 0.2610625,
      "grad_norm": 0.6995921730995178,
      "learning_rate": 0.0002533770724656921,
      "loss": 3.7818,
      "step": 125310
    },
    {
      "epoch": 0.26108333333333333,
      "grad_norm": 0.7923327088356018,
      "learning_rate": 0.00025336992883528975,
      "loss": 3.8884,
      "step": 125320
    },
    {
      "epoch": 0.2611041666666667,
      "grad_norm": 0.7700459957122803,
      "learning_rate": 0.0002533627847583702,
      "loss": 3.8769,
      "step": 125330
    },
    {
      "epoch": 0.261125,
      "grad_norm": 0.7731937766075134,
      "learning_rate": 0.0002533556402349643,
      "loss": 3.933,
      "step": 125340
    },
    {
      "epoch": 0.26114583333333335,
      "grad_norm": 0.7842099070549011,
      "learning_rate": 0.00025334849526510305,
      "loss": 3.814,
      "step": 125350
    },
    {
      "epoch": 0.26116666666666666,
      "grad_norm": 0.6723955273628235,
      "learning_rate": 0.0002533413498488171,
      "loss": 3.8906,
      "step": 125360
    },
    {
      "epoch": 0.2611875,
      "grad_norm": 0.9704383611679077,
      "learning_rate": 0.0002533342039861375,
      "loss": 3.7601,
      "step": 125370
    },
    {
      "epoch": 0.2612083333333333,
      "grad_norm": 0.7525566816329956,
      "learning_rate": 0.00025332705767709506,
      "loss": 3.8536,
      "step": 125380
    },
    {
      "epoch": 0.2612291666666667,
      "grad_norm": 0.8056354522705078,
      "learning_rate": 0.00025331991092172055,
      "loss": 3.8872,
      "step": 125390
    },
    {
      "epoch": 0.26125,
      "grad_norm": 0.7213203310966492,
      "learning_rate": 0.000253312763720045,
      "loss": 3.6807,
      "step": 125400
    },
    {
      "epoch": 0.26127083333333334,
      "grad_norm": 0.8400855660438538,
      "learning_rate": 0.00025330561607209915,
      "loss": 3.9227,
      "step": 125410
    },
    {
      "epoch": 0.26129166666666664,
      "grad_norm": 0.8902785778045654,
      "learning_rate": 0.0002532984679779139,
      "loss": 3.9415,
      "step": 125420
    },
    {
      "epoch": 0.2613125,
      "grad_norm": 0.7021324634552002,
      "learning_rate": 0.0002532913194375202,
      "loss": 3.7491,
      "step": 125430
    },
    {
      "epoch": 0.2613333333333333,
      "grad_norm": 0.7768975496292114,
      "learning_rate": 0.0002532841704509489,
      "loss": 3.7271,
      "step": 125440
    },
    {
      "epoch": 0.26135416666666667,
      "grad_norm": 0.7895972728729248,
      "learning_rate": 0.0002532770210182309,
      "loss": 3.8114,
      "step": 125450
    },
    {
      "epoch": 0.261375,
      "grad_norm": 0.756361186504364,
      "learning_rate": 0.00025326987113939703,
      "loss": 3.889,
      "step": 125460
    },
    {
      "epoch": 0.2613958333333333,
      "grad_norm": 0.8847800493240356,
      "learning_rate": 0.0002532627208144781,
      "loss": 3.831,
      "step": 125470
    },
    {
      "epoch": 0.2614166666666667,
      "grad_norm": 0.7683274745941162,
      "learning_rate": 0.0002532555700435052,
      "loss": 4.0617,
      "step": 125480
    },
    {
      "epoch": 0.2614375,
      "grad_norm": 0.7043762803077698,
      "learning_rate": 0.00025324841882650904,
      "loss": 3.8273,
      "step": 125490
    },
    {
      "epoch": 0.26145833333333335,
      "grad_norm": 0.7239996790885925,
      "learning_rate": 0.0002532412671635206,
      "loss": 4.0109,
      "step": 125500
    },
    {
      "epoch": 0.26147916666666665,
      "grad_norm": 0.8258938193321228,
      "learning_rate": 0.00025323411505457076,
      "loss": 3.9443,
      "step": 125510
    },
    {
      "epoch": 0.2615,
      "grad_norm": 0.781486451625824,
      "learning_rate": 0.0002532269624996904,
      "loss": 3.8977,
      "step": 125520
    },
    {
      "epoch": 0.2615208333333333,
      "grad_norm": 0.7624019980430603,
      "learning_rate": 0.00025321980949891045,
      "loss": 3.9685,
      "step": 125530
    },
    {
      "epoch": 0.2615416666666667,
      "grad_norm": 0.7491692304611206,
      "learning_rate": 0.0002532126560522617,
      "loss": 4.0253,
      "step": 125540
    },
    {
      "epoch": 0.2615625,
      "grad_norm": 0.7221712470054626,
      "learning_rate": 0.00025320550215977524,
      "loss": 3.7928,
      "step": 125550
    },
    {
      "epoch": 0.26158333333333333,
      "grad_norm": 0.9284535646438599,
      "learning_rate": 0.0002531983478214818,
      "loss": 3.8987,
      "step": 125560
    },
    {
      "epoch": 0.2616041666666667,
      "grad_norm": 0.859975278377533,
      "learning_rate": 0.0002531911930374124,
      "loss": 4.0201,
      "step": 125570
    },
    {
      "epoch": 0.261625,
      "grad_norm": 0.695770800113678,
      "learning_rate": 0.00025318403780759776,
      "loss": 3.8825,
      "step": 125580
    },
    {
      "epoch": 0.26164583333333336,
      "grad_norm": 0.7948232889175415,
      "learning_rate": 0.00025317688213206903,
      "loss": 3.8624,
      "step": 125590
    },
    {
      "epoch": 0.26166666666666666,
      "grad_norm": 0.7034209966659546,
      "learning_rate": 0.000253169726010857,
      "loss": 3.8792,
      "step": 125600
    },
    {
      "epoch": 0.2616875,
      "grad_norm": 0.7804223299026489,
      "learning_rate": 0.0002531625694439926,
      "loss": 3.9432,
      "step": 125610
    },
    {
      "epoch": 0.2617083333333333,
      "grad_norm": 0.8129447102546692,
      "learning_rate": 0.00025315541243150667,
      "loss": 3.7682,
      "step": 125620
    },
    {
      "epoch": 0.2617291666666667,
      "grad_norm": 0.8136247992515564,
      "learning_rate": 0.00025314825497343025,
      "loss": 3.747,
      "step": 125630
    },
    {
      "epoch": 0.26175,
      "grad_norm": 0.8488971590995789,
      "learning_rate": 0.00025314109706979417,
      "loss": 3.9528,
      "step": 125640
    },
    {
      "epoch": 0.26177083333333334,
      "grad_norm": 0.8536105155944824,
      "learning_rate": 0.0002531339387206294,
      "loss": 3.9582,
      "step": 125650
    },
    {
      "epoch": 0.26179166666666664,
      "grad_norm": 0.773216962814331,
      "learning_rate": 0.0002531267799259668,
      "loss": 3.9004,
      "step": 125660
    },
    {
      "epoch": 0.2618125,
      "grad_norm": 0.7271801829338074,
      "learning_rate": 0.0002531196206858373,
      "loss": 3.7478,
      "step": 125670
    },
    {
      "epoch": 0.2618333333333333,
      "grad_norm": 0.7034518718719482,
      "learning_rate": 0.00025311246100027197,
      "loss": 3.8916,
      "step": 125680
    },
    {
      "epoch": 0.26185416666666667,
      "grad_norm": 0.778917670249939,
      "learning_rate": 0.00025310530086930153,
      "loss": 3.8634,
      "step": 125690
    },
    {
      "epoch": 0.261875,
      "grad_norm": 0.7091766595840454,
      "learning_rate": 0.0002530981402929571,
      "loss": 3.8357,
      "step": 125700
    },
    {
      "epoch": 0.2618958333333333,
      "grad_norm": 0.9170806407928467,
      "learning_rate": 0.0002530909792712694,
      "loss": 3.7972,
      "step": 125710
    },
    {
      "epoch": 0.2619166666666667,
      "grad_norm": 0.767856240272522,
      "learning_rate": 0.00025308381780426954,
      "loss": 4.1639,
      "step": 125720
    },
    {
      "epoch": 0.2619375,
      "grad_norm": 0.6911662220954895,
      "learning_rate": 0.0002530766558919884,
      "loss": 3.8727,
      "step": 125730
    },
    {
      "epoch": 0.26195833333333335,
      "grad_norm": 0.7397439479827881,
      "learning_rate": 0.00025306949353445687,
      "loss": 3.8233,
      "step": 125740
    },
    {
      "epoch": 0.26197916666666665,
      "grad_norm": 0.6908090114593506,
      "learning_rate": 0.00025306233073170594,
      "loss": 3.857,
      "step": 125750
    },
    {
      "epoch": 0.262,
      "grad_norm": 0.8925408124923706,
      "learning_rate": 0.0002530551674837665,
      "loss": 3.7635,
      "step": 125760
    },
    {
      "epoch": 0.2620208333333333,
      "grad_norm": 1.0245999097824097,
      "learning_rate": 0.00025304800379066957,
      "loss": 3.9815,
      "step": 125770
    },
    {
      "epoch": 0.2620416666666667,
      "grad_norm": 0.8031742572784424,
      "learning_rate": 0.00025304083965244605,
      "loss": 3.9687,
      "step": 125780
    },
    {
      "epoch": 0.2620625,
      "grad_norm": 0.7591427564620972,
      "learning_rate": 0.0002530336750691269,
      "loss": 4.0314,
      "step": 125790
    },
    {
      "epoch": 0.26208333333333333,
      "grad_norm": 0.7258127331733704,
      "learning_rate": 0.00025302651004074304,
      "loss": 3.8456,
      "step": 125800
    },
    {
      "epoch": 0.2621041666666667,
      "grad_norm": 0.75871741771698,
      "learning_rate": 0.0002530193445673254,
      "loss": 3.8497,
      "step": 125810
    },
    {
      "epoch": 0.262125,
      "grad_norm": 0.7171266078948975,
      "learning_rate": 0.000253012178648905,
      "loss": 3.8904,
      "step": 125820
    },
    {
      "epoch": 0.26214583333333336,
      "grad_norm": 0.8412822484970093,
      "learning_rate": 0.0002530050122855128,
      "loss": 3.8843,
      "step": 125830
    },
    {
      "epoch": 0.26216666666666666,
      "grad_norm": 0.7632043957710266,
      "learning_rate": 0.00025299784547717967,
      "loss": 3.9342,
      "step": 125840
    },
    {
      "epoch": 0.2621875,
      "grad_norm": 0.6920459866523743,
      "learning_rate": 0.0002529906782239367,
      "loss": 3.7208,
      "step": 125850
    },
    {
      "epoch": 0.2622083333333333,
      "grad_norm": 0.744586706161499,
      "learning_rate": 0.0002529835105258147,
      "loss": 3.7713,
      "step": 125860
    },
    {
      "epoch": 0.2622291666666667,
      "grad_norm": 0.8018923401832581,
      "learning_rate": 0.0002529763423828447,
      "loss": 4.0689,
      "step": 125870
    },
    {
      "epoch": 0.26225,
      "grad_norm": 0.7255716919898987,
      "learning_rate": 0.00025296917379505763,
      "loss": 3.9194,
      "step": 125880
    },
    {
      "epoch": 0.26227083333333334,
      "grad_norm": 0.7234506011009216,
      "learning_rate": 0.00025296200476248454,
      "loss": 3.8831,
      "step": 125890
    },
    {
      "epoch": 0.26229166666666665,
      "grad_norm": 0.6818462014198303,
      "learning_rate": 0.0002529548352851563,
      "loss": 3.8391,
      "step": 125900
    },
    {
      "epoch": 0.2623125,
      "grad_norm": 0.7795412540435791,
      "learning_rate": 0.00025294766536310397,
      "loss": 3.8882,
      "step": 125910
    },
    {
      "epoch": 0.2623333333333333,
      "grad_norm": 0.8291380405426025,
      "learning_rate": 0.00025294049499635846,
      "loss": 3.7535,
      "step": 125920
    },
    {
      "epoch": 0.26235416666666667,
      "grad_norm": 0.7469478845596313,
      "learning_rate": 0.00025293332418495075,
      "loss": 3.7167,
      "step": 125930
    },
    {
      "epoch": 0.262375,
      "grad_norm": 0.7462781667709351,
      "learning_rate": 0.00025292615292891183,
      "loss": 3.9879,
      "step": 125940
    },
    {
      "epoch": 0.26239583333333333,
      "grad_norm": 0.8290437459945679,
      "learning_rate": 0.00025291898122827266,
      "loss": 3.9462,
      "step": 125950
    },
    {
      "epoch": 0.2624166666666667,
      "grad_norm": 0.6944916248321533,
      "learning_rate": 0.00025291180908306425,
      "loss": 3.9378,
      "step": 125960
    },
    {
      "epoch": 0.2624375,
      "grad_norm": 0.7918404936790466,
      "learning_rate": 0.0002529046364933175,
      "loss": 3.9006,
      "step": 125970
    },
    {
      "epoch": 0.26245833333333335,
      "grad_norm": 0.7636994123458862,
      "learning_rate": 0.0002528974634590635,
      "loss": 3.6572,
      "step": 125980
    },
    {
      "epoch": 0.26247916666666665,
      "grad_norm": 0.7476106882095337,
      "learning_rate": 0.00025289028998033323,
      "loss": 3.7972,
      "step": 125990
    },
    {
      "epoch": 0.2625,
      "grad_norm": 0.7109271287918091,
      "learning_rate": 0.00025288311605715756,
      "loss": 3.9877,
      "step": 126000
    },
    {
      "epoch": 0.2625,
      "eval_loss": 4.23842191696167,
      "eval_runtime": 9.8429,
      "eval_samples_per_second": 1.016,
      "eval_steps_per_second": 0.305,
      "step": 126000
    },
    {
      "epoch": 0.2625208333333333,
      "grad_norm": 1.005553126335144,
      "learning_rate": 0.0002528759416895676,
      "loss": 3.8436,
      "step": 126010
    },
    {
      "epoch": 0.2625416666666667,
      "grad_norm": 0.7385863065719604,
      "learning_rate": 0.00025286876687759426,
      "loss": 4.1086,
      "step": 126020
    },
    {
      "epoch": 0.2625625,
      "grad_norm": 0.8376879096031189,
      "learning_rate": 0.0002528615916212686,
      "loss": 3.9668,
      "step": 126030
    },
    {
      "epoch": 0.26258333333333334,
      "grad_norm": 0.8355489373207092,
      "learning_rate": 0.00025285441592062157,
      "loss": 4.1359,
      "step": 126040
    },
    {
      "epoch": 0.2626041666666667,
      "grad_norm": 0.7681154608726501,
      "learning_rate": 0.0002528472397756841,
      "loss": 4.0332,
      "step": 126050
    },
    {
      "epoch": 0.262625,
      "grad_norm": 0.7322356104850769,
      "learning_rate": 0.00025284006318648734,
      "loss": 4.0527,
      "step": 126060
    },
    {
      "epoch": 0.26264583333333336,
      "grad_norm": 0.7266936898231506,
      "learning_rate": 0.00025283288615306226,
      "loss": 3.7744,
      "step": 126070
    },
    {
      "epoch": 0.26266666666666666,
      "grad_norm": 0.7479995489120483,
      "learning_rate": 0.00025282570867543976,
      "loss": 3.729,
      "step": 126080
    },
    {
      "epoch": 0.2626875,
      "grad_norm": 0.7326896786689758,
      "learning_rate": 0.00025281853075365086,
      "loss": 3.8349,
      "step": 126090
    },
    {
      "epoch": 0.2627083333333333,
      "grad_norm": 0.8325790166854858,
      "learning_rate": 0.00025281135238772667,
      "loss": 3.9076,
      "step": 126100
    },
    {
      "epoch": 0.2627291666666667,
      "grad_norm": 0.7411123514175415,
      "learning_rate": 0.0002528041735776981,
      "loss": 3.9107,
      "step": 126110
    },
    {
      "epoch": 0.26275,
      "grad_norm": 0.7396674156188965,
      "learning_rate": 0.00025279699432359623,
      "loss": 4.031,
      "step": 126120
    },
    {
      "epoch": 0.26277083333333334,
      "grad_norm": 0.7301738858222961,
      "learning_rate": 0.000252789814625452,
      "loss": 3.7914,
      "step": 126130
    },
    {
      "epoch": 0.26279166666666665,
      "grad_norm": 0.6987815499305725,
      "learning_rate": 0.0002527826344832965,
      "loss": 4.0113,
      "step": 126140
    },
    {
      "epoch": 0.2628125,
      "grad_norm": 0.7891760468482971,
      "learning_rate": 0.00025277545389716064,
      "loss": 3.9065,
      "step": 126150
    },
    {
      "epoch": 0.2628333333333333,
      "grad_norm": 0.742714524269104,
      "learning_rate": 0.0002527682728670755,
      "loss": 3.8332,
      "step": 126160
    },
    {
      "epoch": 0.26285416666666667,
      "grad_norm": 0.7628806829452515,
      "learning_rate": 0.00025276109139307215,
      "loss": 4.0127,
      "step": 126170
    },
    {
      "epoch": 0.262875,
      "grad_norm": 0.8056378960609436,
      "learning_rate": 0.00025275390947518156,
      "loss": 3.9251,
      "step": 126180
    },
    {
      "epoch": 0.26289583333333333,
      "grad_norm": 0.700026273727417,
      "learning_rate": 0.0002527467271134347,
      "loss": 4.0411,
      "step": 126190
    },
    {
      "epoch": 0.2629166666666667,
      "grad_norm": 0.7959680557250977,
      "learning_rate": 0.0002527395443078627,
      "loss": 3.8339,
      "step": 126200
    },
    {
      "epoch": 0.2629375,
      "grad_norm": 0.7102029919624329,
      "learning_rate": 0.0002527323610584965,
      "loss": 4.0843,
      "step": 126210
    },
    {
      "epoch": 0.26295833333333335,
      "grad_norm": 0.8202810287475586,
      "learning_rate": 0.00025272517736536716,
      "loss": 3.9577,
      "step": 126220
    },
    {
      "epoch": 0.26297916666666665,
      "grad_norm": 1.0372968912124634,
      "learning_rate": 0.00025271799322850575,
      "loss": 3.9044,
      "step": 126230
    },
    {
      "epoch": 0.263,
      "grad_norm": 0.9043729305267334,
      "learning_rate": 0.00025271080864794327,
      "loss": 3.8117,
      "step": 126240
    },
    {
      "epoch": 0.2630208333333333,
      "grad_norm": 0.8695101141929626,
      "learning_rate": 0.00025270362362371073,
      "loss": 3.9877,
      "step": 126250
    },
    {
      "epoch": 0.2630416666666667,
      "grad_norm": 0.8547897338867188,
      "learning_rate": 0.0002526964381558392,
      "loss": 3.9158,
      "step": 126260
    },
    {
      "epoch": 0.2630625,
      "grad_norm": 0.7670037150382996,
      "learning_rate": 0.00025268925224435974,
      "loss": 3.8997,
      "step": 126270
    },
    {
      "epoch": 0.26308333333333334,
      "grad_norm": 0.7319607734680176,
      "learning_rate": 0.0002526820658893033,
      "loss": 3.9085,
      "step": 126280
    },
    {
      "epoch": 0.26310416666666664,
      "grad_norm": 0.8831567168235779,
      "learning_rate": 0.000252674879090701,
      "loss": 3.7963,
      "step": 126290
    },
    {
      "epoch": 0.263125,
      "grad_norm": 0.7893628478050232,
      "learning_rate": 0.0002526676918485839,
      "loss": 3.8439,
      "step": 126300
    },
    {
      "epoch": 0.26314583333333336,
      "grad_norm": 0.7076952457427979,
      "learning_rate": 0.0002526605041629829,
      "loss": 3.7494,
      "step": 126310
    },
    {
      "epoch": 0.26316666666666666,
      "grad_norm": 0.7588750720024109,
      "learning_rate": 0.00025265331603392926,
      "loss": 3.6227,
      "step": 126320
    },
    {
      "epoch": 0.2631875,
      "grad_norm": 0.8965162038803101,
      "learning_rate": 0.0002526461274614539,
      "loss": 3.9007,
      "step": 126330
    },
    {
      "epoch": 0.2632083333333333,
      "grad_norm": 0.8152491450309753,
      "learning_rate": 0.0002526389384455879,
      "loss": 3.8889,
      "step": 126340
    },
    {
      "epoch": 0.2632291666666667,
      "grad_norm": 0.7912163734436035,
      "learning_rate": 0.0002526317489863623,
      "loss": 3.7757,
      "step": 126350
    },
    {
      "epoch": 0.26325,
      "grad_norm": 0.8147352933883667,
      "learning_rate": 0.00025262455908380823,
      "loss": 3.9196,
      "step": 126360
    },
    {
      "epoch": 0.26327083333333334,
      "grad_norm": 0.7793623208999634,
      "learning_rate": 0.00025261736873795663,
      "loss": 3.8768,
      "step": 126370
    },
    {
      "epoch": 0.26329166666666665,
      "grad_norm": 0.9287704825401306,
      "learning_rate": 0.0002526101779488386,
      "loss": 3.9595,
      "step": 126380
    },
    {
      "epoch": 0.2633125,
      "grad_norm": 0.9384580850601196,
      "learning_rate": 0.00025260298671648526,
      "loss": 3.9018,
      "step": 126390
    },
    {
      "epoch": 0.2633333333333333,
      "grad_norm": 0.7547360062599182,
      "learning_rate": 0.0002525957950409276,
      "loss": 3.7684,
      "step": 126400
    },
    {
      "epoch": 0.26335416666666667,
      "grad_norm": 0.7997637987136841,
      "learning_rate": 0.0002525886029221967,
      "loss": 4.0618,
      "step": 126410
    },
    {
      "epoch": 0.263375,
      "grad_norm": 0.8116149306297302,
      "learning_rate": 0.00025258141036032367,
      "loss": 3.9158,
      "step": 126420
    },
    {
      "epoch": 0.26339583333333333,
      "grad_norm": 0.7598098516464233,
      "learning_rate": 0.00025257421735533955,
      "loss": 3.9659,
      "step": 126430
    },
    {
      "epoch": 0.2634166666666667,
      "grad_norm": 0.7407240867614746,
      "learning_rate": 0.0002525670239072754,
      "loss": 3.9482,
      "step": 126440
    },
    {
      "epoch": 0.2634375,
      "grad_norm": 0.7191349267959595,
      "learning_rate": 0.0002525598300161623,
      "loss": 4.0051,
      "step": 126450
    },
    {
      "epoch": 0.26345833333333335,
      "grad_norm": 0.8139747381210327,
      "learning_rate": 0.0002525526356820314,
      "loss": 3.8728,
      "step": 126460
    },
    {
      "epoch": 0.26347916666666665,
      "grad_norm": 0.7326160073280334,
      "learning_rate": 0.00025254544090491367,
      "loss": 3.856,
      "step": 126470
    },
    {
      "epoch": 0.2635,
      "grad_norm": 0.8148053288459778,
      "learning_rate": 0.0002525382456848402,
      "loss": 3.8782,
      "step": 126480
    },
    {
      "epoch": 0.2635208333333333,
      "grad_norm": 0.9878438711166382,
      "learning_rate": 0.0002525310500218421,
      "loss": 3.8707,
      "step": 126490
    },
    {
      "epoch": 0.2635416666666667,
      "grad_norm": 0.7432263493537903,
      "learning_rate": 0.0002525238539159504,
      "loss": 3.9956,
      "step": 126500
    },
    {
      "epoch": 0.2635625,
      "grad_norm": 0.6926878094673157,
      "learning_rate": 0.0002525166573671963,
      "loss": 3.9953,
      "step": 126510
    },
    {
      "epoch": 0.26358333333333334,
      "grad_norm": 0.8224835395812988,
      "learning_rate": 0.0002525094603756109,
      "loss": 3.8909,
      "step": 126520
    },
    {
      "epoch": 0.26360416666666664,
      "grad_norm": 0.7717549204826355,
      "learning_rate": 0.0002525022629412251,
      "loss": 4.1021,
      "step": 126530
    },
    {
      "epoch": 0.263625,
      "grad_norm": 0.8077322244644165,
      "learning_rate": 0.0002524950650640701,
      "loss": 4.0274,
      "step": 126540
    },
    {
      "epoch": 0.26364583333333336,
      "grad_norm": 0.7121642231941223,
      "learning_rate": 0.00025248786674417705,
      "loss": 3.9456,
      "step": 126550
    },
    {
      "epoch": 0.26366666666666666,
      "grad_norm": 0.7072132229804993,
      "learning_rate": 0.00025248066798157687,
      "loss": 3.829,
      "step": 126560
    },
    {
      "epoch": 0.2636875,
      "grad_norm": 0.7250639796257019,
      "learning_rate": 0.00025247346877630084,
      "loss": 3.8851,
      "step": 126570
    },
    {
      "epoch": 0.2637083333333333,
      "grad_norm": 0.8868707418441772,
      "learning_rate": 0.00025246626912838,
      "loss": 3.8136,
      "step": 126580
    },
    {
      "epoch": 0.2637291666666667,
      "grad_norm": 0.6855431199073792,
      "learning_rate": 0.0002524590690378454,
      "loss": 3.8809,
      "step": 126590
    },
    {
      "epoch": 0.26375,
      "grad_norm": 0.7353986501693726,
      "learning_rate": 0.0002524518685047282,
      "loss": 3.9322,
      "step": 126600
    },
    {
      "epoch": 0.26377083333333334,
      "grad_norm": 0.8489203453063965,
      "learning_rate": 0.0002524446675290595,
      "loss": 3.8323,
      "step": 126610
    },
    {
      "epoch": 0.26379166666666665,
      "grad_norm": 0.7895909547805786,
      "learning_rate": 0.0002524374661108704,
      "loss": 3.9319,
      "step": 126620
    },
    {
      "epoch": 0.2638125,
      "grad_norm": 0.7357152700424194,
      "learning_rate": 0.0002524302642501919,
      "loss": 3.9291,
      "step": 126630
    },
    {
      "epoch": 0.2638333333333333,
      "grad_norm": 0.7328671216964722,
      "learning_rate": 0.0002524230619470553,
      "loss": 3.7952,
      "step": 126640
    },
    {
      "epoch": 0.26385416666666667,
      "grad_norm": 0.7565189599990845,
      "learning_rate": 0.00025241585920149156,
      "loss": 3.8663,
      "step": 126650
    },
    {
      "epoch": 0.263875,
      "grad_norm": 0.8000338077545166,
      "learning_rate": 0.0002524086560135318,
      "loss": 3.7608,
      "step": 126660
    },
    {
      "epoch": 0.26389583333333333,
      "grad_norm": 0.8385242223739624,
      "learning_rate": 0.0002524014523832073,
      "loss": 3.9358,
      "step": 126670
    },
    {
      "epoch": 0.2639166666666667,
      "grad_norm": 0.6669609546661377,
      "learning_rate": 0.00025239424831054896,
      "loss": 4.1734,
      "step": 126680
    },
    {
      "epoch": 0.2639375,
      "grad_norm": 0.7538148760795593,
      "learning_rate": 0.0002523870437955881,
      "loss": 3.7918,
      "step": 126690
    },
    {
      "epoch": 0.26395833333333335,
      "grad_norm": 0.799339771270752,
      "learning_rate": 0.00025237983883835566,
      "loss": 4.1088,
      "step": 126700
    },
    {
      "epoch": 0.26397916666666665,
      "grad_norm": 0.942924439907074,
      "learning_rate": 0.00025237263343888284,
      "loss": 3.7991,
      "step": 126710
    },
    {
      "epoch": 0.264,
      "grad_norm": 0.7185326814651489,
      "learning_rate": 0.0002523654275972008,
      "loss": 3.8034,
      "step": 126720
    },
    {
      "epoch": 0.2640208333333333,
      "grad_norm": 0.7288519740104675,
      "learning_rate": 0.0002523582213133406,
      "loss": 4.0895,
      "step": 126730
    },
    {
      "epoch": 0.2640416666666667,
      "grad_norm": 0.7301902174949646,
      "learning_rate": 0.00025235101458733345,
      "loss": 3.8254,
      "step": 126740
    },
    {
      "epoch": 0.2640625,
      "grad_norm": 0.7112642526626587,
      "learning_rate": 0.0002523438074192104,
      "loss": 3.8849,
      "step": 126750
    },
    {
      "epoch": 0.26408333333333334,
      "grad_norm": 0.8347976803779602,
      "learning_rate": 0.00025233659980900263,
      "loss": 3.9143,
      "step": 126760
    },
    {
      "epoch": 0.26410416666666664,
      "grad_norm": 0.8134211897850037,
      "learning_rate": 0.0002523293917567412,
      "loss": 3.9724,
      "step": 126770
    },
    {
      "epoch": 0.264125,
      "grad_norm": 0.6769863963127136,
      "learning_rate": 0.0002523221832624574,
      "loss": 3.887,
      "step": 126780
    },
    {
      "epoch": 0.26414583333333336,
      "grad_norm": 0.687929630279541,
      "learning_rate": 0.00025231497432618214,
      "loss": 3.7666,
      "step": 126790
    },
    {
      "epoch": 0.26416666666666666,
      "grad_norm": 0.6922773122787476,
      "learning_rate": 0.0002523077649479468,
      "loss": 3.9259,
      "step": 126800
    },
    {
      "epoch": 0.2641875,
      "grad_norm": 0.7559108734130859,
      "learning_rate": 0.00025230055512778235,
      "loss": 3.8555,
      "step": 126810
    },
    {
      "epoch": 0.2642083333333333,
      "grad_norm": 0.7158416509628296,
      "learning_rate": 0.00025229334486572,
      "loss": 4.0755,
      "step": 126820
    },
    {
      "epoch": 0.2642291666666667,
      "grad_norm": 0.7648738622665405,
      "learning_rate": 0.00025228613416179095,
      "loss": 4.026,
      "step": 126830
    },
    {
      "epoch": 0.26425,
      "grad_norm": 0.8115206360816956,
      "learning_rate": 0.0002522789230160262,
      "loss": 3.9598,
      "step": 126840
    },
    {
      "epoch": 0.26427083333333334,
      "grad_norm": 0.7714938521385193,
      "learning_rate": 0.00025227171142845704,
      "loss": 3.9263,
      "step": 126850
    },
    {
      "epoch": 0.26429166666666665,
      "grad_norm": 0.8490068912506104,
      "learning_rate": 0.0002522644993991146,
      "loss": 3.8431,
      "step": 126860
    },
    {
      "epoch": 0.2643125,
      "grad_norm": 0.69791179895401,
      "learning_rate": 0.00025225728692803,
      "loss": 3.9938,
      "step": 126870
    },
    {
      "epoch": 0.2643333333333333,
      "grad_norm": 0.7310870289802551,
      "learning_rate": 0.0002522500740152343,
      "loss": 3.7621,
      "step": 126880
    },
    {
      "epoch": 0.26435416666666667,
      "grad_norm": 0.7571334838867188,
      "learning_rate": 0.0002522428606607589,
      "loss": 3.8327,
      "step": 126890
    },
    {
      "epoch": 0.264375,
      "grad_norm": 0.7839317321777344,
      "learning_rate": 0.0002522356468646347,
      "loss": 3.9786,
      "step": 126900
    },
    {
      "epoch": 0.26439583333333333,
      "grad_norm": 0.6784114241600037,
      "learning_rate": 0.0002522284326268929,
      "loss": 3.9537,
      "step": 126910
    },
    {
      "epoch": 0.2644166666666667,
      "grad_norm": 0.7758464217185974,
      "learning_rate": 0.0002522212179475649,
      "loss": 3.811,
      "step": 126920
    },
    {
      "epoch": 0.2644375,
      "grad_norm": 0.7819792032241821,
      "learning_rate": 0.0002522140028266816,
      "loss": 3.761,
      "step": 126930
    },
    {
      "epoch": 0.26445833333333335,
      "grad_norm": 0.9437029361724854,
      "learning_rate": 0.0002522067872642743,
      "loss": 3.7094,
      "step": 126940
    },
    {
      "epoch": 0.26447916666666665,
      "grad_norm": 0.7907729148864746,
      "learning_rate": 0.00025219957126037417,
      "loss": 4.0409,
      "step": 126950
    },
    {
      "epoch": 0.2645,
      "grad_norm": 0.7902988791465759,
      "learning_rate": 0.0002521923548150123,
      "loss": 3.8768,
      "step": 126960
    },
    {
      "epoch": 0.2645208333333333,
      "grad_norm": 0.7575451135635376,
      "learning_rate": 0.00025218513792821994,
      "loss": 3.799,
      "step": 126970
    },
    {
      "epoch": 0.2645416666666667,
      "grad_norm": 0.8128279447555542,
      "learning_rate": 0.0002521779206000282,
      "loss": 3.7733,
      "step": 126980
    },
    {
      "epoch": 0.2645625,
      "grad_norm": 0.7818239331245422,
      "learning_rate": 0.00025217070283046827,
      "loss": 3.9454,
      "step": 126990
    },
    {
      "epoch": 0.26458333333333334,
      "grad_norm": 0.765714704990387,
      "learning_rate": 0.00025216348461957143,
      "loss": 4.1627,
      "step": 127000
    },
    {
      "epoch": 0.26458333333333334,
      "eval_loss": 4.23486852645874,
      "eval_runtime": 11.8482,
      "eval_samples_per_second": 0.844,
      "eval_steps_per_second": 0.253,
      "step": 127000
    },
    {
      "epoch": 0.26460416666666664,
      "grad_norm": 0.8181374669075012,
      "learning_rate": 0.0002521562659673687,
      "loss": 3.9154,
      "step": 127010
    },
    {
      "epoch": 0.264625,
      "grad_norm": 0.760775625705719,
      "learning_rate": 0.0002521490468738914,
      "loss": 4.0238,
      "step": 127020
    },
    {
      "epoch": 0.26464583333333336,
      "grad_norm": 0.8191899657249451,
      "learning_rate": 0.0002521418273391706,
      "loss": 3.8594,
      "step": 127030
    },
    {
      "epoch": 0.26466666666666666,
      "grad_norm": 0.9952373504638672,
      "learning_rate": 0.0002521346073632375,
      "loss": 3.6233,
      "step": 127040
    },
    {
      "epoch": 0.2646875,
      "grad_norm": 0.7293557524681091,
      "learning_rate": 0.00025212738694612336,
      "loss": 3.8351,
      "step": 127050
    },
    {
      "epoch": 0.2647083333333333,
      "grad_norm": 0.806799054145813,
      "learning_rate": 0.0002521201660878594,
      "loss": 3.861,
      "step": 127060
    },
    {
      "epoch": 0.2647291666666667,
      "grad_norm": 0.7097411751747131,
      "learning_rate": 0.00025211294478847665,
      "loss": 3.8411,
      "step": 127070
    },
    {
      "epoch": 0.26475,
      "grad_norm": 0.7837340831756592,
      "learning_rate": 0.0002521057230480065,
      "loss": 3.6824,
      "step": 127080
    },
    {
      "epoch": 0.26477083333333334,
      "grad_norm": 0.8192874789237976,
      "learning_rate": 0.00025209850086647993,
      "loss": 4.0565,
      "step": 127090
    },
    {
      "epoch": 0.26479166666666665,
      "grad_norm": 0.8385391235351562,
      "learning_rate": 0.0002520912782439283,
      "loss": 3.9638,
      "step": 127100
    },
    {
      "epoch": 0.2648125,
      "grad_norm": 0.8128628730773926,
      "learning_rate": 0.00025208405518038275,
      "loss": 3.8566,
      "step": 127110
    },
    {
      "epoch": 0.2648333333333333,
      "grad_norm": 0.7726175785064697,
      "learning_rate": 0.0002520768316758745,
      "loss": 3.8763,
      "step": 127120
    },
    {
      "epoch": 0.26485416666666667,
      "grad_norm": 0.7092775702476501,
      "learning_rate": 0.0002520696077304347,
      "loss": 4.0525,
      "step": 127130
    },
    {
      "epoch": 0.264875,
      "grad_norm": 0.675346851348877,
      "learning_rate": 0.0002520623833440947,
      "loss": 3.7974,
      "step": 127140
    },
    {
      "epoch": 0.26489583333333333,
      "grad_norm": 0.7330100536346436,
      "learning_rate": 0.0002520551585168855,
      "loss": 3.7251,
      "step": 127150
    },
    {
      "epoch": 0.2649166666666667,
      "grad_norm": 0.8329277634620667,
      "learning_rate": 0.00025204793324883843,
      "loss": 3.8611,
      "step": 127160
    },
    {
      "epoch": 0.2649375,
      "grad_norm": 0.7716445922851562,
      "learning_rate": 0.00025204070753998475,
      "loss": 3.6257,
      "step": 127170
    },
    {
      "epoch": 0.26495833333333335,
      "grad_norm": 0.8839665651321411,
      "learning_rate": 0.0002520334813903555,
      "loss": 3.8482,
      "step": 127180
    },
    {
      "epoch": 0.26497916666666665,
      "grad_norm": 0.8504778742790222,
      "learning_rate": 0.0002520262547999821,
      "loss": 3.9861,
      "step": 127190
    },
    {
      "epoch": 0.265,
      "grad_norm": 0.7573633790016174,
      "learning_rate": 0.0002520190277688956,
      "loss": 3.7905,
      "step": 127200
    },
    {
      "epoch": 0.2650208333333333,
      "grad_norm": 0.711225688457489,
      "learning_rate": 0.0002520118002971273,
      "loss": 4.0387,
      "step": 127210
    },
    {
      "epoch": 0.2650416666666667,
      "grad_norm": 0.7404026389122009,
      "learning_rate": 0.00025200457238470843,
      "loss": 3.7531,
      "step": 127220
    },
    {
      "epoch": 0.2650625,
      "grad_norm": 0.90092933177948,
      "learning_rate": 0.00025199734403167013,
      "loss": 3.9354,
      "step": 127230
    },
    {
      "epoch": 0.26508333333333334,
      "grad_norm": 0.9166718125343323,
      "learning_rate": 0.0002519901152380437,
      "loss": 3.8148,
      "step": 127240
    },
    {
      "epoch": 0.26510416666666664,
      "grad_norm": 0.785960853099823,
      "learning_rate": 0.0002519828860038604,
      "loss": 3.9508,
      "step": 127250
    },
    {
      "epoch": 0.265125,
      "grad_norm": 0.8403561115264893,
      "learning_rate": 0.0002519756563291513,
      "loss": 3.8288,
      "step": 127260
    },
    {
      "epoch": 0.26514583333333336,
      "grad_norm": 0.7235235571861267,
      "learning_rate": 0.00025196842621394775,
      "loss": 3.8304,
      "step": 127270
    },
    {
      "epoch": 0.26516666666666666,
      "grad_norm": 0.7259377837181091,
      "learning_rate": 0.000251961195658281,
      "loss": 3.8104,
      "step": 127280
    },
    {
      "epoch": 0.2651875,
      "grad_norm": 0.9728242754936218,
      "learning_rate": 0.00025195396466218224,
      "loss": 3.7583,
      "step": 127290
    },
    {
      "epoch": 0.2652083333333333,
      "grad_norm": 0.8590109348297119,
      "learning_rate": 0.00025194673322568266,
      "loss": 4.0519,
      "step": 127300
    },
    {
      "epoch": 0.2652291666666667,
      "grad_norm": 0.8058556318283081,
      "learning_rate": 0.0002519395013488136,
      "loss": 3.8562,
      "step": 127310
    },
    {
      "epoch": 0.26525,
      "grad_norm": 0.7124808430671692,
      "learning_rate": 0.00025193226903160625,
      "loss": 4.0076,
      "step": 127320
    },
    {
      "epoch": 0.26527083333333334,
      "grad_norm": 0.789286732673645,
      "learning_rate": 0.0002519250362740918,
      "loss": 3.8211,
      "step": 127330
    },
    {
      "epoch": 0.26529166666666665,
      "grad_norm": 0.8869807720184326,
      "learning_rate": 0.0002519178030763016,
      "loss": 3.8656,
      "step": 127340
    },
    {
      "epoch": 0.2653125,
      "grad_norm": 0.6867950558662415,
      "learning_rate": 0.00025191056943826677,
      "loss": 3.7919,
      "step": 127350
    },
    {
      "epoch": 0.2653333333333333,
      "grad_norm": 0.7298910617828369,
      "learning_rate": 0.00025190333536001866,
      "loss": 4.0298,
      "step": 127360
    },
    {
      "epoch": 0.26535416666666667,
      "grad_norm": 0.6995747089385986,
      "learning_rate": 0.0002518961008415885,
      "loss": 3.9145,
      "step": 127370
    },
    {
      "epoch": 0.265375,
      "grad_norm": 0.7662070393562317,
      "learning_rate": 0.0002518888658830074,
      "loss": 3.8961,
      "step": 127380
    },
    {
      "epoch": 0.26539583333333333,
      "grad_norm": 0.9776878952980042,
      "learning_rate": 0.0002518816304843069,
      "loss": 3.9866,
      "step": 127390
    },
    {
      "epoch": 0.2654166666666667,
      "grad_norm": 0.7664508819580078,
      "learning_rate": 0.0002518743946455179,
      "loss": 3.9657,
      "step": 127400
    },
    {
      "epoch": 0.2654375,
      "grad_norm": 0.7622472643852234,
      "learning_rate": 0.00025186715836667196,
      "loss": 3.8884,
      "step": 127410
    },
    {
      "epoch": 0.26545833333333335,
      "grad_norm": 0.7917435169219971,
      "learning_rate": 0.0002518599216478002,
      "loss": 3.9941,
      "step": 127420
    },
    {
      "epoch": 0.26547916666666665,
      "grad_norm": 0.6767178177833557,
      "learning_rate": 0.00025185268448893385,
      "loss": 3.8552,
      "step": 127430
    },
    {
      "epoch": 0.2655,
      "grad_norm": 0.7177636623382568,
      "learning_rate": 0.0002518454468901043,
      "loss": 3.9769,
      "step": 127440
    },
    {
      "epoch": 0.2655208333333333,
      "grad_norm": 0.7128068208694458,
      "learning_rate": 0.0002518382088513427,
      "loss": 4.0371,
      "step": 127450
    },
    {
      "epoch": 0.2655416666666667,
      "grad_norm": 0.7464169263839722,
      "learning_rate": 0.0002518309703726803,
      "loss": 3.9874,
      "step": 127460
    },
    {
      "epoch": 0.2655625,
      "grad_norm": 0.8032014966011047,
      "learning_rate": 0.0002518237314541485,
      "loss": 3.783,
      "step": 127470
    },
    {
      "epoch": 0.26558333333333334,
      "grad_norm": 0.7248806357383728,
      "learning_rate": 0.0002518164920957784,
      "loss": 3.879,
      "step": 127480
    },
    {
      "epoch": 0.26560416666666664,
      "grad_norm": 0.7738503217697144,
      "learning_rate": 0.00025180925229760135,
      "loss": 3.9137,
      "step": 127490
    },
    {
      "epoch": 0.265625,
      "grad_norm": 0.7410368323326111,
      "learning_rate": 0.0002518020120596487,
      "loss": 3.7913,
      "step": 127500
    },
    {
      "epoch": 0.26564583333333336,
      "grad_norm": 0.7843815088272095,
      "learning_rate": 0.00025179477138195165,
      "loss": 3.7957,
      "step": 127510
    },
    {
      "epoch": 0.26566666666666666,
      "grad_norm": 0.6901084184646606,
      "learning_rate": 0.00025178753026454143,
      "loss": 3.8436,
      "step": 127520
    },
    {
      "epoch": 0.2656875,
      "grad_norm": 0.7766137719154358,
      "learning_rate": 0.0002517802887074494,
      "loss": 3.6779,
      "step": 127530
    },
    {
      "epoch": 0.2657083333333333,
      "grad_norm": 0.8099930286407471,
      "learning_rate": 0.0002517730467107068,
      "loss": 3.9543,
      "step": 127540
    },
    {
      "epoch": 0.2657291666666667,
      "grad_norm": 0.73356032371521,
      "learning_rate": 0.0002517658042743449,
      "loss": 4.0321,
      "step": 127550
    },
    {
      "epoch": 0.26575,
      "grad_norm": 0.7410718202590942,
      "learning_rate": 0.00025175856139839504,
      "loss": 3.9692,
      "step": 127560
    },
    {
      "epoch": 0.26577083333333335,
      "grad_norm": 0.8036902546882629,
      "learning_rate": 0.0002517513180828885,
      "loss": 3.849,
      "step": 127570
    },
    {
      "epoch": 0.26579166666666665,
      "grad_norm": 0.794939398765564,
      "learning_rate": 0.0002517440743278565,
      "loss": 3.9771,
      "step": 127580
    },
    {
      "epoch": 0.2658125,
      "grad_norm": 0.746670663356781,
      "learning_rate": 0.0002517368301333304,
      "loss": 4.0105,
      "step": 127590
    },
    {
      "epoch": 0.2658333333333333,
      "grad_norm": 0.8231221437454224,
      "learning_rate": 0.0002517295854993414,
      "loss": 3.9677,
      "step": 127600
    },
    {
      "epoch": 0.26585416666666667,
      "grad_norm": 0.783407986164093,
      "learning_rate": 0.000251722340425921,
      "loss": 3.9786,
      "step": 127610
    },
    {
      "epoch": 0.265875,
      "grad_norm": 0.6567875146865845,
      "learning_rate": 0.00025171509491310023,
      "loss": 3.9833,
      "step": 127620
    },
    {
      "epoch": 0.26589583333333333,
      "grad_norm": 0.7398426532745361,
      "learning_rate": 0.0002517078489609105,
      "loss": 3.9187,
      "step": 127630
    },
    {
      "epoch": 0.2659166666666667,
      "grad_norm": 1.132751703262329,
      "learning_rate": 0.0002517006025693832,
      "loss": 3.9814,
      "step": 127640
    },
    {
      "epoch": 0.2659375,
      "grad_norm": 0.7110929489135742,
      "learning_rate": 0.00025169335573854945,
      "loss": 3.7984,
      "step": 127650
    },
    {
      "epoch": 0.26595833333333335,
      "grad_norm": 0.8112437129020691,
      "learning_rate": 0.00025168610846844076,
      "loss": 4.0111,
      "step": 127660
    },
    {
      "epoch": 0.26597916666666666,
      "grad_norm": 0.8284375071525574,
      "learning_rate": 0.00025167886075908827,
      "loss": 3.8562,
      "step": 127670
    },
    {
      "epoch": 0.266,
      "grad_norm": 0.7459589838981628,
      "learning_rate": 0.0002516716126105234,
      "loss": 3.9174,
      "step": 127680
    },
    {
      "epoch": 0.2660208333333333,
      "grad_norm": 0.7762990593910217,
      "learning_rate": 0.0002516643640227774,
      "loss": 3.8776,
      "step": 127690
    },
    {
      "epoch": 0.2660416666666667,
      "grad_norm": 0.8481523394584656,
      "learning_rate": 0.00025165711499588154,
      "loss": 3.9037,
      "step": 127700
    },
    {
      "epoch": 0.2660625,
      "grad_norm": 0.7749438881874084,
      "learning_rate": 0.00025164986552986724,
      "loss": 3.9023,
      "step": 127710
    },
    {
      "epoch": 0.26608333333333334,
      "grad_norm": 0.8255292773246765,
      "learning_rate": 0.0002516426156247657,
      "loss": 3.9035,
      "step": 127720
    },
    {
      "epoch": 0.26610416666666664,
      "grad_norm": 0.7504022121429443,
      "learning_rate": 0.0002516353652806083,
      "loss": 3.7357,
      "step": 127730
    },
    {
      "epoch": 0.266125,
      "grad_norm": 0.8789125680923462,
      "learning_rate": 0.0002516281144974264,
      "loss": 3.9961,
      "step": 127740
    },
    {
      "epoch": 0.26614583333333336,
      "grad_norm": 0.6947354078292847,
      "learning_rate": 0.00025162086327525123,
      "loss": 3.8597,
      "step": 127750
    },
    {
      "epoch": 0.26616666666666666,
      "grad_norm": 0.7753321528434753,
      "learning_rate": 0.0002516136116141142,
      "loss": 3.9477,
      "step": 127760
    },
    {
      "epoch": 0.2661875,
      "grad_norm": 0.8419240117073059,
      "learning_rate": 0.00025160635951404655,
      "loss": 3.8927,
      "step": 127770
    },
    {
      "epoch": 0.2662083333333333,
      "grad_norm": 0.8937268257141113,
      "learning_rate": 0.00025159910697507965,
      "loss": 3.991,
      "step": 127780
    },
    {
      "epoch": 0.2662291666666667,
      "grad_norm": 0.8562812805175781,
      "learning_rate": 0.00025159185399724484,
      "loss": 3.9156,
      "step": 127790
    },
    {
      "epoch": 0.26625,
      "grad_norm": 0.7744019627571106,
      "learning_rate": 0.0002515846005805734,
      "loss": 3.9286,
      "step": 127800
    },
    {
      "epoch": 0.26627083333333335,
      "grad_norm": 0.7662583589553833,
      "learning_rate": 0.0002515773467250967,
      "loss": 4.0042,
      "step": 127810
    },
    {
      "epoch": 0.26629166666666665,
      "grad_norm": 0.6993515491485596,
      "learning_rate": 0.0002515700924308461,
      "loss": 3.9077,
      "step": 127820
    },
    {
      "epoch": 0.2663125,
      "grad_norm": 0.7884823679924011,
      "learning_rate": 0.00025156283769785286,
      "loss": 3.8354,
      "step": 127830
    },
    {
      "epoch": 0.2663333333333333,
      "grad_norm": 0.8057529926300049,
      "learning_rate": 0.00025155558252614845,
      "loss": 3.9323,
      "step": 127840
    },
    {
      "epoch": 0.26635416666666667,
      "grad_norm": 0.7700971961021423,
      "learning_rate": 0.00025154832691576403,
      "loss": 3.7337,
      "step": 127850
    },
    {
      "epoch": 0.266375,
      "grad_norm": 0.7881869673728943,
      "learning_rate": 0.0002515410708667311,
      "loss": 3.8253,
      "step": 127860
    },
    {
      "epoch": 0.26639583333333333,
      "grad_norm": 0.7696899771690369,
      "learning_rate": 0.0002515338143790809,
      "loss": 3.9668,
      "step": 127870
    },
    {
      "epoch": 0.2664166666666667,
      "grad_norm": 0.7182843685150146,
      "learning_rate": 0.0002515265574528448,
      "loss": 3.8814,
      "step": 127880
    },
    {
      "epoch": 0.2664375,
      "grad_norm": 0.8742191195487976,
      "learning_rate": 0.0002515193000880542,
      "loss": 3.8172,
      "step": 127890
    },
    {
      "epoch": 0.26645833333333335,
      "grad_norm": 0.752532958984375,
      "learning_rate": 0.0002515120422847404,
      "loss": 3.7336,
      "step": 127900
    },
    {
      "epoch": 0.26647916666666666,
      "grad_norm": 0.743073582649231,
      "learning_rate": 0.00025150478404293474,
      "loss": 3.8886,
      "step": 127910
    },
    {
      "epoch": 0.2665,
      "grad_norm": 0.8176721334457397,
      "learning_rate": 0.0002514975253626686,
      "loss": 4.023,
      "step": 127920
    },
    {
      "epoch": 0.2665208333333333,
      "grad_norm": 0.730074942111969,
      "learning_rate": 0.0002514902662439733,
      "loss": 3.8618,
      "step": 127930
    },
    {
      "epoch": 0.2665416666666667,
      "grad_norm": 0.714226484298706,
      "learning_rate": 0.00025148300668688026,
      "loss": 3.7847,
      "step": 127940
    },
    {
      "epoch": 0.2665625,
      "grad_norm": 0.7988196015357971,
      "learning_rate": 0.0002514757466914208,
      "loss": 3.8642,
      "step": 127950
    },
    {
      "epoch": 0.26658333333333334,
      "grad_norm": 0.8668316006660461,
      "learning_rate": 0.0002514684862576262,
      "loss": 3.7376,
      "step": 127960
    },
    {
      "epoch": 0.26660416666666664,
      "grad_norm": 0.648080587387085,
      "learning_rate": 0.000251461225385528,
      "loss": 3.861,
      "step": 127970
    },
    {
      "epoch": 0.266625,
      "grad_norm": 0.792493999004364,
      "learning_rate": 0.00025145396407515744,
      "loss": 3.9245,
      "step": 127980
    },
    {
      "epoch": 0.26664583333333336,
      "grad_norm": 0.694037675857544,
      "learning_rate": 0.0002514467023265459,
      "loss": 3.8105,
      "step": 127990
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.7404451370239258,
      "learning_rate": 0.00025143944013972475,
      "loss": 3.9465,
      "step": 128000
    },
    {
      "epoch": 0.26666666666666666,
      "eval_loss": 4.232244968414307,
      "eval_runtime": 12.1938,
      "eval_samples_per_second": 0.82,
      "eval_steps_per_second": 0.246,
      "step": 128000
    },
    {
      "epoch": 0.2666875,
      "grad_norm": 0.6467376351356506,
      "learning_rate": 0.0002514321775147254,
      "loss": 4.0001,
      "step": 128010
    },
    {
      "epoch": 0.2667083333333333,
      "grad_norm": 0.6550230383872986,
      "learning_rate": 0.0002514249144515792,
      "loss": 3.9266,
      "step": 128020
    },
    {
      "epoch": 0.2667291666666667,
      "grad_norm": 1.0893518924713135,
      "learning_rate": 0.0002514176509503175,
      "loss": 3.9683,
      "step": 128030
    },
    {
      "epoch": 0.26675,
      "grad_norm": 0.7142029404640198,
      "learning_rate": 0.0002514103870109717,
      "loss": 3.9881,
      "step": 128040
    },
    {
      "epoch": 0.26677083333333335,
      "grad_norm": 0.7028687596321106,
      "learning_rate": 0.00025140312263357314,
      "loss": 3.98,
      "step": 128050
    },
    {
      "epoch": 0.26679166666666665,
      "grad_norm": 0.7645397782325745,
      "learning_rate": 0.0002513958578181533,
      "loss": 3.926,
      "step": 128060
    },
    {
      "epoch": 0.2668125,
      "grad_norm": 0.8149034976959229,
      "learning_rate": 0.0002513885925647434,
      "loss": 3.9624,
      "step": 128070
    },
    {
      "epoch": 0.2668333333333333,
      "grad_norm": 0.72609543800354,
      "learning_rate": 0.000251381326873375,
      "loss": 3.9018,
      "step": 128080
    },
    {
      "epoch": 0.26685416666666667,
      "grad_norm": 0.7569890022277832,
      "learning_rate": 0.0002513740607440793,
      "loss": 3.9492,
      "step": 128090
    },
    {
      "epoch": 0.266875,
      "grad_norm": 0.7408234477043152,
      "learning_rate": 0.0002513667941768878,
      "loss": 3.8429,
      "step": 128100
    },
    {
      "epoch": 0.26689583333333333,
      "grad_norm": 0.6675371527671814,
      "learning_rate": 0.0002513595271718319,
      "loss": 3.8443,
      "step": 128110
    },
    {
      "epoch": 0.2669166666666667,
      "grad_norm": 0.9853361248970032,
      "learning_rate": 0.00025135225972894304,
      "loss": 3.8214,
      "step": 128120
    },
    {
      "epoch": 0.2669375,
      "grad_norm": 0.7653986215591431,
      "learning_rate": 0.0002513449918482524,
      "loss": 3.8887,
      "step": 128130
    },
    {
      "epoch": 0.26695833333333335,
      "grad_norm": 0.7847464084625244,
      "learning_rate": 0.0002513377235297916,
      "loss": 3.8969,
      "step": 128140
    },
    {
      "epoch": 0.26697916666666666,
      "grad_norm": 0.8506678938865662,
      "learning_rate": 0.0002513304547735919,
      "loss": 3.9529,
      "step": 128150
    },
    {
      "epoch": 0.267,
      "grad_norm": 0.7683724761009216,
      "learning_rate": 0.00025132318557968483,
      "loss": 3.7015,
      "step": 128160
    },
    {
      "epoch": 0.2670208333333333,
      "grad_norm": 0.6963831186294556,
      "learning_rate": 0.0002513159159481016,
      "loss": 3.9163,
      "step": 128170
    },
    {
      "epoch": 0.2670416666666667,
      "grad_norm": 0.8111202716827393,
      "learning_rate": 0.00025130864587887377,
      "loss": 3.9985,
      "step": 128180
    },
    {
      "epoch": 0.2670625,
      "grad_norm": 0.9134371876716614,
      "learning_rate": 0.00025130137537203266,
      "loss": 3.9365,
      "step": 128190
    },
    {
      "epoch": 0.26708333333333334,
      "grad_norm": 0.8187398910522461,
      "learning_rate": 0.0002512941044276098,
      "loss": 4.0217,
      "step": 128200
    },
    {
      "epoch": 0.26710416666666664,
      "grad_norm": 0.752600371837616,
      "learning_rate": 0.0002512868330456364,
      "loss": 4.1522,
      "step": 128210
    },
    {
      "epoch": 0.267125,
      "grad_norm": 0.7927932143211365,
      "learning_rate": 0.000251279561226144,
      "loss": 3.7843,
      "step": 128220
    },
    {
      "epoch": 0.26714583333333336,
      "grad_norm": 0.7955322265625,
      "learning_rate": 0.00025127228896916395,
      "loss": 3.8995,
      "step": 128230
    },
    {
      "epoch": 0.26716666666666666,
      "grad_norm": 0.9179224967956543,
      "learning_rate": 0.00025126501627472774,
      "loss": 3.7773,
      "step": 128240
    },
    {
      "epoch": 0.2671875,
      "grad_norm": 0.9279886484146118,
      "learning_rate": 0.00025125774314286675,
      "loss": 3.843,
      "step": 128250
    },
    {
      "epoch": 0.2672083333333333,
      "grad_norm": 0.709936261177063,
      "learning_rate": 0.0002512504695736124,
      "loss": 3.7551,
      "step": 128260
    },
    {
      "epoch": 0.2672291666666667,
      "grad_norm": 0.7669687271118164,
      "learning_rate": 0.0002512431955669961,
      "loss": 4.0271,
      "step": 128270
    },
    {
      "epoch": 0.26725,
      "grad_norm": 0.7237969636917114,
      "learning_rate": 0.00025123592112304924,
      "loss": 3.7966,
      "step": 128280
    },
    {
      "epoch": 0.26727083333333335,
      "grad_norm": 0.7955637574195862,
      "learning_rate": 0.0002512286462418033,
      "loss": 3.9581,
      "step": 128290
    },
    {
      "epoch": 0.26729166666666665,
      "grad_norm": 0.7117471098899841,
      "learning_rate": 0.00025122137092328963,
      "loss": 3.953,
      "step": 128300
    },
    {
      "epoch": 0.2673125,
      "grad_norm": 0.7097080945968628,
      "learning_rate": 0.0002512140951675397,
      "loss": 3.8526,
      "step": 128310
    },
    {
      "epoch": 0.2673333333333333,
      "grad_norm": 0.7881277203559875,
      "learning_rate": 0.000251206818974585,
      "loss": 3.9089,
      "step": 128320
    },
    {
      "epoch": 0.26735416666666667,
      "grad_norm": 0.7313142418861389,
      "learning_rate": 0.0002511995423444569,
      "loss": 3.819,
      "step": 128330
    },
    {
      "epoch": 0.267375,
      "grad_norm": 0.8556851744651794,
      "learning_rate": 0.0002511922652771868,
      "loss": 3.8181,
      "step": 128340
    },
    {
      "epoch": 0.26739583333333333,
      "grad_norm": 0.6903709769248962,
      "learning_rate": 0.00025118498777280615,
      "loss": 3.8848,
      "step": 128350
    },
    {
      "epoch": 0.2674166666666667,
      "grad_norm": 0.6755292415618896,
      "learning_rate": 0.0002511777098313464,
      "loss": 3.8399,
      "step": 128360
    },
    {
      "epoch": 0.2674375,
      "grad_norm": 0.6706302165985107,
      "learning_rate": 0.0002511704314528391,
      "loss": 3.7746,
      "step": 128370
    },
    {
      "epoch": 0.26745833333333335,
      "grad_norm": 0.7644819021224976,
      "learning_rate": 0.0002511631526373155,
      "loss": 3.8486,
      "step": 128380
    },
    {
      "epoch": 0.26747916666666666,
      "grad_norm": 0.719713568687439,
      "learning_rate": 0.00025115587338480716,
      "loss": 3.7356,
      "step": 128390
    },
    {
      "epoch": 0.2675,
      "grad_norm": 0.7715482115745544,
      "learning_rate": 0.0002511485936953454,
      "loss": 3.8925,
      "step": 128400
    },
    {
      "epoch": 0.2675208333333333,
      "grad_norm": 0.7092767953872681,
      "learning_rate": 0.00025114131356896184,
      "loss": 3.8792,
      "step": 128410
    },
    {
      "epoch": 0.2675416666666667,
      "grad_norm": 0.8188432455062866,
      "learning_rate": 0.0002511340330056878,
      "loss": 3.9632,
      "step": 128420
    },
    {
      "epoch": 0.2675625,
      "grad_norm": 0.7163184285163879,
      "learning_rate": 0.0002511267520055548,
      "loss": 3.7657,
      "step": 128430
    },
    {
      "epoch": 0.26758333333333334,
      "grad_norm": 0.8016465306282043,
      "learning_rate": 0.00025111947056859424,
      "loss": 3.8834,
      "step": 128440
    },
    {
      "epoch": 0.26760416666666664,
      "grad_norm": 0.8232869505882263,
      "learning_rate": 0.0002511121886948376,
      "loss": 4.0663,
      "step": 128450
    },
    {
      "epoch": 0.267625,
      "grad_norm": 0.7115660309791565,
      "learning_rate": 0.00025110490638431633,
      "loss": 3.9009,
      "step": 128460
    },
    {
      "epoch": 0.26764583333333336,
      "grad_norm": 0.6573045253753662,
      "learning_rate": 0.0002510976236370619,
      "loss": 3.8614,
      "step": 128470
    },
    {
      "epoch": 0.26766666666666666,
      "grad_norm": 0.8726466298103333,
      "learning_rate": 0.0002510903404531057,
      "loss": 3.8294,
      "step": 128480
    },
    {
      "epoch": 0.2676875,
      "grad_norm": 0.6884239315986633,
      "learning_rate": 0.0002510830568324793,
      "loss": 3.9034,
      "step": 128490
    },
    {
      "epoch": 0.2677083333333333,
      "grad_norm": 0.8608121275901794,
      "learning_rate": 0.000251075772775214,
      "loss": 3.7835,
      "step": 128500
    },
    {
      "epoch": 0.2677291666666667,
      "grad_norm": 0.7819408178329468,
      "learning_rate": 0.00025106848828134154,
      "loss": 3.953,
      "step": 128510
    },
    {
      "epoch": 0.26775,
      "grad_norm": 0.7153249382972717,
      "learning_rate": 0.0002510612033508931,
      "loss": 4.0278,
      "step": 128520
    },
    {
      "epoch": 0.26777083333333335,
      "grad_norm": 0.7487329840660095,
      "learning_rate": 0.00025105391798390026,
      "loss": 3.9043,
      "step": 128530
    },
    {
      "epoch": 0.26779166666666665,
      "grad_norm": 0.943751871585846,
      "learning_rate": 0.00025104663218039456,
      "loss": 4.0024,
      "step": 128540
    },
    {
      "epoch": 0.2678125,
      "grad_norm": 0.8090039491653442,
      "learning_rate": 0.00025103934594040734,
      "loss": 4.0493,
      "step": 128550
    },
    {
      "epoch": 0.2678333333333333,
      "grad_norm": 0.7392368316650391,
      "learning_rate": 0.0002510320592639702,
      "loss": 3.8261,
      "step": 128560
    },
    {
      "epoch": 0.26785416666666667,
      "grad_norm": 0.7134292721748352,
      "learning_rate": 0.0002510247721511145,
      "loss": 3.796,
      "step": 128570
    },
    {
      "epoch": 0.267875,
      "grad_norm": 0.6912939548492432,
      "learning_rate": 0.00025101748460187184,
      "loss": 3.7968,
      "step": 128580
    },
    {
      "epoch": 0.26789583333333333,
      "grad_norm": 0.6781319975852966,
      "learning_rate": 0.0002510101966162736,
      "loss": 3.8147,
      "step": 128590
    },
    {
      "epoch": 0.2679166666666667,
      "grad_norm": 0.7585493326187134,
      "learning_rate": 0.0002510029081943513,
      "loss": 3.8284,
      "step": 128600
    },
    {
      "epoch": 0.2679375,
      "grad_norm": 0.8448770046234131,
      "learning_rate": 0.0002509956193361363,
      "loss": 3.8359,
      "step": 128610
    },
    {
      "epoch": 0.26795833333333335,
      "grad_norm": 0.852157473564148,
      "learning_rate": 0.00025098833004166035,
      "loss": 3.8539,
      "step": 128620
    },
    {
      "epoch": 0.26797916666666666,
      "grad_norm": 0.6990941166877747,
      "learning_rate": 0.0002509810403109547,
      "loss": 3.9611,
      "step": 128630
    },
    {
      "epoch": 0.268,
      "grad_norm": 0.659576416015625,
      "learning_rate": 0.000250973750144051,
      "loss": 3.7766,
      "step": 128640
    },
    {
      "epoch": 0.2680208333333333,
      "grad_norm": 0.8694888949394226,
      "learning_rate": 0.0002509664595409806,
      "loss": 4.0462,
      "step": 128650
    },
    {
      "epoch": 0.2680416666666667,
      "grad_norm": 0.8008922338485718,
      "learning_rate": 0.0002509591685017751,
      "loss": 3.8403,
      "step": 128660
    },
    {
      "epoch": 0.2680625,
      "grad_norm": 0.7438352108001709,
      "learning_rate": 0.00025095187702646595,
      "loss": 3.9541,
      "step": 128670
    },
    {
      "epoch": 0.26808333333333334,
      "grad_norm": 0.8246774077415466,
      "learning_rate": 0.00025094458511508465,
      "loss": 3.9674,
      "step": 128680
    },
    {
      "epoch": 0.26810416666666664,
      "grad_norm": 0.7897971868515015,
      "learning_rate": 0.0002509372927676627,
      "loss": 3.8671,
      "step": 128690
    },
    {
      "epoch": 0.268125,
      "grad_norm": 0.790625274181366,
      "learning_rate": 0.0002509299999842316,
      "loss": 4.1044,
      "step": 128700
    },
    {
      "epoch": 0.26814583333333336,
      "grad_norm": 1.0381884574890137,
      "learning_rate": 0.0002509227067648229,
      "loss": 3.8966,
      "step": 128710
    },
    {
      "epoch": 0.26816666666666666,
      "grad_norm": 0.8424479961395264,
      "learning_rate": 0.000250915413109468,
      "loss": 3.8992,
      "step": 128720
    },
    {
      "epoch": 0.2681875,
      "grad_norm": 0.8551189303398132,
      "learning_rate": 0.00025090811901819844,
      "loss": 3.7746,
      "step": 128730
    },
    {
      "epoch": 0.2682083333333333,
      "grad_norm": 0.9746466279029846,
      "learning_rate": 0.0002509008244910458,
      "loss": 4.0204,
      "step": 128740
    },
    {
      "epoch": 0.2682291666666667,
      "grad_norm": 0.777152955532074,
      "learning_rate": 0.0002508935295280415,
      "loss": 3.9097,
      "step": 128750
    },
    {
      "epoch": 0.26825,
      "grad_norm": 0.6616126298904419,
      "learning_rate": 0.00025088623412921707,
      "loss": 3.9498,
      "step": 128760
    },
    {
      "epoch": 0.26827083333333335,
      "grad_norm": 0.8041462898254395,
      "learning_rate": 0.0002508789382946041,
      "loss": 4.0421,
      "step": 128770
    },
    {
      "epoch": 0.26829166666666665,
      "grad_norm": 0.7007668614387512,
      "learning_rate": 0.000250871642024234,
      "loss": 3.9627,
      "step": 128780
    },
    {
      "epoch": 0.2683125,
      "grad_norm": 0.661449670791626,
      "learning_rate": 0.00025086434531813834,
      "loss": 3.9511,
      "step": 128790
    },
    {
      "epoch": 0.2683333333333333,
      "grad_norm": 0.8497302532196045,
      "learning_rate": 0.00025085704817634865,
      "loss": 3.9728,
      "step": 128800
    },
    {
      "epoch": 0.26835416666666667,
      "grad_norm": 0.9356180429458618,
      "learning_rate": 0.00025084975059889644,
      "loss": 3.9944,
      "step": 128810
    },
    {
      "epoch": 0.268375,
      "grad_norm": 0.7039536833763123,
      "learning_rate": 0.00025084245258581326,
      "loss": 3.9587,
      "step": 128820
    },
    {
      "epoch": 0.26839583333333333,
      "grad_norm": 0.8603288531303406,
      "learning_rate": 0.0002508351541371305,
      "loss": 3.943,
      "step": 128830
    },
    {
      "epoch": 0.2684166666666667,
      "grad_norm": 0.7417218685150146,
      "learning_rate": 0.0002508278552528798,
      "loss": 3.7749,
      "step": 128840
    },
    {
      "epoch": 0.2684375,
      "grad_norm": 0.7818171977996826,
      "learning_rate": 0.00025082055593309276,
      "loss": 3.7824,
      "step": 128850
    },
    {
      "epoch": 0.26845833333333335,
      "grad_norm": 0.7518819570541382,
      "learning_rate": 0.0002508132561778008,
      "loss": 3.9289,
      "step": 128860
    },
    {
      "epoch": 0.26847916666666666,
      "grad_norm": 0.6748148202896118,
      "learning_rate": 0.00025080595598703546,
      "loss": 3.8318,
      "step": 128870
    },
    {
      "epoch": 0.2685,
      "grad_norm": 0.9401952624320984,
      "learning_rate": 0.0002507986553608283,
      "loss": 3.8594,
      "step": 128880
    },
    {
      "epoch": 0.2685208333333333,
      "grad_norm": 0.6781480312347412,
      "learning_rate": 0.00025079135429921084,
      "loss": 3.9827,
      "step": 128890
    },
    {
      "epoch": 0.2685416666666667,
      "grad_norm": 0.733369767665863,
      "learning_rate": 0.00025078405280221463,
      "loss": 3.7452,
      "step": 128900
    },
    {
      "epoch": 0.2685625,
      "grad_norm": 0.6769725680351257,
      "learning_rate": 0.0002507767508698712,
      "loss": 4.0058,
      "step": 128910
    },
    {
      "epoch": 0.26858333333333334,
      "grad_norm": 0.8139511942863464,
      "learning_rate": 0.0002507694485022121,
      "loss": 4.0858,
      "step": 128920
    },
    {
      "epoch": 0.26860416666666664,
      "grad_norm": 0.8075921535491943,
      "learning_rate": 0.00025076214569926886,
      "loss": 3.9899,
      "step": 128930
    },
    {
      "epoch": 0.268625,
      "grad_norm": 0.9116136431694031,
      "learning_rate": 0.0002507548424610731,
      "loss": 3.8998,
      "step": 128940
    },
    {
      "epoch": 0.2686458333333333,
      "grad_norm": 0.725657045841217,
      "learning_rate": 0.0002507475387876562,
      "loss": 3.9489,
      "step": 128950
    },
    {
      "epoch": 0.26866666666666666,
      "grad_norm": 0.6882716417312622,
      "learning_rate": 0.00025074023467904985,
      "loss": 3.9261,
      "step": 128960
    },
    {
      "epoch": 0.2686875,
      "grad_norm": 0.7997869253158569,
      "learning_rate": 0.00025073293013528556,
      "loss": 3.8984,
      "step": 128970
    },
    {
      "epoch": 0.2687083333333333,
      "grad_norm": 0.7673331499099731,
      "learning_rate": 0.0002507256251563949,
      "loss": 3.7616,
      "step": 128980
    },
    {
      "epoch": 0.2687291666666667,
      "grad_norm": 0.8854137063026428,
      "learning_rate": 0.0002507183197424094,
      "loss": 4.0489,
      "step": 128990
    },
    {
      "epoch": 0.26875,
      "grad_norm": 0.7179070115089417,
      "learning_rate": 0.00025071101389336067,
      "loss": 4.022,
      "step": 129000
    },
    {
      "epoch": 0.26875,
      "eval_loss": 4.229150295257568,
      "eval_runtime": 11.0173,
      "eval_samples_per_second": 0.908,
      "eval_steps_per_second": 0.272,
      "step": 129000
    },
    {
      "epoch": 0.26877083333333335,
      "grad_norm": 0.707489550113678,
      "learning_rate": 0.00025070370760928016,
      "loss": 3.6895,
      "step": 129010
    },
    {
      "epoch": 0.26879166666666665,
      "grad_norm": 0.8196832537651062,
      "learning_rate": 0.0002506964008901996,
      "loss": 3.8217,
      "step": 129020
    },
    {
      "epoch": 0.2688125,
      "grad_norm": 0.7736548781394958,
      "learning_rate": 0.0002506890937361503,
      "loss": 3.9277,
      "step": 129030
    },
    {
      "epoch": 0.2688333333333333,
      "grad_norm": 0.7167484760284424,
      "learning_rate": 0.000250681786147164,
      "loss": 3.8944,
      "step": 129040
    },
    {
      "epoch": 0.26885416666666667,
      "grad_norm": 0.7830126881599426,
      "learning_rate": 0.0002506744781232723,
      "loss": 3.9204,
      "step": 129050
    },
    {
      "epoch": 0.268875,
      "grad_norm": 0.7611603140830994,
      "learning_rate": 0.00025066716966450666,
      "loss": 4.0039,
      "step": 129060
    },
    {
      "epoch": 0.26889583333333333,
      "grad_norm": 0.780301570892334,
      "learning_rate": 0.0002506598607708987,
      "loss": 3.9854,
      "step": 129070
    },
    {
      "epoch": 0.2689166666666667,
      "grad_norm": 0.7144777774810791,
      "learning_rate": 0.00025065255144248003,
      "loss": 3.8018,
      "step": 129080
    },
    {
      "epoch": 0.2689375,
      "grad_norm": 0.7523015141487122,
      "learning_rate": 0.0002506452416792821,
      "loss": 3.8755,
      "step": 129090
    },
    {
      "epoch": 0.26895833333333335,
      "grad_norm": 0.7511728405952454,
      "learning_rate": 0.0002506379314813367,
      "loss": 3.9269,
      "step": 129100
    },
    {
      "epoch": 0.26897916666666666,
      "grad_norm": 0.8141710162162781,
      "learning_rate": 0.0002506306208486751,
      "loss": 3.6772,
      "step": 129110
    },
    {
      "epoch": 0.269,
      "grad_norm": 0.676038920879364,
      "learning_rate": 0.00025062330978132917,
      "loss": 3.8685,
      "step": 129120
    },
    {
      "epoch": 0.2690208333333333,
      "grad_norm": 0.8108827471733093,
      "learning_rate": 0.00025061599827933033,
      "loss": 3.8178,
      "step": 129130
    },
    {
      "epoch": 0.2690416666666667,
      "grad_norm": 0.7737749814987183,
      "learning_rate": 0.0002506086863427102,
      "loss": 3.7297,
      "step": 129140
    },
    {
      "epoch": 0.2690625,
      "grad_norm": 0.9329675436019897,
      "learning_rate": 0.00025060137397150034,
      "loss": 3.7672,
      "step": 129150
    },
    {
      "epoch": 0.26908333333333334,
      "grad_norm": 0.8748907446861267,
      "learning_rate": 0.00025059406116573245,
      "loss": 3.8987,
      "step": 129160
    },
    {
      "epoch": 0.26910416666666664,
      "grad_norm": 0.7851693034172058,
      "learning_rate": 0.00025058674792543796,
      "loss": 4.0234,
      "step": 129170
    },
    {
      "epoch": 0.269125,
      "grad_norm": 0.9862889051437378,
      "learning_rate": 0.00025057943425064853,
      "loss": 3.9621,
      "step": 129180
    },
    {
      "epoch": 0.2691458333333333,
      "grad_norm": 0.7489972114562988,
      "learning_rate": 0.0002505721201413958,
      "loss": 4.0721,
      "step": 129190
    },
    {
      "epoch": 0.26916666666666667,
      "grad_norm": 0.8045079708099365,
      "learning_rate": 0.0002505648055977113,
      "loss": 4.0011,
      "step": 129200
    },
    {
      "epoch": 0.2691875,
      "grad_norm": 0.8051006197929382,
      "learning_rate": 0.0002505574906196267,
      "loss": 4.0137,
      "step": 129210
    },
    {
      "epoch": 0.2692083333333333,
      "grad_norm": 0.7096201777458191,
      "learning_rate": 0.00025055017520717347,
      "loss": 3.789,
      "step": 129220
    },
    {
      "epoch": 0.2692291666666667,
      "grad_norm": 0.9520490169525146,
      "learning_rate": 0.0002505428593603833,
      "loss": 3.7699,
      "step": 129230
    },
    {
      "epoch": 0.26925,
      "grad_norm": 0.7577147483825684,
      "learning_rate": 0.0002505355430792878,
      "loss": 4.1359,
      "step": 129240
    },
    {
      "epoch": 0.26927083333333335,
      "grad_norm": 0.750428318977356,
      "learning_rate": 0.0002505282263639185,
      "loss": 3.9625,
      "step": 129250
    },
    {
      "epoch": 0.26929166666666665,
      "grad_norm": 0.7137652039527893,
      "learning_rate": 0.0002505209092143071,
      "loss": 3.8019,
      "step": 129260
    },
    {
      "epoch": 0.2693125,
      "grad_norm": 0.813197910785675,
      "learning_rate": 0.0002505135916304851,
      "loss": 3.9521,
      "step": 129270
    },
    {
      "epoch": 0.2693333333333333,
      "grad_norm": 0.8056837916374207,
      "learning_rate": 0.00025050627361248424,
      "loss": 3.9439,
      "step": 129280
    },
    {
      "epoch": 0.2693541666666667,
      "grad_norm": 0.9283466935157776,
      "learning_rate": 0.00025049895516033606,
      "loss": 3.89,
      "step": 129290
    },
    {
      "epoch": 0.269375,
      "grad_norm": 0.764963686466217,
      "learning_rate": 0.00025049163627407215,
      "loss": 3.8836,
      "step": 129300
    },
    {
      "epoch": 0.26939583333333333,
      "grad_norm": 0.7258776426315308,
      "learning_rate": 0.00025048431695372415,
      "loss": 3.8899,
      "step": 129310
    },
    {
      "epoch": 0.2694166666666667,
      "grad_norm": 0.9638092517852783,
      "learning_rate": 0.0002504769971993237,
      "loss": 3.9628,
      "step": 129320
    },
    {
      "epoch": 0.2694375,
      "grad_norm": 0.8201643228530884,
      "learning_rate": 0.0002504696770109023,
      "loss": 3.8431,
      "step": 129330
    },
    {
      "epoch": 0.26945833333333336,
      "grad_norm": 0.7747397422790527,
      "learning_rate": 0.00025046235638849176,
      "loss": 3.9981,
      "step": 129340
    },
    {
      "epoch": 0.26947916666666666,
      "grad_norm": 0.7439215183258057,
      "learning_rate": 0.0002504550353321236,
      "loss": 3.8835,
      "step": 129350
    },
    {
      "epoch": 0.2695,
      "grad_norm": 0.8077954053878784,
      "learning_rate": 0.0002504477138418294,
      "loss": 3.9277,
      "step": 129360
    },
    {
      "epoch": 0.2695208333333333,
      "grad_norm": 0.7119661569595337,
      "learning_rate": 0.00025044039191764086,
      "loss": 3.9014,
      "step": 129370
    },
    {
      "epoch": 0.2695416666666667,
      "grad_norm": 0.7934789061546326,
      "learning_rate": 0.00025043306955958963,
      "loss": 4.0034,
      "step": 129380
    },
    {
      "epoch": 0.2695625,
      "grad_norm": 0.7537568211555481,
      "learning_rate": 0.0002504257467677072,
      "loss": 3.7715,
      "step": 129390
    },
    {
      "epoch": 0.26958333333333334,
      "grad_norm": 0.7211953401565552,
      "learning_rate": 0.00025041842354202537,
      "loss": 3.7743,
      "step": 129400
    },
    {
      "epoch": 0.26960416666666664,
      "grad_norm": 0.8001144528388977,
      "learning_rate": 0.0002504110998825757,
      "loss": 3.6992,
      "step": 129410
    },
    {
      "epoch": 0.269625,
      "grad_norm": 0.7298014163970947,
      "learning_rate": 0.00025040377578938977,
      "loss": 3.9463,
      "step": 129420
    },
    {
      "epoch": 0.2696458333333333,
      "grad_norm": 0.7385618090629578,
      "learning_rate": 0.0002503964512624993,
      "loss": 3.8149,
      "step": 129430
    },
    {
      "epoch": 0.26966666666666667,
      "grad_norm": 0.7265936136245728,
      "learning_rate": 0.00025038912630193593,
      "loss": 3.8766,
      "step": 129440
    },
    {
      "epoch": 0.2696875,
      "grad_norm": 0.7293309569358826,
      "learning_rate": 0.00025038180090773124,
      "loss": 3.9217,
      "step": 129450
    },
    {
      "epoch": 0.2697083333333333,
      "grad_norm": 0.7431997656822205,
      "learning_rate": 0.0002503744750799169,
      "loss": 3.9789,
      "step": 129460
    },
    {
      "epoch": 0.2697291666666667,
      "grad_norm": 0.7740062475204468,
      "learning_rate": 0.00025036714881852454,
      "loss": 3.7828,
      "step": 129470
    },
    {
      "epoch": 0.26975,
      "grad_norm": 0.7465144991874695,
      "learning_rate": 0.00025035982212358586,
      "loss": 3.8417,
      "step": 129480
    },
    {
      "epoch": 0.26977083333333335,
      "grad_norm": 0.8230554461479187,
      "learning_rate": 0.00025035249499513247,
      "loss": 3.8257,
      "step": 129490
    },
    {
      "epoch": 0.26979166666666665,
      "grad_norm": 0.8615636229515076,
      "learning_rate": 0.000250345167433196,
      "loss": 3.8576,
      "step": 129500
    },
    {
      "epoch": 0.2698125,
      "grad_norm": 0.8997325301170349,
      "learning_rate": 0.00025033783943780816,
      "loss": 3.8136,
      "step": 129510
    },
    {
      "epoch": 0.2698333333333333,
      "grad_norm": 0.7528025507926941,
      "learning_rate": 0.0002503305110090005,
      "loss": 3.931,
      "step": 129520
    },
    {
      "epoch": 0.2698541666666667,
      "grad_norm": 0.8613823652267456,
      "learning_rate": 0.00025032318214680485,
      "loss": 3.9972,
      "step": 129530
    },
    {
      "epoch": 0.269875,
      "grad_norm": 0.7448412775993347,
      "learning_rate": 0.0002503158528512527,
      "loss": 3.945,
      "step": 129540
    },
    {
      "epoch": 0.26989583333333333,
      "grad_norm": 0.7557447552680969,
      "learning_rate": 0.0002503085231223758,
      "loss": 3.864,
      "step": 129550
    },
    {
      "epoch": 0.2699166666666667,
      "grad_norm": 0.7672606706619263,
      "learning_rate": 0.0002503011929602058,
      "loss": 3.9333,
      "step": 129560
    },
    {
      "epoch": 0.2699375,
      "grad_norm": 0.7477983832359314,
      "learning_rate": 0.00025029386236477433,
      "loss": 3.9989,
      "step": 129570
    },
    {
      "epoch": 0.26995833333333336,
      "grad_norm": 0.8532478213310242,
      "learning_rate": 0.0002502865313361131,
      "loss": 3.767,
      "step": 129580
    },
    {
      "epoch": 0.26997916666666666,
      "grad_norm": 0.841403603553772,
      "learning_rate": 0.00025027919987425366,
      "loss": 3.8997,
      "step": 129590
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8174450993537903,
      "learning_rate": 0.0002502718679792278,
      "loss": 3.7957,
      "step": 129600
    },
    {
      "epoch": 0.2700208333333333,
      "grad_norm": 0.7728173136711121,
      "learning_rate": 0.0002502645356510672,
      "loss": 3.6675,
      "step": 129610
    },
    {
      "epoch": 0.2700416666666667,
      "grad_norm": 0.7392288446426392,
      "learning_rate": 0.00025025720288980347,
      "loss": 3.9039,
      "step": 129620
    },
    {
      "epoch": 0.2700625,
      "grad_norm": 0.760933518409729,
      "learning_rate": 0.00025024986969546833,
      "loss": 3.8364,
      "step": 129630
    },
    {
      "epoch": 0.27008333333333334,
      "grad_norm": 0.7059713006019592,
      "learning_rate": 0.0002502425360680934,
      "loss": 3.9169,
      "step": 129640
    },
    {
      "epoch": 0.27010416666666665,
      "grad_norm": 0.734019935131073,
      "learning_rate": 0.00025023520200771044,
      "loss": 3.8246,
      "step": 129650
    },
    {
      "epoch": 0.270125,
      "grad_norm": 0.8283596038818359,
      "learning_rate": 0.00025022786751435105,
      "loss": 3.8954,
      "step": 129660
    },
    {
      "epoch": 0.2701458333333333,
      "grad_norm": 0.7690246105194092,
      "learning_rate": 0.00025022053258804696,
      "loss": 3.8054,
      "step": 129670
    },
    {
      "epoch": 0.27016666666666667,
      "grad_norm": 0.7597419619560242,
      "learning_rate": 0.00025021319722882984,
      "loss": 3.9344,
      "step": 129680
    },
    {
      "epoch": 0.2701875,
      "grad_norm": 0.7585727572441101,
      "learning_rate": 0.0002502058614367314,
      "loss": 3.9839,
      "step": 129690
    },
    {
      "epoch": 0.27020833333333333,
      "grad_norm": 0.8148194551467896,
      "learning_rate": 0.0002501985252117833,
      "loss": 4.064,
      "step": 129700
    },
    {
      "epoch": 0.2702291666666667,
      "grad_norm": 0.8939324021339417,
      "learning_rate": 0.00025019118855401716,
      "loss": 3.9855,
      "step": 129710
    },
    {
      "epoch": 0.27025,
      "grad_norm": 0.9141461849212646,
      "learning_rate": 0.00025018385146346474,
      "loss": 3.8536,
      "step": 129720
    },
    {
      "epoch": 0.27027083333333335,
      "grad_norm": 0.8374649882316589,
      "learning_rate": 0.0002501765139401578,
      "loss": 3.8347,
      "step": 129730
    },
    {
      "epoch": 0.27029166666666665,
      "grad_norm": 0.9741665720939636,
      "learning_rate": 0.00025016917598412794,
      "loss": 3.814,
      "step": 129740
    },
    {
      "epoch": 0.2703125,
      "grad_norm": 1.0571472644805908,
      "learning_rate": 0.0002501618375954069,
      "loss": 4.0678,
      "step": 129750
    },
    {
      "epoch": 0.2703333333333333,
      "grad_norm": 0.9200251698493958,
      "learning_rate": 0.0002501544987740264,
      "loss": 3.9755,
      "step": 129760
    },
    {
      "epoch": 0.2703541666666667,
      "grad_norm": 0.7352839708328247,
      "learning_rate": 0.00025014715952001806,
      "loss": 3.7766,
      "step": 129770
    },
    {
      "epoch": 0.270375,
      "grad_norm": 0.7878907918930054,
      "learning_rate": 0.0002501398198334137,
      "loss": 3.8287,
      "step": 129780
    },
    {
      "epoch": 0.27039583333333334,
      "grad_norm": 0.7867355942726135,
      "learning_rate": 0.00025013247971424486,
      "loss": 3.8885,
      "step": 129790
    },
    {
      "epoch": 0.2704166666666667,
      "grad_norm": 0.661654531955719,
      "learning_rate": 0.00025012513916254344,
      "loss": 4.0501,
      "step": 129800
    },
    {
      "epoch": 0.2704375,
      "grad_norm": 0.6867603659629822,
      "learning_rate": 0.000250117798178341,
      "loss": 3.9092,
      "step": 129810
    },
    {
      "epoch": 0.27045833333333336,
      "grad_norm": 0.742230236530304,
      "learning_rate": 0.0002501104567616693,
      "loss": 3.7246,
      "step": 129820
    },
    {
      "epoch": 0.27047916666666666,
      "grad_norm": 0.8872735500335693,
      "learning_rate": 0.0002501031149125601,
      "loss": 3.9874,
      "step": 129830
    },
    {
      "epoch": 0.2705,
      "grad_norm": 0.7237175107002258,
      "learning_rate": 0.000250095772631045,
      "loss": 3.9547,
      "step": 129840
    },
    {
      "epoch": 0.2705208333333333,
      "grad_norm": 0.8512241244316101,
      "learning_rate": 0.0002500884299171558,
      "loss": 3.8015,
      "step": 129850
    },
    {
      "epoch": 0.2705416666666667,
      "grad_norm": 0.6845589280128479,
      "learning_rate": 0.0002500810867709242,
      "loss": 3.8762,
      "step": 129860
    },
    {
      "epoch": 0.2705625,
      "grad_norm": 0.9259349703788757,
      "learning_rate": 0.00025007374319238195,
      "loss": 3.8415,
      "step": 129870
    },
    {
      "epoch": 0.27058333333333334,
      "grad_norm": 0.7544795870780945,
      "learning_rate": 0.0002500663991815607,
      "loss": 3.9247,
      "step": 129880
    },
    {
      "epoch": 0.27060416666666665,
      "grad_norm": 0.8141941428184509,
      "learning_rate": 0.0002500590547384923,
      "loss": 3.9251,
      "step": 129890
    },
    {
      "epoch": 0.270625,
      "grad_norm": 0.6968669295310974,
      "learning_rate": 0.0002500517098632083,
      "loss": 3.9042,
      "step": 129900
    },
    {
      "epoch": 0.2706458333333333,
      "grad_norm": 0.78533536195755,
      "learning_rate": 0.0002500443645557405,
      "loss": 3.7553,
      "step": 129910
    },
    {
      "epoch": 0.27066666666666667,
      "grad_norm": 0.6940984725952148,
      "learning_rate": 0.00025003701881612074,
      "loss": 4.0104,
      "step": 129920
    },
    {
      "epoch": 0.2706875,
      "grad_norm": 0.7834740281105042,
      "learning_rate": 0.0002500296726443806,
      "loss": 3.7916,
      "step": 129930
    },
    {
      "epoch": 0.27070833333333333,
      "grad_norm": 0.7584323287010193,
      "learning_rate": 0.00025002232604055184,
      "loss": 4.1122,
      "step": 129940
    },
    {
      "epoch": 0.2707291666666667,
      "grad_norm": 0.9145352244377136,
      "learning_rate": 0.00025001497900466624,
      "loss": 3.9143,
      "step": 129950
    },
    {
      "epoch": 0.27075,
      "grad_norm": 0.7293458580970764,
      "learning_rate": 0.00025000763153675557,
      "loss": 3.8889,
      "step": 129960
    },
    {
      "epoch": 0.27077083333333335,
      "grad_norm": 0.9698682427406311,
      "learning_rate": 0.0002500002836368515,
      "loss": 3.9077,
      "step": 129970
    },
    {
      "epoch": 0.27079166666666665,
      "grad_norm": 0.7011756896972656,
      "learning_rate": 0.00024999293530498574,
      "loss": 3.9642,
      "step": 129980
    },
    {
      "epoch": 0.2708125,
      "grad_norm": 0.759166955947876,
      "learning_rate": 0.0002499855865411901,
      "loss": 3.8375,
      "step": 129990
    },
    {
      "epoch": 0.2708333333333333,
      "grad_norm": 0.7864195108413696,
      "learning_rate": 0.0002499782373454963,
      "loss": 3.9426,
      "step": 130000
    },
    {
      "epoch": 0.2708333333333333,
      "eval_loss": 4.224355697631836,
      "eval_runtime": 8.8105,
      "eval_samples_per_second": 1.135,
      "eval_steps_per_second": 0.341,
      "step": 130000
    },
    {
      "epoch": 0.2708541666666667,
      "grad_norm": 0.7983626127243042,
      "learning_rate": 0.00024997088771793613,
      "loss": 3.7616,
      "step": 130010
    },
    {
      "epoch": 0.270875,
      "grad_norm": 0.764716625213623,
      "learning_rate": 0.00024996353765854124,
      "loss": 3.9121,
      "step": 130020
    },
    {
      "epoch": 0.27089583333333334,
      "grad_norm": 0.7131237983703613,
      "learning_rate": 0.0002499561871673435,
      "loss": 3.7928,
      "step": 130030
    },
    {
      "epoch": 0.27091666666666664,
      "grad_norm": 0.7255176901817322,
      "learning_rate": 0.0002499488362443746,
      "loss": 3.7713,
      "step": 130040
    },
    {
      "epoch": 0.2709375,
      "grad_norm": 0.6614768505096436,
      "learning_rate": 0.0002499414848896662,
      "loss": 3.9925,
      "step": 130050
    },
    {
      "epoch": 0.27095833333333336,
      "grad_norm": 0.7660382390022278,
      "learning_rate": 0.0002499341331032502,
      "loss": 3.7998,
      "step": 130060
    },
    {
      "epoch": 0.27097916666666666,
      "grad_norm": 0.7473167777061462,
      "learning_rate": 0.00024992678088515827,
      "loss": 3.8859,
      "step": 130070
    },
    {
      "epoch": 0.271,
      "grad_norm": 0.8196747899055481,
      "learning_rate": 0.00024991942823542225,
      "loss": 3.7988,
      "step": 130080
    },
    {
      "epoch": 0.2710208333333333,
      "grad_norm": 0.8441251516342163,
      "learning_rate": 0.00024991207515407386,
      "loss": 3.9538,
      "step": 130090
    },
    {
      "epoch": 0.2710416666666667,
      "grad_norm": 0.829395055770874,
      "learning_rate": 0.0002499047216411448,
      "loss": 3.7735,
      "step": 130100
    },
    {
      "epoch": 0.2710625,
      "grad_norm": 0.7701510787010193,
      "learning_rate": 0.0002498973676966669,
      "loss": 3.8575,
      "step": 130110
    },
    {
      "epoch": 0.27108333333333334,
      "grad_norm": 1.0922508239746094,
      "learning_rate": 0.00024989001332067194,
      "loss": 3.9165,
      "step": 130120
    },
    {
      "epoch": 0.27110416666666665,
      "grad_norm": 0.8256903886795044,
      "learning_rate": 0.0002498826585131916,
      "loss": 3.8595,
      "step": 130130
    },
    {
      "epoch": 0.271125,
      "grad_norm": 1.0229532718658447,
      "learning_rate": 0.0002498753032742578,
      "loss": 4.0273,
      "step": 130140
    },
    {
      "epoch": 0.2711458333333333,
      "grad_norm": 0.6809743046760559,
      "learning_rate": 0.00024986794760390216,
      "loss": 3.7742,
      "step": 130150
    },
    {
      "epoch": 0.27116666666666667,
      "grad_norm": 0.8126758337020874,
      "learning_rate": 0.0002498605915021566,
      "loss": 3.741,
      "step": 130160
    },
    {
      "epoch": 0.2711875,
      "grad_norm": 0.7258045077323914,
      "learning_rate": 0.0002498532349690527,
      "loss": 3.7645,
      "step": 130170
    },
    {
      "epoch": 0.27120833333333333,
      "grad_norm": 0.8604649901390076,
      "learning_rate": 0.0002498458780046224,
      "loss": 3.8316,
      "step": 130180
    },
    {
      "epoch": 0.2712291666666667,
      "grad_norm": 0.7606468796730042,
      "learning_rate": 0.0002498385206088974,
      "loss": 3.8226,
      "step": 130190
    },
    {
      "epoch": 0.27125,
      "grad_norm": 0.8326647877693176,
      "learning_rate": 0.0002498311627819096,
      "loss": 3.9204,
      "step": 130200
    },
    {
      "epoch": 0.27127083333333335,
      "grad_norm": 0.9779413342475891,
      "learning_rate": 0.0002498238045236906,
      "loss": 3.8291,
      "step": 130210
    },
    {
      "epoch": 0.27129166666666665,
      "grad_norm": 0.7917633652687073,
      "learning_rate": 0.0002498164458342723,
      "loss": 3.8766,
      "step": 130220
    },
    {
      "epoch": 0.2713125,
      "grad_norm": 0.8259766101837158,
      "learning_rate": 0.00024980908671368645,
      "loss": 3.9722,
      "step": 130230
    },
    {
      "epoch": 0.2713333333333333,
      "grad_norm": 0.7121844291687012,
      "learning_rate": 0.0002498017271619649,
      "loss": 3.8728,
      "step": 130240
    },
    {
      "epoch": 0.2713541666666667,
      "grad_norm": 0.7045297026634216,
      "learning_rate": 0.0002497943671791394,
      "loss": 3.8435,
      "step": 130250
    },
    {
      "epoch": 0.271375,
      "grad_norm": 0.9829772114753723,
      "learning_rate": 0.00024978700676524165,
      "loss": 3.771,
      "step": 130260
    },
    {
      "epoch": 0.27139583333333334,
      "grad_norm": 0.6988702416419983,
      "learning_rate": 0.00024977964592030357,
      "loss": 3.838,
      "step": 130270
    },
    {
      "epoch": 0.27141666666666664,
      "grad_norm": 0.8005157113075256,
      "learning_rate": 0.00024977228464435696,
      "loss": 3.9475,
      "step": 130280
    },
    {
      "epoch": 0.2714375,
      "grad_norm": 0.7968006730079651,
      "learning_rate": 0.00024976492293743354,
      "loss": 3.8462,
      "step": 130290
    },
    {
      "epoch": 0.27145833333333336,
      "grad_norm": 0.8481548428535461,
      "learning_rate": 0.0002497575607995651,
      "loss": 3.9066,
      "step": 130300
    },
    {
      "epoch": 0.27147916666666666,
      "grad_norm": 0.7020876407623291,
      "learning_rate": 0.0002497501982307836,
      "loss": 3.8429,
      "step": 130310
    },
    {
      "epoch": 0.2715,
      "grad_norm": 0.7646595239639282,
      "learning_rate": 0.0002497428352311206,
      "loss": 3.7938,
      "step": 130320
    },
    {
      "epoch": 0.2715208333333333,
      "grad_norm": 0.8617119789123535,
      "learning_rate": 0.0002497354718006081,
      "loss": 3.8688,
      "step": 130330
    },
    {
      "epoch": 0.2715416666666667,
      "grad_norm": 0.8451739549636841,
      "learning_rate": 0.0002497281079392778,
      "loss": 4.0243,
      "step": 130340
    },
    {
      "epoch": 0.2715625,
      "grad_norm": 0.6760015487670898,
      "learning_rate": 0.0002497207436471616,
      "loss": 4.0303,
      "step": 130350
    },
    {
      "epoch": 0.27158333333333334,
      "grad_norm": 0.7605512738227844,
      "learning_rate": 0.00024971337892429124,
      "loss": 3.9152,
      "step": 130360
    },
    {
      "epoch": 0.27160416666666665,
      "grad_norm": 0.7983182668685913,
      "learning_rate": 0.00024970601377069854,
      "loss": 3.7868,
      "step": 130370
    },
    {
      "epoch": 0.271625,
      "grad_norm": 0.7967740893363953,
      "learning_rate": 0.0002496986481864153,
      "loss": 3.9762,
      "step": 130380
    },
    {
      "epoch": 0.2716458333333333,
      "grad_norm": 0.8089125752449036,
      "learning_rate": 0.00024969128217147343,
      "loss": 3.9849,
      "step": 130390
    },
    {
      "epoch": 0.27166666666666667,
      "grad_norm": 0.6724365949630737,
      "learning_rate": 0.00024968391572590467,
      "loss": 3.9416,
      "step": 130400
    },
    {
      "epoch": 0.2716875,
      "grad_norm": 0.792824387550354,
      "learning_rate": 0.00024967654884974083,
      "loss": 3.9752,
      "step": 130410
    },
    {
      "epoch": 0.27170833333333333,
      "grad_norm": 0.6878367066383362,
      "learning_rate": 0.00024966918154301375,
      "loss": 3.91,
      "step": 130420
    },
    {
      "epoch": 0.2717291666666667,
      "grad_norm": 0.7365736961364746,
      "learning_rate": 0.00024966181380575524,
      "loss": 3.9052,
      "step": 130430
    },
    {
      "epoch": 0.27175,
      "grad_norm": 0.8535479307174683,
      "learning_rate": 0.00024965444563799713,
      "loss": 3.8556,
      "step": 130440
    },
    {
      "epoch": 0.27177083333333335,
      "grad_norm": 0.7976227402687073,
      "learning_rate": 0.00024964707703977135,
      "loss": 3.8811,
      "step": 130450
    },
    {
      "epoch": 0.27179166666666665,
      "grad_norm": 0.7568181753158569,
      "learning_rate": 0.00024963970801110955,
      "loss": 3.8056,
      "step": 130460
    },
    {
      "epoch": 0.2718125,
      "grad_norm": 0.9024018049240112,
      "learning_rate": 0.0002496323385520437,
      "loss": 3.9649,
      "step": 130470
    },
    {
      "epoch": 0.2718333333333333,
      "grad_norm": 1.184187650680542,
      "learning_rate": 0.0002496249686626056,
      "loss": 3.8698,
      "step": 130480
    },
    {
      "epoch": 0.2718541666666667,
      "grad_norm": 0.8107970952987671,
      "learning_rate": 0.000249617598342827,
      "loss": 3.8087,
      "step": 130490
    },
    {
      "epoch": 0.271875,
      "grad_norm": 0.8301977515220642,
      "learning_rate": 0.00024961022759273984,
      "loss": 3.8819,
      "step": 130500
    },
    {
      "epoch": 0.27189583333333334,
      "grad_norm": 0.7068899273872375,
      "learning_rate": 0.00024960285641237594,
      "loss": 3.8312,
      "step": 130510
    },
    {
      "epoch": 0.27191666666666664,
      "grad_norm": 0.7827125787734985,
      "learning_rate": 0.00024959548480176717,
      "loss": 3.7825,
      "step": 130520
    },
    {
      "epoch": 0.2719375,
      "grad_norm": 0.7735804319381714,
      "learning_rate": 0.00024958811276094524,
      "loss": 3.8909,
      "step": 130530
    },
    {
      "epoch": 0.27195833333333336,
      "grad_norm": 0.6921769976615906,
      "learning_rate": 0.00024958074028994215,
      "loss": 3.8398,
      "step": 130540
    },
    {
      "epoch": 0.27197916666666666,
      "grad_norm": 0.7650237679481506,
      "learning_rate": 0.0002495733673887896,
      "loss": 3.873,
      "step": 130550
    },
    {
      "epoch": 0.272,
      "grad_norm": 0.9188948273658752,
      "learning_rate": 0.0002495659940575196,
      "loss": 3.9531,
      "step": 130560
    },
    {
      "epoch": 0.2720208333333333,
      "grad_norm": 0.7924576997756958,
      "learning_rate": 0.00024955862029616386,
      "loss": 3.9929,
      "step": 130570
    },
    {
      "epoch": 0.2720416666666667,
      "grad_norm": 0.7379719018936157,
      "learning_rate": 0.00024955124610475434,
      "loss": 3.8253,
      "step": 130580
    },
    {
      "epoch": 0.2720625,
      "grad_norm": 0.7838485836982727,
      "learning_rate": 0.0002495438714833228,
      "loss": 3.7443,
      "step": 130590
    },
    {
      "epoch": 0.27208333333333334,
      "grad_norm": 0.923862636089325,
      "learning_rate": 0.0002495364964319012,
      "loss": 3.8424,
      "step": 130600
    },
    {
      "epoch": 0.27210416666666665,
      "grad_norm": 0.8801972270011902,
      "learning_rate": 0.0002495291209505212,
      "loss": 4.0196,
      "step": 130610
    },
    {
      "epoch": 0.272125,
      "grad_norm": 0.7379826307296753,
      "learning_rate": 0.0002495217450392149,
      "loss": 3.8792,
      "step": 130620
    },
    {
      "epoch": 0.2721458333333333,
      "grad_norm": 0.8340052962303162,
      "learning_rate": 0.000249514368698014,
      "loss": 3.8546,
      "step": 130630
    },
    {
      "epoch": 0.27216666666666667,
      "grad_norm": 0.9113439321517944,
      "learning_rate": 0.0002495069919269505,
      "loss": 3.9095,
      "step": 130640
    },
    {
      "epoch": 0.2721875,
      "grad_norm": 0.7830820083618164,
      "learning_rate": 0.0002494996147260561,
      "loss": 4.1362,
      "step": 130650
    },
    {
      "epoch": 0.27220833333333333,
      "grad_norm": 0.6279729008674622,
      "learning_rate": 0.0002494922370953628,
      "loss": 3.9043,
      "step": 130660
    },
    {
      "epoch": 0.2722291666666667,
      "grad_norm": 0.7390682101249695,
      "learning_rate": 0.00024948485903490236,
      "loss": 3.9019,
      "step": 130670
    },
    {
      "epoch": 0.27225,
      "grad_norm": 0.7938640713691711,
      "learning_rate": 0.0002494774805447068,
      "loss": 4.0504,
      "step": 130680
    },
    {
      "epoch": 0.27227083333333335,
      "grad_norm": 0.815131664276123,
      "learning_rate": 0.00024947010162480786,
      "loss": 3.8623,
      "step": 130690
    },
    {
      "epoch": 0.27229166666666665,
      "grad_norm": 0.8783586621284485,
      "learning_rate": 0.00024946272227523744,
      "loss": 3.9154,
      "step": 130700
    },
    {
      "epoch": 0.2723125,
      "grad_norm": 0.890765368938446,
      "learning_rate": 0.0002494553424960274,
      "loss": 3.8952,
      "step": 130710
    },
    {
      "epoch": 0.2723333333333333,
      "grad_norm": 0.9783177971839905,
      "learning_rate": 0.0002494479622872097,
      "loss": 3.9046,
      "step": 130720
    },
    {
      "epoch": 0.2723541666666667,
      "grad_norm": 0.8996365666389465,
      "learning_rate": 0.00024944058164881616,
      "loss": 3.9298,
      "step": 130730
    },
    {
      "epoch": 0.272375,
      "grad_norm": 0.6318645477294922,
      "learning_rate": 0.00024943320058087864,
      "loss": 3.8619,
      "step": 130740
    },
    {
      "epoch": 0.27239583333333334,
      "grad_norm": 0.718174159526825,
      "learning_rate": 0.00024942581908342907,
      "loss": 3.8008,
      "step": 130750
    },
    {
      "epoch": 0.27241666666666664,
      "grad_norm": 0.7526674866676331,
      "learning_rate": 0.0002494184371564993,
      "loss": 3.7909,
      "step": 130760
    },
    {
      "epoch": 0.2724375,
      "grad_norm": 0.685623824596405,
      "learning_rate": 0.00024941105480012126,
      "loss": 3.8753,
      "step": 130770
    },
    {
      "epoch": 0.27245833333333336,
      "grad_norm": 0.7575300931930542,
      "learning_rate": 0.0002494036720143268,
      "loss": 3.8801,
      "step": 130780
    },
    {
      "epoch": 0.27247916666666666,
      "grad_norm": 0.6957394480705261,
      "learning_rate": 0.0002493962887991478,
      "loss": 3.7872,
      "step": 130790
    },
    {
      "epoch": 0.2725,
      "grad_norm": 0.6692525148391724,
      "learning_rate": 0.0002493889051546162,
      "loss": 3.8868,
      "step": 130800
    },
    {
      "epoch": 0.2725208333333333,
      "grad_norm": 0.8113884925842285,
      "learning_rate": 0.0002493815210807639,
      "loss": 4.0013,
      "step": 130810
    },
    {
      "epoch": 0.2725416666666667,
      "grad_norm": 0.7213071584701538,
      "learning_rate": 0.0002493741365776227,
      "loss": 3.9236,
      "step": 130820
    },
    {
      "epoch": 0.2725625,
      "grad_norm": 0.7148305773735046,
      "learning_rate": 0.0002493667516452247,
      "loss": 3.7816,
      "step": 130830
    },
    {
      "epoch": 0.27258333333333334,
      "grad_norm": 0.8554107546806335,
      "learning_rate": 0.0002493593662836015,
      "loss": 3.8568,
      "step": 130840
    },
    {
      "epoch": 0.27260416666666665,
      "grad_norm": 0.8122454285621643,
      "learning_rate": 0.00024935198049278525,
      "loss": 3.8943,
      "step": 130850
    },
    {
      "epoch": 0.272625,
      "grad_norm": 0.8172620534896851,
      "learning_rate": 0.00024934459427280775,
      "loss": 3.8107,
      "step": 130860
    },
    {
      "epoch": 0.2726458333333333,
      "grad_norm": 0.7922977209091187,
      "learning_rate": 0.0002493372076237009,
      "loss": 3.9045,
      "step": 130870
    },
    {
      "epoch": 0.27266666666666667,
      "grad_norm": 0.7004744410514832,
      "learning_rate": 0.0002493298205454967,
      "loss": 3.8497,
      "step": 130880
    },
    {
      "epoch": 0.2726875,
      "grad_norm": 0.8398637771606445,
      "learning_rate": 0.0002493224330382269,
      "loss": 3.9757,
      "step": 130890
    },
    {
      "epoch": 0.27270833333333333,
      "grad_norm": 0.8054845333099365,
      "learning_rate": 0.0002493150451019236,
      "loss": 3.9432,
      "step": 130900
    },
    {
      "epoch": 0.2727291666666667,
      "grad_norm": 0.741251528263092,
      "learning_rate": 0.0002493076567366186,
      "loss": 3.9606,
      "step": 130910
    },
    {
      "epoch": 0.27275,
      "grad_norm": 0.7329684495925903,
      "learning_rate": 0.0002493002679423438,
      "loss": 3.9968,
      "step": 130920
    },
    {
      "epoch": 0.27277083333333335,
      "grad_norm": 0.9774645566940308,
      "learning_rate": 0.0002492928787191312,
      "loss": 3.9392,
      "step": 130930
    },
    {
      "epoch": 0.27279166666666665,
      "grad_norm": 0.7506482005119324,
      "learning_rate": 0.00024928548906701255,
      "loss": 3.9341,
      "step": 130940
    },
    {
      "epoch": 0.2728125,
      "grad_norm": 0.7463821172714233,
      "learning_rate": 0.00024927809898602,
      "loss": 3.9787,
      "step": 130950
    },
    {
      "epoch": 0.2728333333333333,
      "grad_norm": 0.7388579845428467,
      "learning_rate": 0.00024927070847618533,
      "loss": 3.7949,
      "step": 130960
    },
    {
      "epoch": 0.2728541666666667,
      "grad_norm": 0.7699454426765442,
      "learning_rate": 0.0002492633175375404,
      "loss": 3.864,
      "step": 130970
    },
    {
      "epoch": 0.272875,
      "grad_norm": 0.7002202272415161,
      "learning_rate": 0.00024925592617011736,
      "loss": 3.892,
      "step": 130980
    },
    {
      "epoch": 0.27289583333333334,
      "grad_norm": 0.8596770763397217,
      "learning_rate": 0.00024924853437394796,
      "loss": 3.7425,
      "step": 130990
    },
    {
      "epoch": 0.27291666666666664,
      "grad_norm": 0.7711491584777832,
      "learning_rate": 0.0002492411421490642,
      "loss": 3.9976,
      "step": 131000
    },
    {
      "epoch": 0.27291666666666664,
      "eval_loss": 4.238465309143066,
      "eval_runtime": 9.5842,
      "eval_samples_per_second": 1.043,
      "eval_steps_per_second": 0.313,
      "step": 131000
    },
    {
      "epoch": 0.2729375,
      "grad_norm": 0.7943410277366638,
      "learning_rate": 0.000249233749495498,
      "loss": 3.985,
      "step": 131010
    },
    {
      "epoch": 0.27295833333333336,
      "grad_norm": 0.7261936664581299,
      "learning_rate": 0.00024922635641328123,
      "loss": 3.9584,
      "step": 131020
    },
    {
      "epoch": 0.27297916666666666,
      "grad_norm": 0.8298512697219849,
      "learning_rate": 0.00024921896290244587,
      "loss": 3.7349,
      "step": 131030
    },
    {
      "epoch": 0.273,
      "grad_norm": 0.7906572818756104,
      "learning_rate": 0.00024921156896302393,
      "loss": 3.8074,
      "step": 131040
    },
    {
      "epoch": 0.2730208333333333,
      "grad_norm": 0.8672063946723938,
      "learning_rate": 0.00024920417459504724,
      "loss": 4.1323,
      "step": 131050
    },
    {
      "epoch": 0.2730416666666667,
      "grad_norm": 0.7475841641426086,
      "learning_rate": 0.00024919677979854776,
      "loss": 4.1309,
      "step": 131060
    },
    {
      "epoch": 0.2730625,
      "grad_norm": 0.7507525682449341,
      "learning_rate": 0.0002491893845735575,
      "loss": 3.8963,
      "step": 131070
    },
    {
      "epoch": 0.27308333333333334,
      "grad_norm": 0.7184134125709534,
      "learning_rate": 0.0002491819889201083,
      "loss": 3.8006,
      "step": 131080
    },
    {
      "epoch": 0.27310416666666665,
      "grad_norm": 0.7936300039291382,
      "learning_rate": 0.00024917459283823224,
      "loss": 3.8771,
      "step": 131090
    },
    {
      "epoch": 0.273125,
      "grad_norm": 0.7526496052742004,
      "learning_rate": 0.00024916719632796117,
      "loss": 3.8875,
      "step": 131100
    },
    {
      "epoch": 0.2731458333333333,
      "grad_norm": 0.7541085481643677,
      "learning_rate": 0.000249159799389327,
      "loss": 3.9494,
      "step": 131110
    },
    {
      "epoch": 0.27316666666666667,
      "grad_norm": 0.7668295502662659,
      "learning_rate": 0.00024915240202236184,
      "loss": 3.7908,
      "step": 131120
    },
    {
      "epoch": 0.2731875,
      "grad_norm": 0.8821980357170105,
      "learning_rate": 0.00024914500422709755,
      "loss": 3.9442,
      "step": 131130
    },
    {
      "epoch": 0.27320833333333333,
      "grad_norm": 0.8007627725601196,
      "learning_rate": 0.00024913760600356604,
      "loss": 3.8897,
      "step": 131140
    },
    {
      "epoch": 0.2732291666666667,
      "grad_norm": 0.7948816418647766,
      "learning_rate": 0.0002491302073517993,
      "loss": 3.7995,
      "step": 131150
    },
    {
      "epoch": 0.27325,
      "grad_norm": 0.7989332675933838,
      "learning_rate": 0.00024912280827182935,
      "loss": 3.8426,
      "step": 131160
    },
    {
      "epoch": 0.27327083333333335,
      "grad_norm": 0.9500207304954529,
      "learning_rate": 0.00024911540876368805,
      "loss": 3.8433,
      "step": 131170
    },
    {
      "epoch": 0.27329166666666665,
      "grad_norm": 0.9541624784469604,
      "learning_rate": 0.0002491080088274075,
      "loss": 4.0307,
      "step": 131180
    },
    {
      "epoch": 0.2733125,
      "grad_norm": 0.7237255573272705,
      "learning_rate": 0.0002491006084630195,
      "loss": 3.8834,
      "step": 131190
    },
    {
      "epoch": 0.2733333333333333,
      "grad_norm": 0.7212924957275391,
      "learning_rate": 0.00024909320767055613,
      "loss": 3.8983,
      "step": 131200
    },
    {
      "epoch": 0.2733541666666667,
      "grad_norm": 0.8107172250747681,
      "learning_rate": 0.00024908580645004934,
      "loss": 3.8746,
      "step": 131210
    },
    {
      "epoch": 0.273375,
      "grad_norm": 0.7708059549331665,
      "learning_rate": 0.00024907840480153107,
      "loss": 3.7908,
      "step": 131220
    },
    {
      "epoch": 0.27339583333333334,
      "grad_norm": 0.8012281656265259,
      "learning_rate": 0.0002490710027250333,
      "loss": 3.801,
      "step": 131230
    },
    {
      "epoch": 0.27341666666666664,
      "grad_norm": 0.7835131287574768,
      "learning_rate": 0.000249063600220588,
      "loss": 3.8694,
      "step": 131240
    },
    {
      "epoch": 0.2734375,
      "grad_norm": 0.8683320879936218,
      "learning_rate": 0.0002490561972882272,
      "loss": 3.8764,
      "step": 131250
    },
    {
      "epoch": 0.27345833333333336,
      "grad_norm": 0.7989161610603333,
      "learning_rate": 0.0002490487939279828,
      "loss": 3.7495,
      "step": 131260
    },
    {
      "epoch": 0.27347916666666666,
      "grad_norm": 0.6568140983581543,
      "learning_rate": 0.00024904139013988684,
      "loss": 3.9056,
      "step": 131270
    },
    {
      "epoch": 0.2735,
      "grad_norm": 0.8353139758110046,
      "learning_rate": 0.0002490339859239713,
      "loss": 3.927,
      "step": 131280
    },
    {
      "epoch": 0.2735208333333333,
      "grad_norm": 0.6929188370704651,
      "learning_rate": 0.0002490265812802681,
      "loss": 3.6784,
      "step": 131290
    },
    {
      "epoch": 0.2735416666666667,
      "grad_norm": 0.8134717345237732,
      "learning_rate": 0.0002490191762088093,
      "loss": 3.8699,
      "step": 131300
    },
    {
      "epoch": 0.2735625,
      "grad_norm": 0.6827917695045471,
      "learning_rate": 0.0002490117707096268,
      "loss": 3.7402,
      "step": 131310
    },
    {
      "epoch": 0.27358333333333335,
      "grad_norm": 0.781606137752533,
      "learning_rate": 0.0002490043647827527,
      "loss": 3.9465,
      "step": 131320
    },
    {
      "epoch": 0.27360416666666665,
      "grad_norm": 0.7056894302368164,
      "learning_rate": 0.0002489969584282189,
      "loss": 3.746,
      "step": 131330
    },
    {
      "epoch": 0.273625,
      "grad_norm": 0.7433968782424927,
      "learning_rate": 0.00024898955164605747,
      "loss": 3.7829,
      "step": 131340
    },
    {
      "epoch": 0.2736458333333333,
      "grad_norm": 0.6648139357566833,
      "learning_rate": 0.00024898214443630035,
      "loss": 3.8248,
      "step": 131350
    },
    {
      "epoch": 0.27366666666666667,
      "grad_norm": 0.7276646494865417,
      "learning_rate": 0.00024897473679897947,
      "loss": 3.8305,
      "step": 131360
    },
    {
      "epoch": 0.2736875,
      "grad_norm": 0.8524265885353088,
      "learning_rate": 0.00024896732873412695,
      "loss": 3.7802,
      "step": 131370
    },
    {
      "epoch": 0.27370833333333333,
      "grad_norm": 0.814370334148407,
      "learning_rate": 0.0002489599202417748,
      "loss": 3.8967,
      "step": 131380
    },
    {
      "epoch": 0.2737291666666667,
      "grad_norm": 0.7973758578300476,
      "learning_rate": 0.00024895251132195487,
      "loss": 3.8781,
      "step": 131390
    },
    {
      "epoch": 0.27375,
      "grad_norm": 0.7476921081542969,
      "learning_rate": 0.00024894510197469934,
      "loss": 3.9836,
      "step": 131400
    },
    {
      "epoch": 0.27377083333333335,
      "grad_norm": 1.0910406112670898,
      "learning_rate": 0.0002489376922000401,
      "loss": 3.8768,
      "step": 131410
    },
    {
      "epoch": 0.27379166666666666,
      "grad_norm": 0.9367678165435791,
      "learning_rate": 0.00024893028199800916,
      "loss": 4.0154,
      "step": 131420
    },
    {
      "epoch": 0.2738125,
      "grad_norm": 0.9517076015472412,
      "learning_rate": 0.0002489228713686386,
      "loss": 3.8436,
      "step": 131430
    },
    {
      "epoch": 0.2738333333333333,
      "grad_norm": 0.7685136795043945,
      "learning_rate": 0.00024891546031196037,
      "loss": 4.0044,
      "step": 131440
    },
    {
      "epoch": 0.2738541666666667,
      "grad_norm": 0.9804486036300659,
      "learning_rate": 0.0002489080488280065,
      "loss": 4.02,
      "step": 131450
    },
    {
      "epoch": 0.273875,
      "grad_norm": 0.7433421015739441,
      "learning_rate": 0.0002489006369168091,
      "loss": 3.8931,
      "step": 131460
    },
    {
      "epoch": 0.27389583333333334,
      "grad_norm": 0.7500547766685486,
      "learning_rate": 0.00024889322457839996,
      "loss": 3.9733,
      "step": 131470
    },
    {
      "epoch": 0.27391666666666664,
      "grad_norm": 0.7404794692993164,
      "learning_rate": 0.0002488858118128113,
      "loss": 3.8092,
      "step": 131480
    },
    {
      "epoch": 0.2739375,
      "grad_norm": 0.6680045127868652,
      "learning_rate": 0.00024887839862007506,
      "loss": 3.8151,
      "step": 131490
    },
    {
      "epoch": 0.27395833333333336,
      "grad_norm": 0.8206721544265747,
      "learning_rate": 0.0002488709850002233,
      "loss": 3.9919,
      "step": 131500
    },
    {
      "epoch": 0.27397916666666666,
      "grad_norm": 0.7967436909675598,
      "learning_rate": 0.000248863570953288,
      "loss": 3.8833,
      "step": 131510
    },
    {
      "epoch": 0.274,
      "grad_norm": 0.7770370841026306,
      "learning_rate": 0.0002488561564793013,
      "loss": 3.8898,
      "step": 131520
    },
    {
      "epoch": 0.2740208333333333,
      "grad_norm": 0.7049452662467957,
      "learning_rate": 0.000248848741578295,
      "loss": 3.756,
      "step": 131530
    },
    {
      "epoch": 0.2740416666666667,
      "grad_norm": 0.7792090773582458,
      "learning_rate": 0.0002488413262503013,
      "loss": 3.7116,
      "step": 131540
    },
    {
      "epoch": 0.2740625,
      "grad_norm": 0.831977128982544,
      "learning_rate": 0.00024883391049535224,
      "loss": 3.8954,
      "step": 131550
    },
    {
      "epoch": 0.27408333333333335,
      "grad_norm": 0.7460651993751526,
      "learning_rate": 0.00024882649431347975,
      "loss": 3.723,
      "step": 131560
    },
    {
      "epoch": 0.27410416666666665,
      "grad_norm": 0.8034542798995972,
      "learning_rate": 0.00024881907770471593,
      "loss": 3.8052,
      "step": 131570
    },
    {
      "epoch": 0.274125,
      "grad_norm": 0.7644019722938538,
      "learning_rate": 0.0002488116606690929,
      "loss": 3.8347,
      "step": 131580
    },
    {
      "epoch": 0.2741458333333333,
      "grad_norm": 0.8729187250137329,
      "learning_rate": 0.0002488042432066425,
      "loss": 4.0356,
      "step": 131590
    },
    {
      "epoch": 0.27416666666666667,
      "grad_norm": 0.6827532649040222,
      "learning_rate": 0.00024879682531739697,
      "loss": 3.8586,
      "step": 131600
    },
    {
      "epoch": 0.2741875,
      "grad_norm": 0.8284727931022644,
      "learning_rate": 0.0002487894070013881,
      "loss": 3.8812,
      "step": 131610
    },
    {
      "epoch": 0.27420833333333333,
      "grad_norm": 1.0079505443572998,
      "learning_rate": 0.00024878198825864826,
      "loss": 3.8455,
      "step": 131620
    },
    {
      "epoch": 0.2742291666666667,
      "grad_norm": 0.7063518166542053,
      "learning_rate": 0.0002487745690892093,
      "loss": 3.9021,
      "step": 131630
    },
    {
      "epoch": 0.27425,
      "grad_norm": 0.7311769127845764,
      "learning_rate": 0.0002487671494931032,
      "loss": 4.0194,
      "step": 131640
    },
    {
      "epoch": 0.27427083333333335,
      "grad_norm": 0.6930654048919678,
      "learning_rate": 0.00024875972947036224,
      "loss": 3.9967,
      "step": 131650
    },
    {
      "epoch": 0.27429166666666666,
      "grad_norm": 0.7874799370765686,
      "learning_rate": 0.0002487523090210183,
      "loss": 4.0436,
      "step": 131660
    },
    {
      "epoch": 0.2743125,
      "grad_norm": 0.8071593046188354,
      "learning_rate": 0.00024874488814510343,
      "loss": 3.8355,
      "step": 131670
    },
    {
      "epoch": 0.2743333333333333,
      "grad_norm": 0.9061864614486694,
      "learning_rate": 0.00024873746684264973,
      "loss": 3.8188,
      "step": 131680
    },
    {
      "epoch": 0.2743541666666667,
      "grad_norm": 0.992715060710907,
      "learning_rate": 0.0002487300451136893,
      "loss": 3.842,
      "step": 131690
    },
    {
      "epoch": 0.274375,
      "grad_norm": 0.8465872406959534,
      "learning_rate": 0.00024872262295825415,
      "loss": 3.6907,
      "step": 131700
    },
    {
      "epoch": 0.27439583333333334,
      "grad_norm": 0.6628155708312988,
      "learning_rate": 0.00024871520037637635,
      "loss": 3.9531,
      "step": 131710
    },
    {
      "epoch": 0.27441666666666664,
      "grad_norm": 0.751984715461731,
      "learning_rate": 0.00024870777736808795,
      "loss": 3.869,
      "step": 131720
    },
    {
      "epoch": 0.2744375,
      "grad_norm": 0.755027711391449,
      "learning_rate": 0.000248700353933421,
      "loss": 3.9017,
      "step": 131730
    },
    {
      "epoch": 0.27445833333333336,
      "grad_norm": 0.8753833770751953,
      "learning_rate": 0.0002486929300724076,
      "loss": 3.7692,
      "step": 131740
    },
    {
      "epoch": 0.27447916666666666,
      "grad_norm": 0.7926894426345825,
      "learning_rate": 0.00024868550578507984,
      "loss": 3.9396,
      "step": 131750
    },
    {
      "epoch": 0.2745,
      "grad_norm": 0.7629275918006897,
      "learning_rate": 0.0002486780810714697,
      "loss": 3.7848,
      "step": 131760
    },
    {
      "epoch": 0.2745208333333333,
      "grad_norm": 0.7338478565216064,
      "learning_rate": 0.00024867065593160936,
      "loss": 3.9398,
      "step": 131770
    },
    {
      "epoch": 0.2745416666666667,
      "grad_norm": 0.8386098742485046,
      "learning_rate": 0.0002486632303655308,
      "loss": 3.8926,
      "step": 131780
    },
    {
      "epoch": 0.2745625,
      "grad_norm": 0.747200608253479,
      "learning_rate": 0.00024865580437326615,
      "loss": 3.7915,
      "step": 131790
    },
    {
      "epoch": 0.27458333333333335,
      "grad_norm": 0.7556522488594055,
      "learning_rate": 0.0002486483779548475,
      "loss": 4.0171,
      "step": 131800
    },
    {
      "epoch": 0.27460416666666665,
      "grad_norm": 0.7384249567985535,
      "learning_rate": 0.0002486409511103069,
      "loss": 3.8145,
      "step": 131810
    },
    {
      "epoch": 0.274625,
      "grad_norm": 0.8690667152404785,
      "learning_rate": 0.00024863352383967645,
      "loss": 3.7601,
      "step": 131820
    },
    {
      "epoch": 0.2746458333333333,
      "grad_norm": 0.8755940198898315,
      "learning_rate": 0.0002486260961429882,
      "loss": 3.9532,
      "step": 131830
    },
    {
      "epoch": 0.27466666666666667,
      "grad_norm": 0.708443820476532,
      "learning_rate": 0.0002486186680202742,
      "loss": 3.8942,
      "step": 131840
    },
    {
      "epoch": 0.2746875,
      "grad_norm": 0.7709654569625854,
      "learning_rate": 0.00024861123947156664,
      "loss": 3.749,
      "step": 131850
    },
    {
      "epoch": 0.27470833333333333,
      "grad_norm": 0.8004664182662964,
      "learning_rate": 0.0002486038104968976,
      "loss": 3.8215,
      "step": 131860
    },
    {
      "epoch": 0.2747291666666667,
      "grad_norm": 0.7713181972503662,
      "learning_rate": 0.00024859638109629907,
      "loss": 3.9215,
      "step": 131870
    },
    {
      "epoch": 0.27475,
      "grad_norm": 0.7545704245567322,
      "learning_rate": 0.0002485889512698032,
      "loss": 3.8749,
      "step": 131880
    },
    {
      "epoch": 0.27477083333333335,
      "grad_norm": 0.8240733742713928,
      "learning_rate": 0.00024858152101744213,
      "loss": 3.8591,
      "step": 131890
    },
    {
      "epoch": 0.27479166666666666,
      "grad_norm": 0.9776490926742554,
      "learning_rate": 0.00024857409033924785,
      "loss": 3.8829,
      "step": 131900
    },
    {
      "epoch": 0.2748125,
      "grad_norm": 0.7588877081871033,
      "learning_rate": 0.0002485666592352526,
      "loss": 3.8043,
      "step": 131910
    },
    {
      "epoch": 0.2748333333333333,
      "grad_norm": 0.811967670917511,
      "learning_rate": 0.0002485592277054883,
      "loss": 3.7762,
      "step": 131920
    },
    {
      "epoch": 0.2748541666666667,
      "grad_norm": 0.7495052218437195,
      "learning_rate": 0.00024855179574998724,
      "loss": 3.9822,
      "step": 131930
    },
    {
      "epoch": 0.274875,
      "grad_norm": 0.7685454487800598,
      "learning_rate": 0.00024854436336878136,
      "loss": 3.7447,
      "step": 131940
    },
    {
      "epoch": 0.27489583333333334,
      "grad_norm": 0.7957541942596436,
      "learning_rate": 0.00024853693056190286,
      "loss": 3.8368,
      "step": 131950
    },
    {
      "epoch": 0.27491666666666664,
      "grad_norm": 0.7934526205062866,
      "learning_rate": 0.00024852949732938383,
      "loss": 3.8737,
      "step": 131960
    },
    {
      "epoch": 0.2749375,
      "grad_norm": 0.8000742793083191,
      "learning_rate": 0.0002485220636712564,
      "loss": 3.833,
      "step": 131970
    },
    {
      "epoch": 0.27495833333333336,
      "grad_norm": 0.8021329045295715,
      "learning_rate": 0.0002485146295875526,
      "loss": 3.9621,
      "step": 131980
    },
    {
      "epoch": 0.27497916666666666,
      "grad_norm": 0.8421688079833984,
      "learning_rate": 0.0002485071950783046,
      "loss": 3.9745,
      "step": 131990
    },
    {
      "epoch": 0.275,
      "grad_norm": 0.7023497819900513,
      "learning_rate": 0.0002484997601435446,
      "loss": 3.8491,
      "step": 132000
    },
    {
      "epoch": 0.275,
      "eval_loss": 4.228785514831543,
      "eval_runtime": 11.7873,
      "eval_samples_per_second": 0.848,
      "eval_steps_per_second": 0.255,
      "step": 132000
    },
    {
      "epoch": 0.2750208333333333,
      "grad_norm": 0.818314254283905,
      "learning_rate": 0.00024849232478330453,
      "loss": 4.0187,
      "step": 132010
    },
    {
      "epoch": 0.2750416666666667,
      "grad_norm": 0.7777115106582642,
      "learning_rate": 0.0002484848889976166,
      "loss": 3.8206,
      "step": 132020
    },
    {
      "epoch": 0.2750625,
      "grad_norm": 0.7736820578575134,
      "learning_rate": 0.00024847745278651297,
      "loss": 3.9592,
      "step": 132030
    },
    {
      "epoch": 0.27508333333333335,
      "grad_norm": 0.7987531423568726,
      "learning_rate": 0.0002484700161500257,
      "loss": 3.8397,
      "step": 132040
    },
    {
      "epoch": 0.27510416666666665,
      "grad_norm": 0.7076058983802795,
      "learning_rate": 0.00024846257908818693,
      "loss": 3.7675,
      "step": 132050
    },
    {
      "epoch": 0.275125,
      "grad_norm": 0.7931665778160095,
      "learning_rate": 0.00024845514160102883,
      "loss": 3.8541,
      "step": 132060
    },
    {
      "epoch": 0.2751458333333333,
      "grad_norm": 0.9540156126022339,
      "learning_rate": 0.0002484477036885835,
      "loss": 3.8879,
      "step": 132070
    },
    {
      "epoch": 0.27516666666666667,
      "grad_norm": 0.7674939632415771,
      "learning_rate": 0.000248440265350883,
      "loss": 3.7889,
      "step": 132080
    },
    {
      "epoch": 0.2751875,
      "grad_norm": 0.7713223099708557,
      "learning_rate": 0.0002484328265879596,
      "loss": 3.9482,
      "step": 132090
    },
    {
      "epoch": 0.27520833333333333,
      "grad_norm": 0.8474957942962646,
      "learning_rate": 0.00024842538739984526,
      "loss": 3.8396,
      "step": 132100
    },
    {
      "epoch": 0.2752291666666667,
      "grad_norm": 0.7333613634109497,
      "learning_rate": 0.0002484179477865723,
      "loss": 3.774,
      "step": 132110
    },
    {
      "epoch": 0.27525,
      "grad_norm": 0.6742559671401978,
      "learning_rate": 0.0002484105077481726,
      "loss": 3.8479,
      "step": 132120
    },
    {
      "epoch": 0.27527083333333335,
      "grad_norm": 0.8889409303665161,
      "learning_rate": 0.0002484030672846786,
      "loss": 3.9081,
      "step": 132130
    },
    {
      "epoch": 0.27529166666666666,
      "grad_norm": 0.9120559692382812,
      "learning_rate": 0.00024839562639612225,
      "loss": 4.0549,
      "step": 132140
    },
    {
      "epoch": 0.2753125,
      "grad_norm": 0.8340050578117371,
      "learning_rate": 0.0002483881850825358,
      "loss": 3.7915,
      "step": 132150
    },
    {
      "epoch": 0.2753333333333333,
      "grad_norm": 0.8511613011360168,
      "learning_rate": 0.0002483807433439513,
      "loss": 3.8434,
      "step": 132160
    },
    {
      "epoch": 0.2753541666666667,
      "grad_norm": 0.6616591811180115,
      "learning_rate": 0.00024837330118040096,
      "loss": 3.8474,
      "step": 132170
    },
    {
      "epoch": 0.275375,
      "grad_norm": 0.7921062111854553,
      "learning_rate": 0.0002483658585919168,
      "loss": 3.7757,
      "step": 132180
    },
    {
      "epoch": 0.27539583333333334,
      "grad_norm": 0.8457216024398804,
      "learning_rate": 0.0002483584155785312,
      "loss": 3.7856,
      "step": 132190
    },
    {
      "epoch": 0.27541666666666664,
      "grad_norm": 0.8420231938362122,
      "learning_rate": 0.0002483509721402761,
      "loss": 4.0648,
      "step": 132200
    },
    {
      "epoch": 0.2754375,
      "grad_norm": 0.8327915072441101,
      "learning_rate": 0.0002483435282771837,
      "loss": 3.8902,
      "step": 132210
    },
    {
      "epoch": 0.27545833333333336,
      "grad_norm": 0.8209681510925293,
      "learning_rate": 0.0002483360839892862,
      "loss": 3.8527,
      "step": 132220
    },
    {
      "epoch": 0.27547916666666666,
      "grad_norm": 0.7489469051361084,
      "learning_rate": 0.0002483286392766158,
      "loss": 3.8641,
      "step": 132230
    },
    {
      "epoch": 0.2755,
      "grad_norm": 1.1025922298431396,
      "learning_rate": 0.0002483211941392046,
      "loss": 3.8152,
      "step": 132240
    },
    {
      "epoch": 0.2755208333333333,
      "grad_norm": 0.8202779293060303,
      "learning_rate": 0.00024831374857708466,
      "loss": 3.9247,
      "step": 132250
    },
    {
      "epoch": 0.2755416666666667,
      "grad_norm": 0.8676977157592773,
      "learning_rate": 0.00024830630259028833,
      "loss": 3.6532,
      "step": 132260
    },
    {
      "epoch": 0.2755625,
      "grad_norm": 0.7282645106315613,
      "learning_rate": 0.0002482988561788477,
      "loss": 3.7064,
      "step": 132270
    },
    {
      "epoch": 0.27558333333333335,
      "grad_norm": 0.7673658132553101,
      "learning_rate": 0.0002482914093427949,
      "loss": 3.8406,
      "step": 132280
    },
    {
      "epoch": 0.27560416666666665,
      "grad_norm": 0.7714381217956543,
      "learning_rate": 0.00024828396208216206,
      "loss": 3.8199,
      "step": 132290
    },
    {
      "epoch": 0.275625,
      "grad_norm": 0.8134085536003113,
      "learning_rate": 0.0002482765143969814,
      "loss": 3.9239,
      "step": 132300
    },
    {
      "epoch": 0.2756458333333333,
      "grad_norm": 1.00165593624115,
      "learning_rate": 0.0002482690662872852,
      "loss": 3.9252,
      "step": 132310
    },
    {
      "epoch": 0.27566666666666667,
      "grad_norm": 0.708886444568634,
      "learning_rate": 0.00024826161775310545,
      "loss": 3.9247,
      "step": 132320
    },
    {
      "epoch": 0.2756875,
      "grad_norm": 0.7838647365570068,
      "learning_rate": 0.00024825416879447444,
      "loss": 3.9201,
      "step": 132330
    },
    {
      "epoch": 0.27570833333333333,
      "grad_norm": 0.7375988364219666,
      "learning_rate": 0.00024824671941142435,
      "loss": 3.8056,
      "step": 132340
    },
    {
      "epoch": 0.2757291666666667,
      "grad_norm": 0.7350267767906189,
      "learning_rate": 0.0002482392696039872,
      "loss": 3.8606,
      "step": 132350
    },
    {
      "epoch": 0.27575,
      "grad_norm": 0.8643086552619934,
      "learning_rate": 0.00024823181937219543,
      "loss": 3.8379,
      "step": 132360
    },
    {
      "epoch": 0.27577083333333335,
      "grad_norm": 0.7261732220649719,
      "learning_rate": 0.00024822436871608096,
      "loss": 3.9889,
      "step": 132370
    },
    {
      "epoch": 0.27579166666666666,
      "grad_norm": 0.7038525342941284,
      "learning_rate": 0.00024821691763567615,
      "loss": 3.827,
      "step": 132380
    },
    {
      "epoch": 0.2758125,
      "grad_norm": 0.8366166353225708,
      "learning_rate": 0.0002482094661310132,
      "loss": 3.9276,
      "step": 132390
    },
    {
      "epoch": 0.2758333333333333,
      "grad_norm": 0.7943180203437805,
      "learning_rate": 0.00024820201420212417,
      "loss": 4.0798,
      "step": 132400
    },
    {
      "epoch": 0.2758541666666667,
      "grad_norm": 0.893337607383728,
      "learning_rate": 0.0002481945618490413,
      "loss": 3.848,
      "step": 132410
    },
    {
      "epoch": 0.275875,
      "grad_norm": 0.6668698787689209,
      "learning_rate": 0.0002481871090717968,
      "loss": 4.0673,
      "step": 132420
    },
    {
      "epoch": 0.27589583333333334,
      "grad_norm": 0.7354764342308044,
      "learning_rate": 0.00024817965587042287,
      "loss": 3.7743,
      "step": 132430
    },
    {
      "epoch": 0.27591666666666664,
      "grad_norm": 0.7442167401313782,
      "learning_rate": 0.00024817220224495164,
      "loss": 4.0097,
      "step": 132440
    },
    {
      "epoch": 0.2759375,
      "grad_norm": 0.7765097618103027,
      "learning_rate": 0.0002481647481954154,
      "loss": 3.8348,
      "step": 132450
    },
    {
      "epoch": 0.27595833333333336,
      "grad_norm": 0.8253605365753174,
      "learning_rate": 0.0002481572937218463,
      "loss": 3.9865,
      "step": 132460
    },
    {
      "epoch": 0.27597916666666666,
      "grad_norm": 0.7655351758003235,
      "learning_rate": 0.00024814983882427656,
      "loss": 3.7115,
      "step": 132470
    },
    {
      "epoch": 0.276,
      "grad_norm": 0.8694248199462891,
      "learning_rate": 0.0002481423835027383,
      "loss": 3.8771,
      "step": 132480
    },
    {
      "epoch": 0.2760208333333333,
      "grad_norm": 0.7214587926864624,
      "learning_rate": 0.00024813492775726387,
      "loss": 4.0159,
      "step": 132490
    },
    {
      "epoch": 0.2760416666666667,
      "grad_norm": 0.6849027276039124,
      "learning_rate": 0.00024812747158788534,
      "loss": 3.9402,
      "step": 132500
    },
    {
      "epoch": 0.2760625,
      "grad_norm": 0.9742064476013184,
      "learning_rate": 0.00024812001499463504,
      "loss": 3.9385,
      "step": 132510
    },
    {
      "epoch": 0.27608333333333335,
      "grad_norm": 0.7620593905448914,
      "learning_rate": 0.00024811255797754507,
      "loss": 3.9117,
      "step": 132520
    },
    {
      "epoch": 0.27610416666666665,
      "grad_norm": 0.6532821655273438,
      "learning_rate": 0.0002481051005366477,
      "loss": 3.7567,
      "step": 132530
    },
    {
      "epoch": 0.276125,
      "grad_norm": 0.7553690671920776,
      "learning_rate": 0.00024809764267197507,
      "loss": 3.9885,
      "step": 132540
    },
    {
      "epoch": 0.2761458333333333,
      "grad_norm": 0.6603255271911621,
      "learning_rate": 0.0002480901843835595,
      "loss": 4.0197,
      "step": 132550
    },
    {
      "epoch": 0.27616666666666667,
      "grad_norm": 0.7505941987037659,
      "learning_rate": 0.00024808272567143316,
      "loss": 3.9963,
      "step": 132560
    },
    {
      "epoch": 0.2761875,
      "grad_norm": 0.7253624796867371,
      "learning_rate": 0.00024807526653562826,
      "loss": 3.8186,
      "step": 132570
    },
    {
      "epoch": 0.27620833333333333,
      "grad_norm": 0.8358970284461975,
      "learning_rate": 0.00024806780697617705,
      "loss": 4.0383,
      "step": 132580
    },
    {
      "epoch": 0.2762291666666667,
      "grad_norm": 0.7340117692947388,
      "learning_rate": 0.0002480603469931117,
      "loss": 3.962,
      "step": 132590
    },
    {
      "epoch": 0.27625,
      "grad_norm": 0.8033686876296997,
      "learning_rate": 0.00024805288658646447,
      "loss": 3.8218,
      "step": 132600
    },
    {
      "epoch": 0.27627083333333335,
      "grad_norm": 0.8613489270210266,
      "learning_rate": 0.0002480454257562676,
      "loss": 3.8457,
      "step": 132610
    },
    {
      "epoch": 0.27629166666666666,
      "grad_norm": 0.6587225198745728,
      "learning_rate": 0.0002480379645025533,
      "loss": 4.0642,
      "step": 132620
    },
    {
      "epoch": 0.2763125,
      "grad_norm": 0.7050032615661621,
      "learning_rate": 0.0002480305028253538,
      "loss": 3.8735,
      "step": 132630
    },
    {
      "epoch": 0.2763333333333333,
      "grad_norm": 0.6842761039733887,
      "learning_rate": 0.00024802304072470133,
      "loss": 3.8822,
      "step": 132640
    },
    {
      "epoch": 0.2763541666666667,
      "grad_norm": 0.8454779386520386,
      "learning_rate": 0.00024801557820062814,
      "loss": 4.1429,
      "step": 132650
    },
    {
      "epoch": 0.276375,
      "grad_norm": 0.8384038209915161,
      "learning_rate": 0.0002480081152531664,
      "loss": 3.8334,
      "step": 132660
    },
    {
      "epoch": 0.27639583333333334,
      "grad_norm": 0.8759654760360718,
      "learning_rate": 0.00024800065188234846,
      "loss": 3.9729,
      "step": 132670
    },
    {
      "epoch": 0.27641666666666664,
      "grad_norm": 0.7663112878799438,
      "learning_rate": 0.0002479931880882064,
      "loss": 3.7978,
      "step": 132680
    },
    {
      "epoch": 0.2764375,
      "grad_norm": 0.7747230529785156,
      "learning_rate": 0.00024798572387077267,
      "loss": 3.9641,
      "step": 132690
    },
    {
      "epoch": 0.2764583333333333,
      "grad_norm": 0.7453240752220154,
      "learning_rate": 0.0002479782592300794,
      "loss": 3.93,
      "step": 132700
    },
    {
      "epoch": 0.27647916666666666,
      "grad_norm": 0.8061407208442688,
      "learning_rate": 0.0002479707941661587,
      "loss": 3.9323,
      "step": 132710
    },
    {
      "epoch": 0.2765,
      "grad_norm": 0.7482733726501465,
      "learning_rate": 0.00024796332867904305,
      "loss": 3.9319,
      "step": 132720
    },
    {
      "epoch": 0.2765208333333333,
      "grad_norm": 0.8119469285011292,
      "learning_rate": 0.0002479558627687646,
      "loss": 3.8668,
      "step": 132730
    },
    {
      "epoch": 0.2765416666666667,
      "grad_norm": 0.7966367602348328,
      "learning_rate": 0.0002479483964353555,
      "loss": 4.0551,
      "step": 132740
    },
    {
      "epoch": 0.2765625,
      "grad_norm": 0.7177198529243469,
      "learning_rate": 0.00024794092967884816,
      "loss": 3.9185,
      "step": 132750
    },
    {
      "epoch": 0.27658333333333335,
      "grad_norm": 0.8023561835289001,
      "learning_rate": 0.0002479334624992748,
      "loss": 3.9533,
      "step": 132760
    },
    {
      "epoch": 0.27660416666666665,
      "grad_norm": 0.7962167859077454,
      "learning_rate": 0.0002479259948966677,
      "loss": 3.9769,
      "step": 132770
    },
    {
      "epoch": 0.276625,
      "grad_norm": 0.7198845744132996,
      "learning_rate": 0.00024791852687105895,
      "loss": 3.8765,
      "step": 132780
    },
    {
      "epoch": 0.2766458333333333,
      "grad_norm": 0.7700552344322205,
      "learning_rate": 0.00024791105842248096,
      "loss": 3.9403,
      "step": 132790
    },
    {
      "epoch": 0.27666666666666667,
      "grad_norm": 0.7716922163963318,
      "learning_rate": 0.00024790358955096594,
      "loss": 3.6963,
      "step": 132800
    },
    {
      "epoch": 0.2766875,
      "grad_norm": 0.8241925835609436,
      "learning_rate": 0.0002478961202565462,
      "loss": 3.7876,
      "step": 132810
    },
    {
      "epoch": 0.27670833333333333,
      "grad_norm": 0.7270147204399109,
      "learning_rate": 0.00024788865053925396,
      "loss": 3.9579,
      "step": 132820
    },
    {
      "epoch": 0.2767291666666667,
      "grad_norm": 0.7996960282325745,
      "learning_rate": 0.00024788118039912146,
      "loss": 4.0749,
      "step": 132830
    },
    {
      "epoch": 0.27675,
      "grad_norm": 0.8000491857528687,
      "learning_rate": 0.00024787370983618106,
      "loss": 3.814,
      "step": 132840
    },
    {
      "epoch": 0.27677083333333335,
      "grad_norm": 0.7110986113548279,
      "learning_rate": 0.0002478662388504649,
      "loss": 3.9137,
      "step": 132850
    },
    {
      "epoch": 0.27679166666666666,
      "grad_norm": 0.7205012440681458,
      "learning_rate": 0.0002478587674420054,
      "loss": 3.8264,
      "step": 132860
    },
    {
      "epoch": 0.2768125,
      "grad_norm": 0.6954079270362854,
      "learning_rate": 0.00024785129561083474,
      "loss": 3.8256,
      "step": 132870
    },
    {
      "epoch": 0.2768333333333333,
      "grad_norm": 0.7799181938171387,
      "learning_rate": 0.0002478438233569852,
      "loss": 3.8835,
      "step": 132880
    },
    {
      "epoch": 0.2768541666666667,
      "grad_norm": 0.8152369260787964,
      "learning_rate": 0.00024783635068048907,
      "loss": 3.8429,
      "step": 132890
    },
    {
      "epoch": 0.276875,
      "grad_norm": 0.6911367774009705,
      "learning_rate": 0.0002478288775813787,
      "loss": 3.8786,
      "step": 132900
    },
    {
      "epoch": 0.27689583333333334,
      "grad_norm": 0.8147971630096436,
      "learning_rate": 0.0002478214040596862,
      "loss": 3.9934,
      "step": 132910
    },
    {
      "epoch": 0.27691666666666664,
      "grad_norm": 0.8403414487838745,
      "learning_rate": 0.000247813930115444,
      "loss": 4.0516,
      "step": 132920
    },
    {
      "epoch": 0.2769375,
      "grad_norm": 0.8567450046539307,
      "learning_rate": 0.0002478064557486844,
      "loss": 3.7637,
      "step": 132930
    },
    {
      "epoch": 0.2769583333333333,
      "grad_norm": 0.7273354530334473,
      "learning_rate": 0.0002477989809594395,
      "loss": 3.8275,
      "step": 132940
    },
    {
      "epoch": 0.27697916666666667,
      "grad_norm": 0.7942883968353271,
      "learning_rate": 0.00024779150574774184,
      "loss": 4.0662,
      "step": 132950
    },
    {
      "epoch": 0.277,
      "grad_norm": 0.7408545017242432,
      "learning_rate": 0.0002477840301136235,
      "loss": 4.0655,
      "step": 132960
    },
    {
      "epoch": 0.2770208333333333,
      "grad_norm": 0.7178606986999512,
      "learning_rate": 0.00024777655405711687,
      "loss": 4.0082,
      "step": 132970
    },
    {
      "epoch": 0.2770416666666667,
      "grad_norm": 0.8014410138130188,
      "learning_rate": 0.00024776907757825426,
      "loss": 3.8897,
      "step": 132980
    },
    {
      "epoch": 0.2770625,
      "grad_norm": 0.6989971399307251,
      "learning_rate": 0.0002477616006770679,
      "loss": 3.9006,
      "step": 132990
    },
    {
      "epoch": 0.27708333333333335,
      "grad_norm": 0.6430938243865967,
      "learning_rate": 0.00024775412335359013,
      "loss": 3.7929,
      "step": 133000
    },
    {
      "epoch": 0.27708333333333335,
      "eval_loss": 4.25203800201416,
      "eval_runtime": 11.3325,
      "eval_samples_per_second": 0.882,
      "eval_steps_per_second": 0.265,
      "step": 133000
    },
    {
      "epoch": 0.27710416666666665,
      "grad_norm": 0.698390781879425,
      "learning_rate": 0.0002477466456078532,
      "loss": 3.8963,
      "step": 133010
    },
    {
      "epoch": 0.277125,
      "grad_norm": 0.8117298483848572,
      "learning_rate": 0.00024773916743988956,
      "loss": 3.9922,
      "step": 133020
    },
    {
      "epoch": 0.2771458333333333,
      "grad_norm": 0.7057883143424988,
      "learning_rate": 0.00024773168884973133,
      "loss": 3.9356,
      "step": 133030
    },
    {
      "epoch": 0.2771666666666667,
      "grad_norm": 0.7092406749725342,
      "learning_rate": 0.0002477242098374109,
      "loss": 3.894,
      "step": 133040
    },
    {
      "epoch": 0.2771875,
      "grad_norm": 0.7766349911689758,
      "learning_rate": 0.00024771673040296054,
      "loss": 3.8215,
      "step": 133050
    },
    {
      "epoch": 0.27720833333333333,
      "grad_norm": 0.754065752029419,
      "learning_rate": 0.0002477092505464126,
      "loss": 3.9204,
      "step": 133060
    },
    {
      "epoch": 0.2772291666666667,
      "grad_norm": 0.8501023650169373,
      "learning_rate": 0.00024770177026779943,
      "loss": 3.8653,
      "step": 133070
    },
    {
      "epoch": 0.27725,
      "grad_norm": 0.7586575150489807,
      "learning_rate": 0.0002476942895671532,
      "loss": 3.9615,
      "step": 133080
    },
    {
      "epoch": 0.27727083333333336,
      "grad_norm": 0.6712607145309448,
      "learning_rate": 0.0002476868084445064,
      "loss": 3.8531,
      "step": 133090
    },
    {
      "epoch": 0.27729166666666666,
      "grad_norm": 0.8482848405838013,
      "learning_rate": 0.00024767932689989116,
      "loss": 3.9118,
      "step": 133100
    },
    {
      "epoch": 0.2773125,
      "grad_norm": 0.6801428198814392,
      "learning_rate": 0.00024767184493333996,
      "loss": 4.0108,
      "step": 133110
    },
    {
      "epoch": 0.2773333333333333,
      "grad_norm": 0.6933743357658386,
      "learning_rate": 0.00024766436254488504,
      "loss": 3.8926,
      "step": 133120
    },
    {
      "epoch": 0.2773541666666667,
      "grad_norm": 0.7418867349624634,
      "learning_rate": 0.0002476568797345587,
      "loss": 3.9082,
      "step": 133130
    },
    {
      "epoch": 0.277375,
      "grad_norm": 0.7913655042648315,
      "learning_rate": 0.0002476493965023933,
      "loss": 3.6879,
      "step": 133140
    },
    {
      "epoch": 0.27739583333333334,
      "grad_norm": 0.7758198380470276,
      "learning_rate": 0.0002476419128484212,
      "loss": 3.7967,
      "step": 133150
    },
    {
      "epoch": 0.27741666666666664,
      "grad_norm": 0.7843701243400574,
      "learning_rate": 0.00024763442877267464,
      "loss": 3.731,
      "step": 133160
    },
    {
      "epoch": 0.2774375,
      "grad_norm": 0.854170560836792,
      "learning_rate": 0.000247626944275186,
      "loss": 3.8701,
      "step": 133170
    },
    {
      "epoch": 0.2774583333333333,
      "grad_norm": 0.7104267477989197,
      "learning_rate": 0.00024761945935598763,
      "loss": 3.9602,
      "step": 133180
    },
    {
      "epoch": 0.27747916666666667,
      "grad_norm": 0.7127953767776489,
      "learning_rate": 0.00024761197401511185,
      "loss": 3.7469,
      "step": 133190
    },
    {
      "epoch": 0.2775,
      "grad_norm": 0.9060876965522766,
      "learning_rate": 0.00024760448825259093,
      "loss": 3.8231,
      "step": 133200
    },
    {
      "epoch": 0.2775208333333333,
      "grad_norm": 0.8678663969039917,
      "learning_rate": 0.0002475970020684573,
      "loss": 3.7128,
      "step": 133210
    },
    {
      "epoch": 0.2775416666666667,
      "grad_norm": 0.7376992702484131,
      "learning_rate": 0.0002475895154627432,
      "loss": 3.8584,
      "step": 133220
    },
    {
      "epoch": 0.2775625,
      "grad_norm": 0.7553621530532837,
      "learning_rate": 0.00024758202843548106,
      "loss": 3.8356,
      "step": 133230
    },
    {
      "epoch": 0.27758333333333335,
      "grad_norm": 0.7907311916351318,
      "learning_rate": 0.00024757454098670316,
      "loss": 4.0354,
      "step": 133240
    },
    {
      "epoch": 0.27760416666666665,
      "grad_norm": 0.70696622133255,
      "learning_rate": 0.0002475670531164419,
      "loss": 3.9169,
      "step": 133250
    },
    {
      "epoch": 0.277625,
      "grad_norm": 0.7540358304977417,
      "learning_rate": 0.00024755956482472953,
      "loss": 3.8542,
      "step": 133260
    },
    {
      "epoch": 0.2776458333333333,
      "grad_norm": 1.0031418800354004,
      "learning_rate": 0.00024755207611159853,
      "loss": 3.829,
      "step": 133270
    },
    {
      "epoch": 0.2776666666666667,
      "grad_norm": 0.8153480887413025,
      "learning_rate": 0.00024754458697708113,
      "loss": 3.8229,
      "step": 133280
    },
    {
      "epoch": 0.2776875,
      "grad_norm": 0.8533832430839539,
      "learning_rate": 0.00024753709742120976,
      "loss": 3.9057,
      "step": 133290
    },
    {
      "epoch": 0.27770833333333333,
      "grad_norm": 0.7678558826446533,
      "learning_rate": 0.0002475296074440167,
      "loss": 3.9505,
      "step": 133300
    },
    {
      "epoch": 0.2777291666666667,
      "grad_norm": 0.7100315093994141,
      "learning_rate": 0.00024752211704553436,
      "loss": 3.8329,
      "step": 133310
    },
    {
      "epoch": 0.27775,
      "grad_norm": 0.7462872862815857,
      "learning_rate": 0.00024751462622579507,
      "loss": 3.8226,
      "step": 133320
    },
    {
      "epoch": 0.27777083333333336,
      "grad_norm": 0.6560298800468445,
      "learning_rate": 0.0002475071349848312,
      "loss": 3.79,
      "step": 133330
    },
    {
      "epoch": 0.27779166666666666,
      "grad_norm": 0.7685410976409912,
      "learning_rate": 0.0002474996433226751,
      "loss": 4.1247,
      "step": 133340
    },
    {
      "epoch": 0.2778125,
      "grad_norm": 0.9091788530349731,
      "learning_rate": 0.0002474921512393591,
      "loss": 3.8819,
      "step": 133350
    },
    {
      "epoch": 0.2778333333333333,
      "grad_norm": 0.7501220107078552,
      "learning_rate": 0.0002474846587349157,
      "loss": 4.0909,
      "step": 133360
    },
    {
      "epoch": 0.2778541666666667,
      "grad_norm": 0.736700713634491,
      "learning_rate": 0.00024747716580937704,
      "loss": 3.999,
      "step": 133370
    },
    {
      "epoch": 0.277875,
      "grad_norm": 0.7330749034881592,
      "learning_rate": 0.0002474696724627757,
      "loss": 3.9607,
      "step": 133380
    },
    {
      "epoch": 0.27789583333333334,
      "grad_norm": 1.129955768585205,
      "learning_rate": 0.00024746217869514386,
      "loss": 3.8476,
      "step": 133390
    },
    {
      "epoch": 0.27791666666666665,
      "grad_norm": 0.9618799686431885,
      "learning_rate": 0.00024745468450651406,
      "loss": 3.8176,
      "step": 133400
    },
    {
      "epoch": 0.2779375,
      "grad_norm": 0.7968894839286804,
      "learning_rate": 0.0002474471898969186,
      "loss": 3.9537,
      "step": 133410
    },
    {
      "epoch": 0.2779583333333333,
      "grad_norm": 0.7801215052604675,
      "learning_rate": 0.0002474396948663898,
      "loss": 3.8565,
      "step": 133420
    },
    {
      "epoch": 0.27797916666666667,
      "grad_norm": 0.8733572959899902,
      "learning_rate": 0.00024743219941496014,
      "loss": 3.7669,
      "step": 133430
    },
    {
      "epoch": 0.278,
      "grad_norm": 0.7591676115989685,
      "learning_rate": 0.00024742470354266195,
      "loss": 3.9456,
      "step": 133440
    },
    {
      "epoch": 0.27802083333333333,
      "grad_norm": 0.7562623620033264,
      "learning_rate": 0.0002474172072495275,
      "loss": 4.0068,
      "step": 133450
    },
    {
      "epoch": 0.2780416666666667,
      "grad_norm": 0.8241015672683716,
      "learning_rate": 0.0002474097105355894,
      "loss": 3.7955,
      "step": 133460
    },
    {
      "epoch": 0.2780625,
      "grad_norm": 0.8676769733428955,
      "learning_rate": 0.00024740221340087984,
      "loss": 3.7834,
      "step": 133470
    },
    {
      "epoch": 0.27808333333333335,
      "grad_norm": 0.8230909705162048,
      "learning_rate": 0.0002473947158454313,
      "loss": 3.9856,
      "step": 133480
    },
    {
      "epoch": 0.27810416666666665,
      "grad_norm": 0.753420352935791,
      "learning_rate": 0.0002473872178692761,
      "loss": 3.7815,
      "step": 133490
    },
    {
      "epoch": 0.278125,
      "grad_norm": 0.8099004030227661,
      "learning_rate": 0.0002473797194724467,
      "loss": 3.7515,
      "step": 133500
    },
    {
      "epoch": 0.2781458333333333,
      "grad_norm": 0.6993834376335144,
      "learning_rate": 0.0002473722206549755,
      "loss": 3.9677,
      "step": 133510
    },
    {
      "epoch": 0.2781666666666667,
      "grad_norm": 0.8607573509216309,
      "learning_rate": 0.0002473647214168948,
      "loss": 3.8672,
      "step": 133520
    },
    {
      "epoch": 0.2781875,
      "grad_norm": 0.7211482524871826,
      "learning_rate": 0.000247357221758237,
      "loss": 3.9377,
      "step": 133530
    },
    {
      "epoch": 0.27820833333333334,
      "grad_norm": 0.8053668141365051,
      "learning_rate": 0.0002473497216790346,
      "loss": 3.9637,
      "step": 133540
    },
    {
      "epoch": 0.2782291666666667,
      "grad_norm": 0.7525752782821655,
      "learning_rate": 0.0002473422211793199,
      "loss": 3.9231,
      "step": 133550
    },
    {
      "epoch": 0.27825,
      "grad_norm": 0.7284352779388428,
      "learning_rate": 0.00024733472025912544,
      "loss": 3.9236,
      "step": 133560
    },
    {
      "epoch": 0.27827083333333336,
      "grad_norm": 0.6524061560630798,
      "learning_rate": 0.0002473272189184834,
      "loss": 4.0124,
      "step": 133570
    },
    {
      "epoch": 0.27829166666666666,
      "grad_norm": 0.7495468854904175,
      "learning_rate": 0.00024731971715742635,
      "loss": 3.9622,
      "step": 133580
    },
    {
      "epoch": 0.2783125,
      "grad_norm": 0.9105659127235413,
      "learning_rate": 0.00024731221497598663,
      "loss": 3.7995,
      "step": 133590
    },
    {
      "epoch": 0.2783333333333333,
      "grad_norm": 0.8224932551383972,
      "learning_rate": 0.00024730471237419664,
      "loss": 3.7998,
      "step": 133600
    },
    {
      "epoch": 0.2783541666666667,
      "grad_norm": 0.6656752824783325,
      "learning_rate": 0.00024729720935208883,
      "loss": 3.96,
      "step": 133610
    },
    {
      "epoch": 0.278375,
      "grad_norm": 0.7148240804672241,
      "learning_rate": 0.00024728970590969554,
      "loss": 3.7599,
      "step": 133620
    },
    {
      "epoch": 0.27839583333333334,
      "grad_norm": 0.6949142813682556,
      "learning_rate": 0.0002472822020470493,
      "loss": 3.9496,
      "step": 133630
    },
    {
      "epoch": 0.27841666666666665,
      "grad_norm": 0.9460969567298889,
      "learning_rate": 0.00024727469776418244,
      "loss": 3.8556,
      "step": 133640
    },
    {
      "epoch": 0.2784375,
      "grad_norm": 0.7744948267936707,
      "learning_rate": 0.0002472671930611274,
      "loss": 3.9411,
      "step": 133650
    },
    {
      "epoch": 0.2784583333333333,
      "grad_norm": 0.7456602454185486,
      "learning_rate": 0.00024725968793791654,
      "loss": 4.0432,
      "step": 133660
    },
    {
      "epoch": 0.27847916666666667,
      "grad_norm": 0.7471010684967041,
      "learning_rate": 0.0002472521823945824,
      "loss": 3.7779,
      "step": 133670
    },
    {
      "epoch": 0.2785,
      "grad_norm": 0.7852413058280945,
      "learning_rate": 0.0002472446764311572,
      "loss": 3.7147,
      "step": 133680
    },
    {
      "epoch": 0.27852083333333333,
      "grad_norm": 0.7148804664611816,
      "learning_rate": 0.0002472371700476736,
      "loss": 3.8989,
      "step": 133690
    },
    {
      "epoch": 0.2785416666666667,
      "grad_norm": 0.867415726184845,
      "learning_rate": 0.00024722966324416387,
      "loss": 3.939,
      "step": 133700
    },
    {
      "epoch": 0.2785625,
      "grad_norm": 0.7479038238525391,
      "learning_rate": 0.00024722215602066054,
      "loss": 3.7793,
      "step": 133710
    },
    {
      "epoch": 0.27858333333333335,
      "grad_norm": 0.8404342532157898,
      "learning_rate": 0.0002472146483771959,
      "loss": 3.8228,
      "step": 133720
    },
    {
      "epoch": 0.27860416666666665,
      "grad_norm": 0.8289809823036194,
      "learning_rate": 0.0002472071403138025,
      "loss": 3.806,
      "step": 133730
    },
    {
      "epoch": 0.278625,
      "grad_norm": 0.7609227895736694,
      "learning_rate": 0.00024719963183051274,
      "loss": 3.9845,
      "step": 133740
    },
    {
      "epoch": 0.2786458333333333,
      "grad_norm": 0.8049852252006531,
      "learning_rate": 0.000247192122927359,
      "loss": 3.9355,
      "step": 133750
    },
    {
      "epoch": 0.2786666666666667,
      "grad_norm": 0.8076243996620178,
      "learning_rate": 0.0002471846136043738,
      "loss": 3.9156,
      "step": 133760
    },
    {
      "epoch": 0.2786875,
      "grad_norm": 0.6860559582710266,
      "learning_rate": 0.00024717710386158953,
      "loss": 3.9179,
      "step": 133770
    },
    {
      "epoch": 0.27870833333333334,
      "grad_norm": 0.7297862768173218,
      "learning_rate": 0.00024716959369903865,
      "loss": 3.6941,
      "step": 133780
    },
    {
      "epoch": 0.27872916666666664,
      "grad_norm": 0.7276851534843445,
      "learning_rate": 0.00024716208311675354,
      "loss": 3.9759,
      "step": 133790
    },
    {
      "epoch": 0.27875,
      "grad_norm": 0.9661086797714233,
      "learning_rate": 0.0002471545721147667,
      "loss": 3.8396,
      "step": 133800
    },
    {
      "epoch": 0.27877083333333336,
      "grad_norm": 0.7535386681556702,
      "learning_rate": 0.0002471470606931106,
      "loss": 3.8949,
      "step": 133810
    },
    {
      "epoch": 0.27879166666666666,
      "grad_norm": 0.6950332522392273,
      "learning_rate": 0.0002471395488518177,
      "loss": 3.8371,
      "step": 133820
    },
    {
      "epoch": 0.2788125,
      "grad_norm": 0.8685430884361267,
      "learning_rate": 0.0002471320365909203,
      "loss": 3.8148,
      "step": 133830
    },
    {
      "epoch": 0.2788333333333333,
      "grad_norm": 0.7430678009986877,
      "learning_rate": 0.000247124523910451,
      "loss": 3.8313,
      "step": 133840
    },
    {
      "epoch": 0.2788541666666667,
      "grad_norm": 0.6985995173454285,
      "learning_rate": 0.0002471170108104422,
      "loss": 3.9017,
      "step": 133850
    },
    {
      "epoch": 0.278875,
      "grad_norm": 0.7569820284843445,
      "learning_rate": 0.0002471094972909263,
      "loss": 3.8636,
      "step": 133860
    },
    {
      "epoch": 0.27889583333333334,
      "grad_norm": 0.8204565048217773,
      "learning_rate": 0.00024710198335193585,
      "loss": 3.6903,
      "step": 133870
    },
    {
      "epoch": 0.27891666666666665,
      "grad_norm": 0.7291808128356934,
      "learning_rate": 0.00024709446899350327,
      "loss": 4.0672,
      "step": 133880
    },
    {
      "epoch": 0.2789375,
      "grad_norm": 0.7143608331680298,
      "learning_rate": 0.00024708695421566106,
      "loss": 3.8784,
      "step": 133890
    },
    {
      "epoch": 0.2789583333333333,
      "grad_norm": 0.8411667943000793,
      "learning_rate": 0.00024707943901844154,
      "loss": 3.8655,
      "step": 133900
    },
    {
      "epoch": 0.27897916666666667,
      "grad_norm": 0.8257243633270264,
      "learning_rate": 0.0002470719234018774,
      "loss": 4.042,
      "step": 133910
    },
    {
      "epoch": 0.279,
      "grad_norm": 0.71912682056427,
      "learning_rate": 0.0002470644073660008,
      "loss": 3.9267,
      "step": 133920
    },
    {
      "epoch": 0.27902083333333333,
      "grad_norm": 0.8172757625579834,
      "learning_rate": 0.00024705689091084456,
      "loss": 3.8714,
      "step": 133930
    },
    {
      "epoch": 0.2790416666666667,
      "grad_norm": 0.7362871170043945,
      "learning_rate": 0.00024704937403644087,
      "loss": 4.0334,
      "step": 133940
    },
    {
      "epoch": 0.2790625,
      "grad_norm": 0.8331841230392456,
      "learning_rate": 0.0002470418567428223,
      "loss": 3.8644,
      "step": 133950
    },
    {
      "epoch": 0.27908333333333335,
      "grad_norm": 0.7435336112976074,
      "learning_rate": 0.0002470343390300214,
      "loss": 3.7954,
      "step": 133960
    },
    {
      "epoch": 0.27910416666666665,
      "grad_norm": 0.8290193676948547,
      "learning_rate": 0.00024702682089807046,
      "loss": 3.9861,
      "step": 133970
    },
    {
      "epoch": 0.279125,
      "grad_norm": 0.614303469657898,
      "learning_rate": 0.0002470193023470021,
      "loss": 3.8057,
      "step": 133980
    },
    {
      "epoch": 0.2791458333333333,
      "grad_norm": 0.7697263956069946,
      "learning_rate": 0.00024701178337684874,
      "loss": 3.9579,
      "step": 133990
    },
    {
      "epoch": 0.2791666666666667,
      "grad_norm": 0.9671379923820496,
      "learning_rate": 0.00024700426398764294,
      "loss": 3.9137,
      "step": 134000
    },
    {
      "epoch": 0.2791666666666667,
      "eval_loss": 4.245899200439453,
      "eval_runtime": 9.9773,
      "eval_samples_per_second": 1.002,
      "eval_steps_per_second": 0.301,
      "step": 134000
    },
    {
      "epoch": 0.2791875,
      "grad_norm": 0.909746527671814,
      "learning_rate": 0.00024699674417941707,
      "loss": 4.1506,
      "step": 134010
    },
    {
      "epoch": 0.27920833333333334,
      "grad_norm": 0.8989776968955994,
      "learning_rate": 0.00024698922395220365,
      "loss": 3.9303,
      "step": 134020
    },
    {
      "epoch": 0.27922916666666664,
      "grad_norm": 0.6752610802650452,
      "learning_rate": 0.00024698170330603517,
      "loss": 3.8082,
      "step": 134030
    },
    {
      "epoch": 0.27925,
      "grad_norm": 0.7387091517448425,
      "learning_rate": 0.00024697418224094413,
      "loss": 3.9435,
      "step": 134040
    },
    {
      "epoch": 0.27927083333333336,
      "grad_norm": 0.8927291035652161,
      "learning_rate": 0.000246966660756963,
      "loss": 3.8528,
      "step": 134050
    },
    {
      "epoch": 0.27929166666666666,
      "grad_norm": 0.7119011878967285,
      "learning_rate": 0.0002469591388541243,
      "loss": 3.914,
      "step": 134060
    },
    {
      "epoch": 0.2793125,
      "grad_norm": 0.7779905200004578,
      "learning_rate": 0.0002469516165324605,
      "loss": 3.8115,
      "step": 134070
    },
    {
      "epoch": 0.2793333333333333,
      "grad_norm": 0.6846845746040344,
      "learning_rate": 0.0002469440937920041,
      "loss": 3.9762,
      "step": 134080
    },
    {
      "epoch": 0.2793541666666667,
      "grad_norm": 0.8272965550422668,
      "learning_rate": 0.00024693657063278756,
      "loss": 3.9737,
      "step": 134090
    },
    {
      "epoch": 0.279375,
      "grad_norm": 0.8637388348579407,
      "learning_rate": 0.00024692904705484343,
      "loss": 3.9225,
      "step": 134100
    },
    {
      "epoch": 0.27939583333333334,
      "grad_norm": 0.7356088161468506,
      "learning_rate": 0.00024692152305820416,
      "loss": 3.8506,
      "step": 134110
    },
    {
      "epoch": 0.27941666666666665,
      "grad_norm": 0.7476629018783569,
      "learning_rate": 0.00024691399864290223,
      "loss": 3.8466,
      "step": 134120
    },
    {
      "epoch": 0.2794375,
      "grad_norm": 0.7287749648094177,
      "learning_rate": 0.00024690647380897027,
      "loss": 4.0347,
      "step": 134130
    },
    {
      "epoch": 0.2794583333333333,
      "grad_norm": 0.8730844855308533,
      "learning_rate": 0.0002468989485564407,
      "loss": 3.859,
      "step": 134140
    },
    {
      "epoch": 0.27947916666666667,
      "grad_norm": 0.7651601433753967,
      "learning_rate": 0.000246891422885346,
      "loss": 3.8703,
      "step": 134150
    },
    {
      "epoch": 0.2795,
      "grad_norm": 0.7703250050544739,
      "learning_rate": 0.0002468838967957187,
      "loss": 3.8272,
      "step": 134160
    },
    {
      "epoch": 0.27952083333333333,
      "grad_norm": 0.7168813347816467,
      "learning_rate": 0.0002468763702875913,
      "loss": 3.8973,
      "step": 134170
    },
    {
      "epoch": 0.2795416666666667,
      "grad_norm": 0.7636588215827942,
      "learning_rate": 0.00024686884336099635,
      "loss": 4.0207,
      "step": 134180
    },
    {
      "epoch": 0.2795625,
      "grad_norm": 0.7055059671401978,
      "learning_rate": 0.00024686131601596635,
      "loss": 3.9185,
      "step": 134190
    },
    {
      "epoch": 0.27958333333333335,
      "grad_norm": 0.7227670550346375,
      "learning_rate": 0.0002468537882525338,
      "loss": 3.9392,
      "step": 134200
    },
    {
      "epoch": 0.27960416666666665,
      "grad_norm": 0.7951478958129883,
      "learning_rate": 0.0002468462600707312,
      "loss": 3.9474,
      "step": 134210
    },
    {
      "epoch": 0.279625,
      "grad_norm": 0.8108668923377991,
      "learning_rate": 0.0002468387314705911,
      "loss": 3.8839,
      "step": 134220
    },
    {
      "epoch": 0.2796458333333333,
      "grad_norm": 0.7958268523216248,
      "learning_rate": 0.000246831202452146,
      "loss": 3.9115,
      "step": 134230
    },
    {
      "epoch": 0.2796666666666667,
      "grad_norm": 0.7325651049613953,
      "learning_rate": 0.00024682367301542845,
      "loss": 3.9722,
      "step": 134240
    },
    {
      "epoch": 0.2796875,
      "grad_norm": 0.7939375042915344,
      "learning_rate": 0.00024681614316047096,
      "loss": 3.8727,
      "step": 134250
    },
    {
      "epoch": 0.27970833333333334,
      "grad_norm": 0.9299023747444153,
      "learning_rate": 0.00024680861288730606,
      "loss": 3.848,
      "step": 134260
    },
    {
      "epoch": 0.27972916666666664,
      "grad_norm": 0.7630616426467896,
      "learning_rate": 0.0002468010821959663,
      "loss": 3.8453,
      "step": 134270
    },
    {
      "epoch": 0.27975,
      "grad_norm": 0.7500441670417786,
      "learning_rate": 0.0002467935510864841,
      "loss": 3.8254,
      "step": 134280
    },
    {
      "epoch": 0.27977083333333336,
      "grad_norm": 0.8298051357269287,
      "learning_rate": 0.00024678601955889214,
      "loss": 4.0098,
      "step": 134290
    },
    {
      "epoch": 0.27979166666666666,
      "grad_norm": 0.842956006526947,
      "learning_rate": 0.00024677848761322287,
      "loss": 3.7714,
      "step": 134300
    },
    {
      "epoch": 0.2798125,
      "grad_norm": 0.7670019268989563,
      "learning_rate": 0.00024677095524950883,
      "loss": 3.8397,
      "step": 134310
    },
    {
      "epoch": 0.2798333333333333,
      "grad_norm": 0.7444519996643066,
      "learning_rate": 0.00024676342246778254,
      "loss": 3.9703,
      "step": 134320
    },
    {
      "epoch": 0.2798541666666667,
      "grad_norm": 0.711760938167572,
      "learning_rate": 0.00024675588926807663,
      "loss": 3.9238,
      "step": 134330
    },
    {
      "epoch": 0.279875,
      "grad_norm": 0.8552448153495789,
      "learning_rate": 0.00024674835565042353,
      "loss": 3.9923,
      "step": 134340
    },
    {
      "epoch": 0.27989583333333334,
      "grad_norm": 0.7049008011817932,
      "learning_rate": 0.00024674082161485586,
      "loss": 4.0184,
      "step": 134350
    },
    {
      "epoch": 0.27991666666666665,
      "grad_norm": 0.912716269493103,
      "learning_rate": 0.0002467332871614061,
      "loss": 3.9564,
      "step": 134360
    },
    {
      "epoch": 0.2799375,
      "grad_norm": 0.7552905678749084,
      "learning_rate": 0.0002467257522901069,
      "loss": 3.9281,
      "step": 134370
    },
    {
      "epoch": 0.2799583333333333,
      "grad_norm": 0.7481129169464111,
      "learning_rate": 0.00024671821700099063,
      "loss": 3.7751,
      "step": 134380
    },
    {
      "epoch": 0.27997916666666667,
      "grad_norm": 0.8523600101470947,
      "learning_rate": 0.00024671068129409,
      "loss": 3.8498,
      "step": 134390
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9007193446159363,
      "learning_rate": 0.00024670314516943753,
      "loss": 3.8311,
      "step": 134400
    },
    {
      "epoch": 0.28002083333333333,
      "grad_norm": 0.7183635234832764,
      "learning_rate": 0.00024669560862706575,
      "loss": 3.8576,
      "step": 134410
    },
    {
      "epoch": 0.2800416666666667,
      "grad_norm": 0.9791690111160278,
      "learning_rate": 0.0002466880716670072,
      "loss": 3.8467,
      "step": 134420
    },
    {
      "epoch": 0.2800625,
      "grad_norm": 0.8136066198348999,
      "learning_rate": 0.00024668053428929444,
      "loss": 3.7853,
      "step": 134430
    },
    {
      "epoch": 0.28008333333333335,
      "grad_norm": 0.7707487344741821,
      "learning_rate": 0.00024667299649396,
      "loss": 3.895,
      "step": 134440
    },
    {
      "epoch": 0.28010416666666665,
      "grad_norm": 0.8332579731941223,
      "learning_rate": 0.0002466654582810365,
      "loss": 3.8655,
      "step": 134450
    },
    {
      "epoch": 0.280125,
      "grad_norm": 0.7983569502830505,
      "learning_rate": 0.00024665791965055656,
      "loss": 4.0804,
      "step": 134460
    },
    {
      "epoch": 0.2801458333333333,
      "grad_norm": 0.8069074749946594,
      "learning_rate": 0.0002466503806025526,
      "loss": 3.8701,
      "step": 134470
    },
    {
      "epoch": 0.2801666666666667,
      "grad_norm": 0.7925261855125427,
      "learning_rate": 0.0002466428411370573,
      "loss": 3.9058,
      "step": 134480
    },
    {
      "epoch": 0.2801875,
      "grad_norm": 0.705861508846283,
      "learning_rate": 0.00024663530125410314,
      "loss": 3.8601,
      "step": 134490
    },
    {
      "epoch": 0.28020833333333334,
      "grad_norm": 0.8148671984672546,
      "learning_rate": 0.00024662776095372275,
      "loss": 3.9271,
      "step": 134500
    },
    {
      "epoch": 0.28022916666666664,
      "grad_norm": 0.7167771458625793,
      "learning_rate": 0.0002466202202359487,
      "loss": 4.0037,
      "step": 134510
    },
    {
      "epoch": 0.28025,
      "grad_norm": 0.7773129343986511,
      "learning_rate": 0.00024661267910081346,
      "loss": 3.7436,
      "step": 134520
    },
    {
      "epoch": 0.28027083333333336,
      "grad_norm": 0.6956601142883301,
      "learning_rate": 0.00024660513754834983,
      "loss": 3.9117,
      "step": 134530
    },
    {
      "epoch": 0.28029166666666666,
      "grad_norm": 0.8371565937995911,
      "learning_rate": 0.00024659759557859006,
      "loss": 4.0053,
      "step": 134540
    },
    {
      "epoch": 0.2803125,
      "grad_norm": 0.7747480869293213,
      "learning_rate": 0.00024659005319156707,
      "loss": 4.0264,
      "step": 134550
    },
    {
      "epoch": 0.2803333333333333,
      "grad_norm": 0.8306632041931152,
      "learning_rate": 0.0002465825103873132,
      "loss": 3.7768,
      "step": 134560
    },
    {
      "epoch": 0.2803541666666667,
      "grad_norm": 0.9270726442337036,
      "learning_rate": 0.0002465749671658612,
      "loss": 4.0022,
      "step": 134570
    },
    {
      "epoch": 0.280375,
      "grad_norm": 0.7167968153953552,
      "learning_rate": 0.00024656742352724344,
      "loss": 3.7802,
      "step": 134580
    },
    {
      "epoch": 0.28039583333333334,
      "grad_norm": 0.6861337423324585,
      "learning_rate": 0.00024655987947149274,
      "loss": 3.9313,
      "step": 134590
    },
    {
      "epoch": 0.28041666666666665,
      "grad_norm": 0.9111992716789246,
      "learning_rate": 0.0002465523349986415,
      "loss": 3.8889,
      "step": 134600
    },
    {
      "epoch": 0.2804375,
      "grad_norm": 0.7465101480484009,
      "learning_rate": 0.0002465447901087225,
      "loss": 3.7526,
      "step": 134610
    },
    {
      "epoch": 0.2804583333333333,
      "grad_norm": 0.8952368497848511,
      "learning_rate": 0.0002465372448017681,
      "loss": 3.9337,
      "step": 134620
    },
    {
      "epoch": 0.28047916666666667,
      "grad_norm": 0.8151842951774597,
      "learning_rate": 0.0002465296990778111,
      "loss": 3.7215,
      "step": 134630
    },
    {
      "epoch": 0.2805,
      "grad_norm": 0.788152813911438,
      "learning_rate": 0.00024652215293688396,
      "loss": 3.7733,
      "step": 134640
    },
    {
      "epoch": 0.28052083333333333,
      "grad_norm": 0.959462583065033,
      "learning_rate": 0.00024651460637901935,
      "loss": 3.9174,
      "step": 134650
    },
    {
      "epoch": 0.2805416666666667,
      "grad_norm": 0.7358541488647461,
      "learning_rate": 0.00024650705940424983,
      "loss": 3.8842,
      "step": 134660
    },
    {
      "epoch": 0.2805625,
      "grad_norm": 0.7882206439971924,
      "learning_rate": 0.00024649951201260805,
      "loss": 3.852,
      "step": 134670
    },
    {
      "epoch": 0.28058333333333335,
      "grad_norm": 0.725260317325592,
      "learning_rate": 0.0002464919642041266,
      "loss": 4.0749,
      "step": 134680
    },
    {
      "epoch": 0.28060416666666665,
      "grad_norm": 0.8031278252601624,
      "learning_rate": 0.00024648441597883796,
      "loss": 3.9033,
      "step": 134690
    },
    {
      "epoch": 0.280625,
      "grad_norm": 0.81363445520401,
      "learning_rate": 0.00024647686733677486,
      "loss": 3.7258,
      "step": 134700
    },
    {
      "epoch": 0.2806458333333333,
      "grad_norm": 0.7239891886711121,
      "learning_rate": 0.0002464693182779699,
      "loss": 3.9903,
      "step": 134710
    },
    {
      "epoch": 0.2806666666666667,
      "grad_norm": 0.7306421399116516,
      "learning_rate": 0.00024646176880245574,
      "loss": 3.9181,
      "step": 134720
    },
    {
      "epoch": 0.2806875,
      "grad_norm": 0.8823321461677551,
      "learning_rate": 0.0002464542189102648,
      "loss": 3.9185,
      "step": 134730
    },
    {
      "epoch": 0.28070833333333334,
      "grad_norm": 0.7872290015220642,
      "learning_rate": 0.00024644666860142985,
      "loss": 3.7821,
      "step": 134740
    },
    {
      "epoch": 0.28072916666666664,
      "grad_norm": 0.7661877274513245,
      "learning_rate": 0.00024643911787598354,
      "loss": 3.8258,
      "step": 134750
    },
    {
      "epoch": 0.28075,
      "grad_norm": 0.77086341381073,
      "learning_rate": 0.00024643156673395835,
      "loss": 3.8683,
      "step": 134760
    },
    {
      "epoch": 0.28077083333333336,
      "grad_norm": 0.7667698860168457,
      "learning_rate": 0.0002464240151753869,
      "loss": 3.709,
      "step": 134770
    },
    {
      "epoch": 0.28079166666666666,
      "grad_norm": 0.8732684850692749,
      "learning_rate": 0.000246416463200302,
      "loss": 3.9342,
      "step": 134780
    },
    {
      "epoch": 0.2808125,
      "grad_norm": 1.03135347366333,
      "learning_rate": 0.0002464089108087361,
      "loss": 4.0615,
      "step": 134790
    },
    {
      "epoch": 0.2808333333333333,
      "grad_norm": 0.6598926186561584,
      "learning_rate": 0.00024640135800072183,
      "loss": 3.9819,
      "step": 134800
    },
    {
      "epoch": 0.2808541666666667,
      "grad_norm": 0.8123093247413635,
      "learning_rate": 0.0002463938047762919,
      "loss": 3.7303,
      "step": 134810
    },
    {
      "epoch": 0.280875,
      "grad_norm": 0.6905823945999146,
      "learning_rate": 0.00024638625113547886,
      "loss": 3.9113,
      "step": 134820
    },
    {
      "epoch": 0.28089583333333334,
      "grad_norm": 0.8295285105705261,
      "learning_rate": 0.0002463786970783154,
      "loss": 3.989,
      "step": 134830
    },
    {
      "epoch": 0.28091666666666665,
      "grad_norm": 0.7179462313652039,
      "learning_rate": 0.00024637114260483403,
      "loss": 3.896,
      "step": 134840
    },
    {
      "epoch": 0.2809375,
      "grad_norm": 0.8576661944389343,
      "learning_rate": 0.00024636358771506757,
      "loss": 4.0024,
      "step": 134850
    },
    {
      "epoch": 0.2809583333333333,
      "grad_norm": 0.7801895141601562,
      "learning_rate": 0.0002463560324090485,
      "loss": 3.9864,
      "step": 134860
    },
    {
      "epoch": 0.28097916666666667,
      "grad_norm": 0.7190414071083069,
      "learning_rate": 0.0002463484766868095,
      "loss": 3.8678,
      "step": 134870
    },
    {
      "epoch": 0.281,
      "grad_norm": 0.7430031895637512,
      "learning_rate": 0.0002463409205483833,
      "loss": 3.9134,
      "step": 134880
    },
    {
      "epoch": 0.28102083333333333,
      "grad_norm": 0.7835262417793274,
      "learning_rate": 0.0002463333639938024,
      "loss": 3.9247,
      "step": 134890
    },
    {
      "epoch": 0.2810416666666667,
      "grad_norm": 0.892043948173523,
      "learning_rate": 0.0002463258070230995,
      "loss": 3.9352,
      "step": 134900
    },
    {
      "epoch": 0.2810625,
      "grad_norm": 0.7500973343849182,
      "learning_rate": 0.0002463182496363072,
      "loss": 3.8272,
      "step": 134910
    },
    {
      "epoch": 0.28108333333333335,
      "grad_norm": 0.7308000326156616,
      "learning_rate": 0.0002463106918334582,
      "loss": 4.0023,
      "step": 134920
    },
    {
      "epoch": 0.28110416666666665,
      "grad_norm": 1.077051043510437,
      "learning_rate": 0.0002463031336145852,
      "loss": 3.9416,
      "step": 134930
    },
    {
      "epoch": 0.281125,
      "grad_norm": 0.7214117646217346,
      "learning_rate": 0.00024629557497972074,
      "loss": 3.8552,
      "step": 134940
    },
    {
      "epoch": 0.2811458333333333,
      "grad_norm": 0.7460265159606934,
      "learning_rate": 0.0002462880159288975,
      "loss": 3.8411,
      "step": 134950
    },
    {
      "epoch": 0.2811666666666667,
      "grad_norm": 0.7656046748161316,
      "learning_rate": 0.00024628045646214817,
      "loss": 3.835,
      "step": 134960
    },
    {
      "epoch": 0.2811875,
      "grad_norm": 0.87418133020401,
      "learning_rate": 0.00024627289657950537,
      "loss": 3.986,
      "step": 134970
    },
    {
      "epoch": 0.28120833333333334,
      "grad_norm": 0.7578343152999878,
      "learning_rate": 0.00024626533628100176,
      "loss": 3.7863,
      "step": 134980
    },
    {
      "epoch": 0.28122916666666664,
      "grad_norm": 0.6849825382232666,
      "learning_rate": 0.00024625777556667,
      "loss": 3.8321,
      "step": 134990
    },
    {
      "epoch": 0.28125,
      "grad_norm": 0.7450081706047058,
      "learning_rate": 0.0002462502144365428,
      "loss": 4.0672,
      "step": 135000
    },
    {
      "epoch": 0.28125,
      "eval_loss": 4.221157550811768,
      "eval_runtime": 9.3993,
      "eval_samples_per_second": 1.064,
      "eval_steps_per_second": 0.319,
      "step": 135000
    },
    {
      "epoch": 0.28127083333333336,
      "grad_norm": 0.8191119432449341,
      "learning_rate": 0.0002462426528906527,
      "loss": 3.8127,
      "step": 135010
    },
    {
      "epoch": 0.28129166666666666,
      "grad_norm": 0.7392029166221619,
      "learning_rate": 0.00024623509092903245,
      "loss": 3.8914,
      "step": 135020
    },
    {
      "epoch": 0.2813125,
      "grad_norm": 0.7667672634124756,
      "learning_rate": 0.0002462275285517147,
      "loss": 3.804,
      "step": 135030
    },
    {
      "epoch": 0.2813333333333333,
      "grad_norm": 0.7549951076507568,
      "learning_rate": 0.00024621996575873215,
      "loss": 3.8415,
      "step": 135040
    },
    {
      "epoch": 0.2813541666666667,
      "grad_norm": 0.8320620656013489,
      "learning_rate": 0.0002462124025501174,
      "loss": 3.7493,
      "step": 135050
    },
    {
      "epoch": 0.281375,
      "grad_norm": 0.721186101436615,
      "learning_rate": 0.0002462048389259032,
      "loss": 3.6958,
      "step": 135060
    },
    {
      "epoch": 0.28139583333333335,
      "grad_norm": 0.7645911574363708,
      "learning_rate": 0.00024619727488612214,
      "loss": 3.7336,
      "step": 135070
    },
    {
      "epoch": 0.28141666666666665,
      "grad_norm": 0.8337659239768982,
      "learning_rate": 0.00024618971043080697,
      "loss": 3.912,
      "step": 135080
    },
    {
      "epoch": 0.2814375,
      "grad_norm": 0.8214209079742432,
      "learning_rate": 0.00024618214555999023,
      "loss": 3.8932,
      "step": 135090
    },
    {
      "epoch": 0.2814583333333333,
      "grad_norm": 0.7396931648254395,
      "learning_rate": 0.0002461745802737048,
      "loss": 4.0749,
      "step": 135100
    },
    {
      "epoch": 0.28147916666666667,
      "grad_norm": 0.6799883246421814,
      "learning_rate": 0.0002461670145719832,
      "loss": 4.0208,
      "step": 135110
    },
    {
      "epoch": 0.2815,
      "grad_norm": 0.918932318687439,
      "learning_rate": 0.0002461594484548582,
      "loss": 3.9587,
      "step": 135120
    },
    {
      "epoch": 0.28152083333333333,
      "grad_norm": 0.7125634551048279,
      "learning_rate": 0.0002461518819223624,
      "loss": 3.963,
      "step": 135130
    },
    {
      "epoch": 0.2815416666666667,
      "grad_norm": 0.7947373390197754,
      "learning_rate": 0.0002461443149745285,
      "loss": 3.7922,
      "step": 135140
    },
    {
      "epoch": 0.2815625,
      "grad_norm": 0.9676728844642639,
      "learning_rate": 0.0002461367476113893,
      "loss": 3.8529,
      "step": 135150
    },
    {
      "epoch": 0.28158333333333335,
      "grad_norm": 0.7215476036071777,
      "learning_rate": 0.00024612917983297733,
      "loss": 3.9207,
      "step": 135160
    },
    {
      "epoch": 0.28160416666666666,
      "grad_norm": 0.8585578799247742,
      "learning_rate": 0.00024612161163932537,
      "loss": 3.9712,
      "step": 135170
    },
    {
      "epoch": 0.281625,
      "grad_norm": 0.7324315905570984,
      "learning_rate": 0.00024611404303046615,
      "loss": 3.9919,
      "step": 135180
    },
    {
      "epoch": 0.2816458333333333,
      "grad_norm": 0.7512481808662415,
      "learning_rate": 0.00024610647400643225,
      "loss": 4.0101,
      "step": 135190
    },
    {
      "epoch": 0.2816666666666667,
      "grad_norm": 0.7292667627334595,
      "learning_rate": 0.0002460989045672565,
      "loss": 3.7814,
      "step": 135200
    },
    {
      "epoch": 0.2816875,
      "grad_norm": 0.8307130336761475,
      "learning_rate": 0.0002460913347129714,
      "loss": 3.7662,
      "step": 135210
    },
    {
      "epoch": 0.28170833333333334,
      "grad_norm": 0.7954584956169128,
      "learning_rate": 0.00024608376444360984,
      "loss": 3.9628,
      "step": 135220
    },
    {
      "epoch": 0.28172916666666664,
      "grad_norm": 0.6350939273834229,
      "learning_rate": 0.00024607619375920445,
      "loss": 4.003,
      "step": 135230
    },
    {
      "epoch": 0.28175,
      "grad_norm": 0.7627553939819336,
      "learning_rate": 0.0002460686226597879,
      "loss": 3.8486,
      "step": 135240
    },
    {
      "epoch": 0.28177083333333336,
      "grad_norm": 0.7690590023994446,
      "learning_rate": 0.000246061051145393,
      "loss": 3.9147,
      "step": 135250
    },
    {
      "epoch": 0.28179166666666666,
      "grad_norm": 0.7204603552818298,
      "learning_rate": 0.0002460534792160523,
      "loss": 3.8089,
      "step": 135260
    },
    {
      "epoch": 0.2818125,
      "grad_norm": 0.728065550327301,
      "learning_rate": 0.0002460459068717986,
      "loss": 3.8829,
      "step": 135270
    },
    {
      "epoch": 0.2818333333333333,
      "grad_norm": 0.7920730710029602,
      "learning_rate": 0.0002460383341126647,
      "loss": 3.8566,
      "step": 135280
    },
    {
      "epoch": 0.2818541666666667,
      "grad_norm": 0.8125127553939819,
      "learning_rate": 0.0002460307609386831,
      "loss": 3.762,
      "step": 135290
    },
    {
      "epoch": 0.281875,
      "grad_norm": 0.7278837561607361,
      "learning_rate": 0.0002460231873498867,
      "loss": 3.9734,
      "step": 135300
    },
    {
      "epoch": 0.28189583333333335,
      "grad_norm": 0.7219279408454895,
      "learning_rate": 0.00024601561334630813,
      "loss": 3.8303,
      "step": 135310
    },
    {
      "epoch": 0.28191666666666665,
      "grad_norm": 0.7353322505950928,
      "learning_rate": 0.00024600803892798,
      "loss": 3.7927,
      "step": 135320
    },
    {
      "epoch": 0.2819375,
      "grad_norm": 1.1231403350830078,
      "learning_rate": 0.0002460004640949353,
      "loss": 4.1187,
      "step": 135330
    },
    {
      "epoch": 0.2819583333333333,
      "grad_norm": 0.8621324896812439,
      "learning_rate": 0.0002459928888472065,
      "loss": 3.9641,
      "step": 135340
    },
    {
      "epoch": 0.28197916666666667,
      "grad_norm": 0.7662733197212219,
      "learning_rate": 0.00024598531318482643,
      "loss": 4.0493,
      "step": 135350
    },
    {
      "epoch": 0.282,
      "grad_norm": 0.803392767906189,
      "learning_rate": 0.0002459777371078278,
      "loss": 3.8111,
      "step": 135360
    },
    {
      "epoch": 0.28202083333333333,
      "grad_norm": 0.6791334748268127,
      "learning_rate": 0.0002459701606162434,
      "loss": 3.9889,
      "step": 135370
    },
    {
      "epoch": 0.2820416666666667,
      "grad_norm": 0.7904629707336426,
      "learning_rate": 0.0002459625837101058,
      "loss": 3.793,
      "step": 135380
    },
    {
      "epoch": 0.2820625,
      "grad_norm": 0.7061792612075806,
      "learning_rate": 0.00024595500638944785,
      "loss": 4.0339,
      "step": 135390
    },
    {
      "epoch": 0.28208333333333335,
      "grad_norm": 0.8004636764526367,
      "learning_rate": 0.0002459474286543023,
      "loss": 3.9321,
      "step": 135400
    },
    {
      "epoch": 0.28210416666666666,
      "grad_norm": 0.6900667548179626,
      "learning_rate": 0.0002459398505047018,
      "loss": 3.7761,
      "step": 135410
    },
    {
      "epoch": 0.282125,
      "grad_norm": 1.2346785068511963,
      "learning_rate": 0.00024593227194067915,
      "loss": 3.8888,
      "step": 135420
    },
    {
      "epoch": 0.2821458333333333,
      "grad_norm": 0.7955517172813416,
      "learning_rate": 0.000245924692962267,
      "loss": 4.0665,
      "step": 135430
    },
    {
      "epoch": 0.2821666666666667,
      "grad_norm": 0.7239528298377991,
      "learning_rate": 0.0002459171135694982,
      "loss": 3.7522,
      "step": 135440
    },
    {
      "epoch": 0.2821875,
      "grad_norm": 0.9383248686790466,
      "learning_rate": 0.0002459095337624054,
      "loss": 3.8179,
      "step": 135450
    },
    {
      "epoch": 0.28220833333333334,
      "grad_norm": 0.9835183620452881,
      "learning_rate": 0.0002459019535410214,
      "loss": 3.9332,
      "step": 135460
    },
    {
      "epoch": 0.28222916666666664,
      "grad_norm": 0.8068369626998901,
      "learning_rate": 0.00024589437290537897,
      "loss": 3.9372,
      "step": 135470
    },
    {
      "epoch": 0.28225,
      "grad_norm": 0.8559551239013672,
      "learning_rate": 0.00024588679185551075,
      "loss": 3.8649,
      "step": 135480
    },
    {
      "epoch": 0.28227083333333336,
      "grad_norm": 0.7521690726280212,
      "learning_rate": 0.00024587921039144955,
      "loss": 3.9958,
      "step": 135490
    },
    {
      "epoch": 0.28229166666666666,
      "grad_norm": 0.8238077759742737,
      "learning_rate": 0.0002458716285132281,
      "loss": 3.7795,
      "step": 135500
    },
    {
      "epoch": 0.2823125,
      "grad_norm": 0.7946140766143799,
      "learning_rate": 0.00024586404622087916,
      "loss": 3.8456,
      "step": 135510
    },
    {
      "epoch": 0.2823333333333333,
      "grad_norm": 0.7648153305053711,
      "learning_rate": 0.00024585646351443546,
      "loss": 3.905,
      "step": 135520
    },
    {
      "epoch": 0.2823541666666667,
      "grad_norm": 0.7741970419883728,
      "learning_rate": 0.00024584888039392986,
      "loss": 3.9183,
      "step": 135530
    },
    {
      "epoch": 0.282375,
      "grad_norm": 0.7711015343666077,
      "learning_rate": 0.00024584129685939504,
      "loss": 3.8413,
      "step": 135540
    },
    {
      "epoch": 0.28239583333333335,
      "grad_norm": 0.7576962113380432,
      "learning_rate": 0.0002458337129108637,
      "loss": 3.7885,
      "step": 135550
    },
    {
      "epoch": 0.28241666666666665,
      "grad_norm": 0.7365676164627075,
      "learning_rate": 0.00024582612854836866,
      "loss": 3.7391,
      "step": 135560
    },
    {
      "epoch": 0.2824375,
      "grad_norm": 0.8267436027526855,
      "learning_rate": 0.0002458185437719427,
      "loss": 3.8644,
      "step": 135570
    },
    {
      "epoch": 0.2824583333333333,
      "grad_norm": 0.9108872413635254,
      "learning_rate": 0.0002458109585816185,
      "loss": 4.013,
      "step": 135580
    },
    {
      "epoch": 0.28247916666666667,
      "grad_norm": 0.7238395810127258,
      "learning_rate": 0.00024580337297742895,
      "loss": 3.8336,
      "step": 135590
    },
    {
      "epoch": 0.2825,
      "grad_norm": 0.8387781977653503,
      "learning_rate": 0.0002457957869594067,
      "loss": 3.9041,
      "step": 135600
    },
    {
      "epoch": 0.28252083333333333,
      "grad_norm": 0.7236524820327759,
      "learning_rate": 0.0002457882005275846,
      "loss": 3.9331,
      "step": 135610
    },
    {
      "epoch": 0.2825416666666667,
      "grad_norm": 0.726824164390564,
      "learning_rate": 0.0002457806136819954,
      "loss": 4.1544,
      "step": 135620
    },
    {
      "epoch": 0.2825625,
      "grad_norm": 0.7713344097137451,
      "learning_rate": 0.00024577302642267185,
      "loss": 3.8191,
      "step": 135630
    },
    {
      "epoch": 0.28258333333333335,
      "grad_norm": 0.739510178565979,
      "learning_rate": 0.0002457654387496467,
      "loss": 3.9173,
      "step": 135640
    },
    {
      "epoch": 0.28260416666666666,
      "grad_norm": 0.8398464918136597,
      "learning_rate": 0.0002457578506629528,
      "loss": 3.8148,
      "step": 135650
    },
    {
      "epoch": 0.282625,
      "grad_norm": 0.7227621674537659,
      "learning_rate": 0.00024575026216262287,
      "loss": 3.8777,
      "step": 135660
    },
    {
      "epoch": 0.2826458333333333,
      "grad_norm": 0.8589826822280884,
      "learning_rate": 0.00024574267324868973,
      "loss": 4.1501,
      "step": 135670
    },
    {
      "epoch": 0.2826666666666667,
      "grad_norm": 0.6851149797439575,
      "learning_rate": 0.00024573508392118615,
      "loss": 3.8898,
      "step": 135680
    },
    {
      "epoch": 0.2826875,
      "grad_norm": 0.8047986626625061,
      "learning_rate": 0.00024572749418014483,
      "loss": 3.8185,
      "step": 135690
    },
    {
      "epoch": 0.28270833333333334,
      "grad_norm": 0.7805941104888916,
      "learning_rate": 0.00024571990402559867,
      "loss": 3.8186,
      "step": 135700
    },
    {
      "epoch": 0.28272916666666664,
      "grad_norm": 0.7202308773994446,
      "learning_rate": 0.00024571231345758046,
      "loss": 3.8741,
      "step": 135710
    },
    {
      "epoch": 0.28275,
      "grad_norm": 0.7143944501876831,
      "learning_rate": 0.0002457047224761229,
      "loss": 3.9587,
      "step": 135720
    },
    {
      "epoch": 0.28277083333333336,
      "grad_norm": 0.8790487051010132,
      "learning_rate": 0.00024569713108125876,
      "loss": 3.8899,
      "step": 135730
    },
    {
      "epoch": 0.28279166666666666,
      "grad_norm": 0.7429547309875488,
      "learning_rate": 0.000245689539273021,
      "loss": 3.926,
      "step": 135740
    },
    {
      "epoch": 0.2828125,
      "grad_norm": 0.7426328659057617,
      "learning_rate": 0.00024568194705144224,
      "loss": 4.0142,
      "step": 135750
    },
    {
      "epoch": 0.2828333333333333,
      "grad_norm": 0.8006240129470825,
      "learning_rate": 0.0002456743544165554,
      "loss": 4.0405,
      "step": 135760
    },
    {
      "epoch": 0.2828541666666667,
      "grad_norm": 0.7483779788017273,
      "learning_rate": 0.00024566676136839315,
      "loss": 3.8462,
      "step": 135770
    },
    {
      "epoch": 0.282875,
      "grad_norm": 0.7957842946052551,
      "learning_rate": 0.0002456591679069884,
      "loss": 3.8605,
      "step": 135780
    },
    {
      "epoch": 0.28289583333333335,
      "grad_norm": 0.7107616066932678,
      "learning_rate": 0.00024565157403237393,
      "loss": 3.895,
      "step": 135790
    },
    {
      "epoch": 0.28291666666666665,
      "grad_norm": 0.7412640452384949,
      "learning_rate": 0.0002456439797445825,
      "loss": 3.9034,
      "step": 135800
    },
    {
      "epoch": 0.2829375,
      "grad_norm": 0.7644924521446228,
      "learning_rate": 0.0002456363850436469,
      "loss": 4.0071,
      "step": 135810
    },
    {
      "epoch": 0.2829583333333333,
      "grad_norm": 0.6774699687957764,
      "learning_rate": 0.0002456287899296,
      "loss": 3.9223,
      "step": 135820
    },
    {
      "epoch": 0.28297916666666667,
      "grad_norm": 0.9337239265441895,
      "learning_rate": 0.00024562119440247454,
      "loss": 3.9222,
      "step": 135830
    },
    {
      "epoch": 0.283,
      "grad_norm": 0.8310664296150208,
      "learning_rate": 0.0002456135984623034,
      "loss": 3.8497,
      "step": 135840
    },
    {
      "epoch": 0.28302083333333333,
      "grad_norm": 0.7038436532020569,
      "learning_rate": 0.0002456060021091194,
      "loss": 3.7372,
      "step": 135850
    },
    {
      "epoch": 0.2830416666666667,
      "grad_norm": 0.765346348285675,
      "learning_rate": 0.0002455984053429553,
      "loss": 3.7963,
      "step": 135860
    },
    {
      "epoch": 0.2830625,
      "grad_norm": 0.8583652377128601,
      "learning_rate": 0.0002455908081638439,
      "loss": 4.0577,
      "step": 135870
    },
    {
      "epoch": 0.28308333333333335,
      "grad_norm": 0.9680270552635193,
      "learning_rate": 0.0002455832105718181,
      "loss": 3.9534,
      "step": 135880
    },
    {
      "epoch": 0.28310416666666666,
      "grad_norm": 0.8744089603424072,
      "learning_rate": 0.0002455756125669106,
      "loss": 3.8176,
      "step": 135890
    },
    {
      "epoch": 0.283125,
      "grad_norm": 0.747541606426239,
      "learning_rate": 0.00024556801414915433,
      "loss": 3.7251,
      "step": 135900
    },
    {
      "epoch": 0.2831458333333333,
      "grad_norm": 0.8393620848655701,
      "learning_rate": 0.000245560415318582,
      "loss": 3.9198,
      "step": 135910
    },
    {
      "epoch": 0.2831666666666667,
      "grad_norm": 0.7578654885292053,
      "learning_rate": 0.0002455528160752266,
      "loss": 3.9151,
      "step": 135920
    },
    {
      "epoch": 0.2831875,
      "grad_norm": 0.7834842205047607,
      "learning_rate": 0.00024554521641912075,
      "loss": 3.8502,
      "step": 135930
    },
    {
      "epoch": 0.28320833333333334,
      "grad_norm": 0.8876955509185791,
      "learning_rate": 0.00024553761635029745,
      "loss": 3.9661,
      "step": 135940
    },
    {
      "epoch": 0.28322916666666664,
      "grad_norm": 0.9934695959091187,
      "learning_rate": 0.00024553001586878945,
      "loss": 3.7369,
      "step": 135950
    },
    {
      "epoch": 0.28325,
      "grad_norm": 0.8776425123214722,
      "learning_rate": 0.00024552241497462966,
      "loss": 3.9641,
      "step": 135960
    },
    {
      "epoch": 0.28327083333333336,
      "grad_norm": 0.7151868939399719,
      "learning_rate": 0.00024551481366785077,
      "loss": 3.9289,
      "step": 135970
    },
    {
      "epoch": 0.28329166666666666,
      "grad_norm": 0.7008922696113586,
      "learning_rate": 0.0002455072119484857,
      "loss": 4.0344,
      "step": 135980
    },
    {
      "epoch": 0.2833125,
      "grad_norm": 0.8747656345367432,
      "learning_rate": 0.0002454996098165673,
      "loss": 3.8825,
      "step": 135990
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 0.7541623711585999,
      "learning_rate": 0.00024549200727212836,
      "loss": 3.949,
      "step": 136000
    },
    {
      "epoch": 0.2833333333333333,
      "eval_loss": 4.239216327667236,
      "eval_runtime": 10.2586,
      "eval_samples_per_second": 0.975,
      "eval_steps_per_second": 0.292,
      "step": 136000
    },
    {
      "epoch": 0.2833541666666667,
      "grad_norm": 0.6402384042739868,
      "learning_rate": 0.0002454844043152018,
      "loss": 3.9987,
      "step": 136010
    },
    {
      "epoch": 0.283375,
      "grad_norm": 0.710842490196228,
      "learning_rate": 0.0002454768009458203,
      "loss": 3.8705,
      "step": 136020
    },
    {
      "epoch": 0.28339583333333335,
      "grad_norm": 0.7603106498718262,
      "learning_rate": 0.0002454691971640169,
      "loss": 3.9416,
      "step": 136030
    },
    {
      "epoch": 0.28341666666666665,
      "grad_norm": 0.6821646690368652,
      "learning_rate": 0.0002454615929698244,
      "loss": 4.1431,
      "step": 136040
    },
    {
      "epoch": 0.2834375,
      "grad_norm": 0.7200095653533936,
      "learning_rate": 0.0002454539883632755,
      "loss": 3.8856,
      "step": 136050
    },
    {
      "epoch": 0.2834583333333333,
      "grad_norm": 0.7259575724601746,
      "learning_rate": 0.00024544638334440317,
      "loss": 3.9209,
      "step": 136060
    },
    {
      "epoch": 0.28347916666666667,
      "grad_norm": 0.7803996801376343,
      "learning_rate": 0.0002454387779132403,
      "loss": 4.0092,
      "step": 136070
    },
    {
      "epoch": 0.2835,
      "grad_norm": 0.7333680987358093,
      "learning_rate": 0.00024543117206981966,
      "loss": 3.9136,
      "step": 136080
    },
    {
      "epoch": 0.28352083333333333,
      "grad_norm": 0.7314035296440125,
      "learning_rate": 0.00024542356581417414,
      "loss": 3.7344,
      "step": 136090
    },
    {
      "epoch": 0.2835416666666667,
      "grad_norm": 0.812635064125061,
      "learning_rate": 0.0002454159591463366,
      "loss": 3.9047,
      "step": 136100
    },
    {
      "epoch": 0.2835625,
      "grad_norm": 0.7930313348770142,
      "learning_rate": 0.0002454083520663398,
      "loss": 3.9513,
      "step": 136110
    },
    {
      "epoch": 0.28358333333333335,
      "grad_norm": 0.8235002160072327,
      "learning_rate": 0.0002454007445742168,
      "loss": 3.7966,
      "step": 136120
    },
    {
      "epoch": 0.28360416666666666,
      "grad_norm": 0.8461391925811768,
      "learning_rate": 0.00024539313667000024,
      "loss": 3.7388,
      "step": 136130
    },
    {
      "epoch": 0.283625,
      "grad_norm": 0.6698418259620667,
      "learning_rate": 0.00024538552835372317,
      "loss": 3.8519,
      "step": 136140
    },
    {
      "epoch": 0.2836458333333333,
      "grad_norm": 0.7026820778846741,
      "learning_rate": 0.00024537791962541837,
      "loss": 3.9424,
      "step": 136150
    },
    {
      "epoch": 0.2836666666666667,
      "grad_norm": 0.7958362698554993,
      "learning_rate": 0.0002453703104851187,
      "loss": 3.9441,
      "step": 136160
    },
    {
      "epoch": 0.2836875,
      "grad_norm": 0.7305551767349243,
      "learning_rate": 0.00024536270093285695,
      "loss": 3.8726,
      "step": 136170
    },
    {
      "epoch": 0.28370833333333334,
      "grad_norm": 0.7101027369499207,
      "learning_rate": 0.0002453550909686662,
      "loss": 3.7515,
      "step": 136180
    },
    {
      "epoch": 0.28372916666666664,
      "grad_norm": 0.7983917593955994,
      "learning_rate": 0.00024534748059257917,
      "loss": 3.8679,
      "step": 136190
    },
    {
      "epoch": 0.28375,
      "grad_norm": 0.8551584482192993,
      "learning_rate": 0.00024533986980462873,
      "loss": 3.9336,
      "step": 136200
    },
    {
      "epoch": 0.28377083333333336,
      "grad_norm": 0.786956787109375,
      "learning_rate": 0.00024533225860484784,
      "loss": 3.895,
      "step": 136210
    },
    {
      "epoch": 0.28379166666666666,
      "grad_norm": 0.7345154285430908,
      "learning_rate": 0.00024532464699326923,
      "loss": 3.9076,
      "step": 136220
    },
    {
      "epoch": 0.2838125,
      "grad_norm": 0.7243973016738892,
      "learning_rate": 0.000245317034969926,
      "loss": 3.7573,
      "step": 136230
    },
    {
      "epoch": 0.2838333333333333,
      "grad_norm": 0.6882497668266296,
      "learning_rate": 0.00024530942253485084,
      "loss": 3.9614,
      "step": 136240
    },
    {
      "epoch": 0.2838541666666667,
      "grad_norm": 0.8284547328948975,
      "learning_rate": 0.00024530180968807675,
      "loss": 3.8469,
      "step": 136250
    },
    {
      "epoch": 0.283875,
      "grad_norm": 0.7433136701583862,
      "learning_rate": 0.00024529419642963646,
      "loss": 3.8087,
      "step": 136260
    },
    {
      "epoch": 0.28389583333333335,
      "grad_norm": 0.684509813785553,
      "learning_rate": 0.00024528658275956304,
      "loss": 4.0304,
      "step": 136270
    },
    {
      "epoch": 0.28391666666666665,
      "grad_norm": 0.8636004328727722,
      "learning_rate": 0.0002452789686778893,
      "loss": 3.9275,
      "step": 136280
    },
    {
      "epoch": 0.2839375,
      "grad_norm": 0.6934372186660767,
      "learning_rate": 0.0002452713541846481,
      "loss": 3.9378,
      "step": 136290
    },
    {
      "epoch": 0.2839583333333333,
      "grad_norm": 0.6777101159095764,
      "learning_rate": 0.0002452637392798724,
      "loss": 3.8538,
      "step": 136300
    },
    {
      "epoch": 0.28397916666666667,
      "grad_norm": 0.9898211359977722,
      "learning_rate": 0.00024525612396359504,
      "loss": 3.9106,
      "step": 136310
    },
    {
      "epoch": 0.284,
      "grad_norm": 0.8057311773300171,
      "learning_rate": 0.00024524850823584896,
      "loss": 3.8389,
      "step": 136320
    },
    {
      "epoch": 0.28402083333333333,
      "grad_norm": 0.780342698097229,
      "learning_rate": 0.00024524089209666697,
      "loss": 3.6754,
      "step": 136330
    },
    {
      "epoch": 0.2840416666666667,
      "grad_norm": 0.7153927683830261,
      "learning_rate": 0.0002452332755460821,
      "loss": 4.0187,
      "step": 136340
    },
    {
      "epoch": 0.2840625,
      "grad_norm": 0.8310948610305786,
      "learning_rate": 0.0002452256585841271,
      "loss": 4.0018,
      "step": 136350
    },
    {
      "epoch": 0.28408333333333335,
      "grad_norm": 0.7660813927650452,
      "learning_rate": 0.00024521804121083494,
      "loss": 3.7891,
      "step": 136360
    },
    {
      "epoch": 0.28410416666666666,
      "grad_norm": 0.7115387320518494,
      "learning_rate": 0.00024521042342623856,
      "loss": 3.86,
      "step": 136370
    },
    {
      "epoch": 0.284125,
      "grad_norm": 0.7969538569450378,
      "learning_rate": 0.00024520280523037085,
      "loss": 3.9243,
      "step": 136380
    },
    {
      "epoch": 0.2841458333333333,
      "grad_norm": 0.9327741861343384,
      "learning_rate": 0.0002451951866232647,
      "loss": 3.9266,
      "step": 136390
    },
    {
      "epoch": 0.2841666666666667,
      "grad_norm": 0.6977324485778809,
      "learning_rate": 0.00024518756760495296,
      "loss": 3.9094,
      "step": 136400
    },
    {
      "epoch": 0.2841875,
      "grad_norm": 0.6368212103843689,
      "learning_rate": 0.0002451799481754687,
      "loss": 3.8754,
      "step": 136410
    },
    {
      "epoch": 0.28420833333333334,
      "grad_norm": 0.7496811151504517,
      "learning_rate": 0.0002451723283348447,
      "loss": 3.9576,
      "step": 136420
    },
    {
      "epoch": 0.28422916666666664,
      "grad_norm": 0.7864912748336792,
      "learning_rate": 0.0002451647080831139,
      "loss": 3.824,
      "step": 136430
    },
    {
      "epoch": 0.28425,
      "grad_norm": 0.6945728659629822,
      "learning_rate": 0.00024515708742030924,
      "loss": 3.9257,
      "step": 136440
    },
    {
      "epoch": 0.2842708333333333,
      "grad_norm": 0.775587260723114,
      "learning_rate": 0.0002451494663464637,
      "loss": 3.912,
      "step": 136450
    },
    {
      "epoch": 0.28429166666666666,
      "grad_norm": 0.7053690552711487,
      "learning_rate": 0.00024514184486161,
      "loss": 4.0474,
      "step": 136460
    },
    {
      "epoch": 0.2843125,
      "grad_norm": 0.713844358921051,
      "learning_rate": 0.0002451342229657813,
      "loss": 3.7112,
      "step": 136470
    },
    {
      "epoch": 0.2843333333333333,
      "grad_norm": 0.7707213759422302,
      "learning_rate": 0.00024512660065901035,
      "loss": 3.955,
      "step": 136480
    },
    {
      "epoch": 0.2843541666666667,
      "grad_norm": 0.766405463218689,
      "learning_rate": 0.0002451189779413302,
      "loss": 3.7751,
      "step": 136490
    },
    {
      "epoch": 0.284375,
      "grad_norm": 0.6748853921890259,
      "learning_rate": 0.0002451113548127736,
      "loss": 3.8307,
      "step": 136500
    },
    {
      "epoch": 0.28439583333333335,
      "grad_norm": 0.7682759165763855,
      "learning_rate": 0.0002451037312733737,
      "loss": 3.8395,
      "step": 136510
    },
    {
      "epoch": 0.28441666666666665,
      "grad_norm": 0.8803014755249023,
      "learning_rate": 0.0002450961073231633,
      "loss": 3.9515,
      "step": 136520
    },
    {
      "epoch": 0.2844375,
      "grad_norm": 0.7665287256240845,
      "learning_rate": 0.0002450884829621753,
      "loss": 3.9371,
      "step": 136530
    },
    {
      "epoch": 0.2844583333333333,
      "grad_norm": 0.927800178527832,
      "learning_rate": 0.00024508085819044276,
      "loss": 4.0647,
      "step": 136540
    },
    {
      "epoch": 0.28447916666666667,
      "grad_norm": 0.7302156686782837,
      "learning_rate": 0.00024507323300799853,
      "loss": 3.7265,
      "step": 136550
    },
    {
      "epoch": 0.2845,
      "grad_norm": 0.9437031745910645,
      "learning_rate": 0.0002450656074148756,
      "loss": 3.763,
      "step": 136560
    },
    {
      "epoch": 0.28452083333333333,
      "grad_norm": 0.7234334349632263,
      "learning_rate": 0.0002450579814111068,
      "loss": 4.1199,
      "step": 136570
    },
    {
      "epoch": 0.2845416666666667,
      "grad_norm": 0.834208071231842,
      "learning_rate": 0.00024505035499672523,
      "loss": 3.7637,
      "step": 136580
    },
    {
      "epoch": 0.2845625,
      "grad_norm": 0.8659419417381287,
      "learning_rate": 0.00024504272817176367,
      "loss": 3.88,
      "step": 136590
    },
    {
      "epoch": 0.28458333333333335,
      "grad_norm": 0.7984698414802551,
      "learning_rate": 0.00024503510093625523,
      "loss": 3.9516,
      "step": 136600
    },
    {
      "epoch": 0.28460416666666666,
      "grad_norm": 0.8526915907859802,
      "learning_rate": 0.00024502747329023267,
      "loss": 3.9445,
      "step": 136610
    },
    {
      "epoch": 0.284625,
      "grad_norm": 0.7919006943702698,
      "learning_rate": 0.0002450198452337291,
      "loss": 3.8639,
      "step": 136620
    },
    {
      "epoch": 0.2846458333333333,
      "grad_norm": 0.8110539317131042,
      "learning_rate": 0.00024501221676677745,
      "loss": 4.0252,
      "step": 136630
    },
    {
      "epoch": 0.2846666666666667,
      "grad_norm": 0.8736828565597534,
      "learning_rate": 0.00024500458788941055,
      "loss": 3.9275,
      "step": 136640
    },
    {
      "epoch": 0.2846875,
      "grad_norm": 0.8536552786827087,
      "learning_rate": 0.00024499695860166147,
      "loss": 4.0089,
      "step": 136650
    },
    {
      "epoch": 0.28470833333333334,
      "grad_norm": 0.8990949392318726,
      "learning_rate": 0.00024498932890356317,
      "loss": 3.9119,
      "step": 136660
    },
    {
      "epoch": 0.28472916666666664,
      "grad_norm": 0.9915972948074341,
      "learning_rate": 0.00024498169879514855,
      "loss": 3.7016,
      "step": 136670
    },
    {
      "epoch": 0.28475,
      "grad_norm": 0.7729864716529846,
      "learning_rate": 0.00024497406827645054,
      "loss": 3.7998,
      "step": 136680
    },
    {
      "epoch": 0.2847708333333333,
      "grad_norm": 0.8087164163589478,
      "learning_rate": 0.0002449664373475022,
      "loss": 3.8034,
      "step": 136690
    },
    {
      "epoch": 0.28479166666666667,
      "grad_norm": 0.7440228462219238,
      "learning_rate": 0.0002449588060083364,
      "loss": 3.973,
      "step": 136700
    },
    {
      "epoch": 0.2848125,
      "grad_norm": 0.9274183511734009,
      "learning_rate": 0.0002449511742589862,
      "loss": 3.9517,
      "step": 136710
    },
    {
      "epoch": 0.2848333333333333,
      "grad_norm": 0.8155286312103271,
      "learning_rate": 0.00024494354209948446,
      "loss": 3.785,
      "step": 136720
    },
    {
      "epoch": 0.2848541666666667,
      "grad_norm": 1.0937007665634155,
      "learning_rate": 0.0002449359095298642,
      "loss": 3.9829,
      "step": 136730
    },
    {
      "epoch": 0.284875,
      "grad_norm": 0.7713371515274048,
      "learning_rate": 0.0002449282765501584,
      "loss": 3.9924,
      "step": 136740
    },
    {
      "epoch": 0.28489583333333335,
      "grad_norm": 0.7449096441268921,
      "learning_rate": 0.0002449206431604001,
      "loss": 3.7998,
      "step": 136750
    },
    {
      "epoch": 0.28491666666666665,
      "grad_norm": 0.8164101243019104,
      "learning_rate": 0.000244913009360622,
      "loss": 3.7971,
      "step": 136760
    },
    {
      "epoch": 0.2849375,
      "grad_norm": 0.7346318364143372,
      "learning_rate": 0.00024490537515085744,
      "loss": 3.8577,
      "step": 136770
    },
    {
      "epoch": 0.2849583333333333,
      "grad_norm": 1.1977342367172241,
      "learning_rate": 0.0002448977405311392,
      "loss": 3.9277,
      "step": 136780
    },
    {
      "epoch": 0.2849791666666667,
      "grad_norm": 0.7212013006210327,
      "learning_rate": 0.0002448901055015002,
      "loss": 3.7761,
      "step": 136790
    },
    {
      "epoch": 0.285,
      "grad_norm": 0.8931235671043396,
      "learning_rate": 0.0002448824700619736,
      "loss": 3.9785,
      "step": 136800
    },
    {
      "epoch": 0.28502083333333333,
      "grad_norm": 0.7123941779136658,
      "learning_rate": 0.0002448748342125922,
      "loss": 3.8037,
      "step": 136810
    },
    {
      "epoch": 0.2850416666666667,
      "grad_norm": 0.9108388423919678,
      "learning_rate": 0.00024486719795338915,
      "loss": 3.8321,
      "step": 136820
    },
    {
      "epoch": 0.2850625,
      "grad_norm": 0.7235055565834045,
      "learning_rate": 0.0002448595612843973,
      "loss": 4.0796,
      "step": 136830
    },
    {
      "epoch": 0.28508333333333336,
      "grad_norm": 0.7296783328056335,
      "learning_rate": 0.00024485192420564976,
      "loss": 3.7726,
      "step": 136840
    },
    {
      "epoch": 0.28510416666666666,
      "grad_norm": 0.7750581502914429,
      "learning_rate": 0.0002448442867171794,
      "loss": 3.7133,
      "step": 136850
    },
    {
      "epoch": 0.285125,
      "grad_norm": 0.8458831906318665,
      "learning_rate": 0.0002448366488190193,
      "loss": 3.9945,
      "step": 136860
    },
    {
      "epoch": 0.2851458333333333,
      "grad_norm": 0.7241488099098206,
      "learning_rate": 0.0002448290105112024,
      "loss": 3.7701,
      "step": 136870
    },
    {
      "epoch": 0.2851666666666667,
      "grad_norm": 0.7744134664535522,
      "learning_rate": 0.0002448213717937616,
      "loss": 3.8955,
      "step": 136880
    },
    {
      "epoch": 0.2851875,
      "grad_norm": 0.7304642796516418,
      "learning_rate": 0.00024481373266673016,
      "loss": 3.8397,
      "step": 136890
    },
    {
      "epoch": 0.28520833333333334,
      "grad_norm": 0.783126711845398,
      "learning_rate": 0.0002448060931301409,
      "loss": 3.9121,
      "step": 136900
    },
    {
      "epoch": 0.28522916666666664,
      "grad_norm": 0.7369124889373779,
      "learning_rate": 0.00024479845318402683,
      "loss": 3.9456,
      "step": 136910
    },
    {
      "epoch": 0.28525,
      "grad_norm": 0.8426327109336853,
      "learning_rate": 0.0002447908128284209,
      "loss": 3.9067,
      "step": 136920
    },
    {
      "epoch": 0.2852708333333333,
      "grad_norm": 0.7436506748199463,
      "learning_rate": 0.00024478317206335623,
      "loss": 3.8531,
      "step": 136930
    },
    {
      "epoch": 0.28529166666666667,
      "grad_norm": 0.7450503706932068,
      "learning_rate": 0.0002447755308888658,
      "loss": 3.8132,
      "step": 136940
    },
    {
      "epoch": 0.2853125,
      "grad_norm": 0.8964552283287048,
      "learning_rate": 0.0002447678893049826,
      "loss": 3.7899,
      "step": 136950
    },
    {
      "epoch": 0.2853333333333333,
      "grad_norm": 0.8717775344848633,
      "learning_rate": 0.00024476024731173956,
      "loss": 4.1012,
      "step": 136960
    },
    {
      "epoch": 0.2853541666666667,
      "grad_norm": 0.8802753686904907,
      "learning_rate": 0.0002447526049091698,
      "loss": 4.2227,
      "step": 136970
    },
    {
      "epoch": 0.285375,
      "grad_norm": 0.9263078570365906,
      "learning_rate": 0.0002447449620973063,
      "loss": 3.9732,
      "step": 136980
    },
    {
      "epoch": 0.28539583333333335,
      "grad_norm": 0.8797346949577332,
      "learning_rate": 0.00024473731887618205,
      "loss": 3.9031,
      "step": 136990
    },
    {
      "epoch": 0.28541666666666665,
      "grad_norm": 0.9999648928642273,
      "learning_rate": 0.00024472967524583007,
      "loss": 3.8779,
      "step": 137000
    },
    {
      "epoch": 0.28541666666666665,
      "eval_loss": 4.235671043395996,
      "eval_runtime": 10.2208,
      "eval_samples_per_second": 0.978,
      "eval_steps_per_second": 0.294,
      "step": 137000
    },
    {
      "epoch": 0.2854375,
      "grad_norm": 1.0022094249725342,
      "learning_rate": 0.0002447220312062834,
      "loss": 3.9631,
      "step": 137010
    },
    {
      "epoch": 0.2854583333333333,
      "grad_norm": 0.7532473206520081,
      "learning_rate": 0.00024471438675757506,
      "loss": 3.6864,
      "step": 137020
    },
    {
      "epoch": 0.2854791666666667,
      "grad_norm": 0.9605657458305359,
      "learning_rate": 0.00024470674189973807,
      "loss": 4.0085,
      "step": 137030
    },
    {
      "epoch": 0.2855,
      "grad_norm": 0.7282142639160156,
      "learning_rate": 0.0002446990966328054,
      "loss": 3.8574,
      "step": 137040
    },
    {
      "epoch": 0.28552083333333333,
      "grad_norm": 0.7058836817741394,
      "learning_rate": 0.00024469145095681015,
      "loss": 3.8468,
      "step": 137050
    },
    {
      "epoch": 0.2855416666666667,
      "grad_norm": 1.0848686695098877,
      "learning_rate": 0.0002446838048717853,
      "loss": 4.0241,
      "step": 137060
    },
    {
      "epoch": 0.2855625,
      "grad_norm": 0.7266920208930969,
      "learning_rate": 0.00024467615837776396,
      "loss": 3.731,
      "step": 137070
    },
    {
      "epoch": 0.28558333333333336,
      "grad_norm": 0.7791388630867004,
      "learning_rate": 0.000244668511474779,
      "loss": 3.8449,
      "step": 137080
    },
    {
      "epoch": 0.28560416666666666,
      "grad_norm": 0.9035462141036987,
      "learning_rate": 0.00024466086416286356,
      "loss": 3.8486,
      "step": 137090
    },
    {
      "epoch": 0.285625,
      "grad_norm": 0.8202222585678101,
      "learning_rate": 0.0002446532164420507,
      "loss": 3.7621,
      "step": 137100
    },
    {
      "epoch": 0.2856458333333333,
      "grad_norm": 0.8017757534980774,
      "learning_rate": 0.0002446455683123734,
      "loss": 3.8887,
      "step": 137110
    },
    {
      "epoch": 0.2856666666666667,
      "grad_norm": 0.674671471118927,
      "learning_rate": 0.0002446379197738647,
      "loss": 3.8451,
      "step": 137120
    },
    {
      "epoch": 0.2856875,
      "grad_norm": 0.6564379930496216,
      "learning_rate": 0.0002446302708265576,
      "loss": 3.8484,
      "step": 137130
    },
    {
      "epoch": 0.28570833333333334,
      "grad_norm": 0.812936007976532,
      "learning_rate": 0.0002446226214704852,
      "loss": 3.9482,
      "step": 137140
    },
    {
      "epoch": 0.28572916666666665,
      "grad_norm": 0.6616566777229309,
      "learning_rate": 0.0002446149717056806,
      "loss": 4.0046,
      "step": 137150
    },
    {
      "epoch": 0.28575,
      "grad_norm": 0.9172353148460388,
      "learning_rate": 0.0002446073215321767,
      "loss": 4.0383,
      "step": 137160
    },
    {
      "epoch": 0.2857708333333333,
      "grad_norm": 0.8429135084152222,
      "learning_rate": 0.0002445996709500067,
      "loss": 3.729,
      "step": 137170
    },
    {
      "epoch": 0.28579166666666667,
      "grad_norm": 0.9286448955535889,
      "learning_rate": 0.00024459201995920347,
      "loss": 3.8731,
      "step": 137180
    },
    {
      "epoch": 0.2858125,
      "grad_norm": 0.7668994665145874,
      "learning_rate": 0.0002445843685598002,
      "loss": 4.1085,
      "step": 137190
    },
    {
      "epoch": 0.28583333333333333,
      "grad_norm": 0.9802369475364685,
      "learning_rate": 0.00024457671675182986,
      "loss": 3.9628,
      "step": 137200
    },
    {
      "epoch": 0.2858541666666667,
      "grad_norm": 0.7626042366027832,
      "learning_rate": 0.0002445690645353256,
      "loss": 3.884,
      "step": 137210
    },
    {
      "epoch": 0.285875,
      "grad_norm": 0.9891412258148193,
      "learning_rate": 0.00024456141191032043,
      "loss": 3.9603,
      "step": 137220
    },
    {
      "epoch": 0.28589583333333335,
      "grad_norm": 0.7996987104415894,
      "learning_rate": 0.0002445537588768473,
      "loss": 4.0008,
      "step": 137230
    },
    {
      "epoch": 0.28591666666666665,
      "grad_norm": 0.7291988730430603,
      "learning_rate": 0.0002445461054349394,
      "loss": 3.9794,
      "step": 137240
    },
    {
      "epoch": 0.2859375,
      "grad_norm": 0.7134636044502258,
      "learning_rate": 0.0002445384515846298,
      "loss": 4.0111,
      "step": 137250
    },
    {
      "epoch": 0.2859583333333333,
      "grad_norm": 0.9032033085823059,
      "learning_rate": 0.00024453079732595143,
      "loss": 3.7017,
      "step": 137260
    },
    {
      "epoch": 0.2859791666666667,
      "grad_norm": 0.8212566375732422,
      "learning_rate": 0.0002445231426589375,
      "loss": 3.9825,
      "step": 137270
    },
    {
      "epoch": 0.286,
      "grad_norm": 0.6934744715690613,
      "learning_rate": 0.000244515487583621,
      "loss": 3.8813,
      "step": 137280
    },
    {
      "epoch": 0.28602083333333334,
      "grad_norm": 0.7895721197128296,
      "learning_rate": 0.00024450783210003496,
      "loss": 4.0059,
      "step": 137290
    },
    {
      "epoch": 0.2860416666666667,
      "grad_norm": 0.7678810954093933,
      "learning_rate": 0.0002445001762082125,
      "loss": 3.9584,
      "step": 137300
    },
    {
      "epoch": 0.2860625,
      "grad_norm": 0.7311771512031555,
      "learning_rate": 0.0002444925199081867,
      "loss": 3.9231,
      "step": 137310
    },
    {
      "epoch": 0.28608333333333336,
      "grad_norm": 0.8574523329734802,
      "learning_rate": 0.00024448486319999065,
      "loss": 3.9868,
      "step": 137320
    },
    {
      "epoch": 0.28610416666666666,
      "grad_norm": 0.881001353263855,
      "learning_rate": 0.00024447720608365735,
      "loss": 3.9325,
      "step": 137330
    },
    {
      "epoch": 0.286125,
      "grad_norm": 0.869366466999054,
      "learning_rate": 0.00024446954855921995,
      "loss": 3.9872,
      "step": 137340
    },
    {
      "epoch": 0.2861458333333333,
      "grad_norm": 0.6884207725524902,
      "learning_rate": 0.00024446189062671145,
      "loss": 4.0171,
      "step": 137350
    },
    {
      "epoch": 0.2861666666666667,
      "grad_norm": 0.7827367186546326,
      "learning_rate": 0.00024445423228616504,
      "loss": 4.0676,
      "step": 137360
    },
    {
      "epoch": 0.2861875,
      "grad_norm": 0.8175660967826843,
      "learning_rate": 0.00024444657353761367,
      "loss": 3.8542,
      "step": 137370
    },
    {
      "epoch": 0.28620833333333334,
      "grad_norm": 0.7950779795646667,
      "learning_rate": 0.00024443891438109046,
      "loss": 3.8679,
      "step": 137380
    },
    {
      "epoch": 0.28622916666666665,
      "grad_norm": 0.9681724309921265,
      "learning_rate": 0.0002444312548166286,
      "loss": 4.0205,
      "step": 137390
    },
    {
      "epoch": 0.28625,
      "grad_norm": 0.7276123762130737,
      "learning_rate": 0.00024442359484426105,
      "loss": 3.6592,
      "step": 137400
    },
    {
      "epoch": 0.2862708333333333,
      "grad_norm": 0.7401350736618042,
      "learning_rate": 0.00024441593446402097,
      "loss": 3.8198,
      "step": 137410
    },
    {
      "epoch": 0.28629166666666667,
      "grad_norm": 0.8060923218727112,
      "learning_rate": 0.00024440827367594144,
      "loss": 3.855,
      "step": 137420
    },
    {
      "epoch": 0.2863125,
      "grad_norm": 0.8754780888557434,
      "learning_rate": 0.00024440061248005553,
      "loss": 3.9173,
      "step": 137430
    },
    {
      "epoch": 0.28633333333333333,
      "grad_norm": 0.7099171280860901,
      "learning_rate": 0.0002443929508763963,
      "loss": 3.9681,
      "step": 137440
    },
    {
      "epoch": 0.2863541666666667,
      "grad_norm": 0.7953276038169861,
      "learning_rate": 0.0002443852888649969,
      "loss": 3.8521,
      "step": 137450
    },
    {
      "epoch": 0.286375,
      "grad_norm": 0.7890026569366455,
      "learning_rate": 0.00024437762644589044,
      "loss": 3.9168,
      "step": 137460
    },
    {
      "epoch": 0.28639583333333335,
      "grad_norm": 0.8757172226905823,
      "learning_rate": 0.00024436996361911,
      "loss": 3.9147,
      "step": 137470
    },
    {
      "epoch": 0.28641666666666665,
      "grad_norm": 0.7503722310066223,
      "learning_rate": 0.00024436230038468856,
      "loss": 3.7692,
      "step": 137480
    },
    {
      "epoch": 0.2864375,
      "grad_norm": 0.6856278777122498,
      "learning_rate": 0.0002443546367426595,
      "loss": 3.8093,
      "step": 137490
    },
    {
      "epoch": 0.2864583333333333,
      "grad_norm": 0.6747648119926453,
      "learning_rate": 0.00024434697269305565,
      "loss": 3.8651,
      "step": 137500
    },
    {
      "epoch": 0.2864791666666667,
      "grad_norm": 0.7176569700241089,
      "learning_rate": 0.00024433930823591026,
      "loss": 3.7198,
      "step": 137510
    },
    {
      "epoch": 0.2865,
      "grad_norm": 0.8360912203788757,
      "learning_rate": 0.00024433164337125636,
      "loss": 4.1612,
      "step": 137520
    },
    {
      "epoch": 0.28652083333333334,
      "grad_norm": 0.8770419359207153,
      "learning_rate": 0.00024432397809912715,
      "loss": 3.7983,
      "step": 137530
    },
    {
      "epoch": 0.28654166666666664,
      "grad_norm": 0.7029489278793335,
      "learning_rate": 0.0002443163124195556,
      "loss": 3.9357,
      "step": 137540
    },
    {
      "epoch": 0.2865625,
      "grad_norm": 0.7894578576087952,
      "learning_rate": 0.000244308646332575,
      "loss": 3.9978,
      "step": 137550
    },
    {
      "epoch": 0.28658333333333336,
      "grad_norm": 0.7583858370780945,
      "learning_rate": 0.0002443009798382184,
      "loss": 3.9795,
      "step": 137560
    },
    {
      "epoch": 0.28660416666666666,
      "grad_norm": 0.8458813428878784,
      "learning_rate": 0.00024429331293651885,
      "loss": 4.0591,
      "step": 137570
    },
    {
      "epoch": 0.286625,
      "grad_norm": 0.8018326163291931,
      "learning_rate": 0.00024428564562750947,
      "loss": 4.0016,
      "step": 137580
    },
    {
      "epoch": 0.2866458333333333,
      "grad_norm": 0.8527501225471497,
      "learning_rate": 0.0002442779779112235,
      "loss": 3.9345,
      "step": 137590
    },
    {
      "epoch": 0.2866666666666667,
      "grad_norm": 0.7853625416755676,
      "learning_rate": 0.00024427030978769397,
      "loss": 4.0211,
      "step": 137600
    },
    {
      "epoch": 0.2866875,
      "grad_norm": 0.7637893557548523,
      "learning_rate": 0.000244262641256954,
      "loss": 3.8982,
      "step": 137610
    },
    {
      "epoch": 0.28670833333333334,
      "grad_norm": 0.7223815321922302,
      "learning_rate": 0.0002442549723190367,
      "loss": 3.9456,
      "step": 137620
    },
    {
      "epoch": 0.28672916666666665,
      "grad_norm": 0.8220368027687073,
      "learning_rate": 0.0002442473029739753,
      "loss": 3.883,
      "step": 137630
    },
    {
      "epoch": 0.28675,
      "grad_norm": 0.8349913954734802,
      "learning_rate": 0.0002442396332218028,
      "loss": 4.0064,
      "step": 137640
    },
    {
      "epoch": 0.2867708333333333,
      "grad_norm": 0.9125717878341675,
      "learning_rate": 0.00024423196306255237,
      "loss": 4.0962,
      "step": 137650
    },
    {
      "epoch": 0.28679166666666667,
      "grad_norm": 0.7998833060264587,
      "learning_rate": 0.0002442242924962572,
      "loss": 3.967,
      "step": 137660
    },
    {
      "epoch": 0.2868125,
      "grad_norm": 0.828202486038208,
      "learning_rate": 0.0002442166215229504,
      "loss": 3.778,
      "step": 137670
    },
    {
      "epoch": 0.28683333333333333,
      "grad_norm": 0.6969061493873596,
      "learning_rate": 0.00024420895014266506,
      "loss": 3.955,
      "step": 137680
    },
    {
      "epoch": 0.2868541666666667,
      "grad_norm": 0.6536150574684143,
      "learning_rate": 0.0002442012783554343,
      "loss": 3.888,
      "step": 137690
    },
    {
      "epoch": 0.286875,
      "grad_norm": 0.8378776907920837,
      "learning_rate": 0.0002441936061612914,
      "loss": 3.88,
      "step": 137700
    },
    {
      "epoch": 0.28689583333333335,
      "grad_norm": 0.8568518757820129,
      "learning_rate": 0.0002441859335602693,
      "loss": 3.9241,
      "step": 137710
    },
    {
      "epoch": 0.28691666666666665,
      "grad_norm": 0.8199082612991333,
      "learning_rate": 0.00024417826055240133,
      "loss": 3.8147,
      "step": 137720
    },
    {
      "epoch": 0.2869375,
      "grad_norm": 0.7390370965003967,
      "learning_rate": 0.0002441705871377206,
      "loss": 3.937,
      "step": 137730
    },
    {
      "epoch": 0.2869583333333333,
      "grad_norm": 0.7011817097663879,
      "learning_rate": 0.0002441629133162601,
      "loss": 3.827,
      "step": 137740
    },
    {
      "epoch": 0.2869791666666667,
      "grad_norm": 0.805828869342804,
      "learning_rate": 0.00024415523908805314,
      "loss": 4.0495,
      "step": 137750
    },
    {
      "epoch": 0.287,
      "grad_norm": 0.7849783897399902,
      "learning_rate": 0.0002441475644531328,
      "loss": 3.7998,
      "step": 137760
    },
    {
      "epoch": 0.28702083333333334,
      "grad_norm": 0.7454816699028015,
      "learning_rate": 0.00024413988941153223,
      "loss": 3.7777,
      "step": 137770
    },
    {
      "epoch": 0.28704166666666664,
      "grad_norm": 0.8828131556510925,
      "learning_rate": 0.00024413221396328463,
      "loss": 4.0438,
      "step": 137780
    },
    {
      "epoch": 0.2870625,
      "grad_norm": 0.9968777298927307,
      "learning_rate": 0.0002441245381084231,
      "loss": 3.8237,
      "step": 137790
    },
    {
      "epoch": 0.28708333333333336,
      "grad_norm": 0.7923646569252014,
      "learning_rate": 0.00024411686184698083,
      "loss": 3.8271,
      "step": 137800
    },
    {
      "epoch": 0.28710416666666666,
      "grad_norm": 0.7095107436180115,
      "learning_rate": 0.00024410918517899101,
      "loss": 4.0117,
      "step": 137810
    },
    {
      "epoch": 0.287125,
      "grad_norm": 0.8674741983413696,
      "learning_rate": 0.0002441015081044867,
      "loss": 3.8683,
      "step": 137820
    },
    {
      "epoch": 0.2871458333333333,
      "grad_norm": 0.7278321981430054,
      "learning_rate": 0.00024409383062350113,
      "loss": 3.8588,
      "step": 137830
    },
    {
      "epoch": 0.2871666666666667,
      "grad_norm": 0.7342334389686584,
      "learning_rate": 0.00024408615273606752,
      "loss": 3.7566,
      "step": 137840
    },
    {
      "epoch": 0.2871875,
      "grad_norm": 0.8908171057701111,
      "learning_rate": 0.0002440784744422189,
      "loss": 3.8713,
      "step": 137850
    },
    {
      "epoch": 0.28720833333333334,
      "grad_norm": 0.8141641616821289,
      "learning_rate": 0.0002440707957419886,
      "loss": 3.9799,
      "step": 137860
    },
    {
      "epoch": 0.28722916666666665,
      "grad_norm": 0.6700426936149597,
      "learning_rate": 0.00024406311663540962,
      "loss": 3.9001,
      "step": 137870
    },
    {
      "epoch": 0.28725,
      "grad_norm": 0.7422057390213013,
      "learning_rate": 0.00024405543712251523,
      "loss": 3.9559,
      "step": 137880
    },
    {
      "epoch": 0.2872708333333333,
      "grad_norm": 0.8203904628753662,
      "learning_rate": 0.00024404775720333855,
      "loss": 3.8718,
      "step": 137890
    },
    {
      "epoch": 0.28729166666666667,
      "grad_norm": 0.7694631814956665,
      "learning_rate": 0.00024404007687791284,
      "loss": 3.8549,
      "step": 137900
    },
    {
      "epoch": 0.2873125,
      "grad_norm": 0.7284468412399292,
      "learning_rate": 0.00024403239614627118,
      "loss": 3.8038,
      "step": 137910
    },
    {
      "epoch": 0.28733333333333333,
      "grad_norm": 0.7546306848526001,
      "learning_rate": 0.0002440247150084468,
      "loss": 3.8782,
      "step": 137920
    },
    {
      "epoch": 0.2873541666666667,
      "grad_norm": 0.8255327343940735,
      "learning_rate": 0.00024401703346447288,
      "loss": 3.9408,
      "step": 137930
    },
    {
      "epoch": 0.287375,
      "grad_norm": 0.9647824764251709,
      "learning_rate": 0.0002440093515143826,
      "loss": 3.7499,
      "step": 137940
    },
    {
      "epoch": 0.28739583333333335,
      "grad_norm": 0.7503395676612854,
      "learning_rate": 0.00024400166915820913,
      "loss": 3.8692,
      "step": 137950
    },
    {
      "epoch": 0.28741666666666665,
      "grad_norm": 0.6001267433166504,
      "learning_rate": 0.00024399398639598564,
      "loss": 3.8996,
      "step": 137960
    },
    {
      "epoch": 0.2874375,
      "grad_norm": 0.8089949488639832,
      "learning_rate": 0.0002439863032277453,
      "loss": 3.8402,
      "step": 137970
    },
    {
      "epoch": 0.2874583333333333,
      "grad_norm": 0.7668039202690125,
      "learning_rate": 0.00024397861965352145,
      "loss": 3.8409,
      "step": 137980
    },
    {
      "epoch": 0.2874791666666667,
      "grad_norm": 0.6709935665130615,
      "learning_rate": 0.00024397093567334703,
      "loss": 3.8844,
      "step": 137990
    },
    {
      "epoch": 0.2875,
      "grad_norm": 0.7303364872932434,
      "learning_rate": 0.00024396325128725542,
      "loss": 3.6715,
      "step": 138000
    },
    {
      "epoch": 0.2875,
      "eval_loss": 4.233199119567871,
      "eval_runtime": 10.0669,
      "eval_samples_per_second": 0.993,
      "eval_steps_per_second": 0.298,
      "step": 138000
    },
    {
      "epoch": 0.28752083333333334,
      "grad_norm": 0.9137221574783325,
      "learning_rate": 0.00024395556649527974,
      "loss": 3.9596,
      "step": 138010
    },
    {
      "epoch": 0.28754166666666664,
      "grad_norm": 0.8966299891471863,
      "learning_rate": 0.00024394788129745326,
      "loss": 3.6356,
      "step": 138020
    },
    {
      "epoch": 0.2875625,
      "grad_norm": 0.7598316073417664,
      "learning_rate": 0.00024394019569380906,
      "loss": 4.0762,
      "step": 138030
    },
    {
      "epoch": 0.28758333333333336,
      "grad_norm": 0.8202336430549622,
      "learning_rate": 0.0002439325096843804,
      "loss": 3.8487,
      "step": 138040
    },
    {
      "epoch": 0.28760416666666666,
      "grad_norm": 0.7815547585487366,
      "learning_rate": 0.00024392482326920052,
      "loss": 4.0053,
      "step": 138050
    },
    {
      "epoch": 0.287625,
      "grad_norm": 0.8336294889450073,
      "learning_rate": 0.00024391713644830257,
      "loss": 3.8189,
      "step": 138060
    },
    {
      "epoch": 0.2876458333333333,
      "grad_norm": 0.7568764686584473,
      "learning_rate": 0.00024390944922171974,
      "loss": 3.8981,
      "step": 138070
    },
    {
      "epoch": 0.2876666666666667,
      "grad_norm": 0.7605885863304138,
      "learning_rate": 0.00024390176158948525,
      "loss": 3.8865,
      "step": 138080
    },
    {
      "epoch": 0.2876875,
      "grad_norm": 0.8164055347442627,
      "learning_rate": 0.00024389407355163237,
      "loss": 3.9136,
      "step": 138090
    },
    {
      "epoch": 0.28770833333333334,
      "grad_norm": 0.7356888651847839,
      "learning_rate": 0.00024388638510819424,
      "loss": 3.8412,
      "step": 138100
    },
    {
      "epoch": 0.28772916666666665,
      "grad_norm": 0.7765897512435913,
      "learning_rate": 0.00024387869625920407,
      "loss": 3.9183,
      "step": 138110
    },
    {
      "epoch": 0.28775,
      "grad_norm": 0.8178598880767822,
      "learning_rate": 0.00024387100700469513,
      "loss": 3.7919,
      "step": 138120
    },
    {
      "epoch": 0.2877708333333333,
      "grad_norm": 0.7296810150146484,
      "learning_rate": 0.00024386331734470057,
      "loss": 3.8515,
      "step": 138130
    },
    {
      "epoch": 0.28779166666666667,
      "grad_norm": 0.8105780482292175,
      "learning_rate": 0.0002438556272792536,
      "loss": 3.8384,
      "step": 138140
    },
    {
      "epoch": 0.2878125,
      "grad_norm": 0.8521139025688171,
      "learning_rate": 0.00024384793680838754,
      "loss": 3.876,
      "step": 138150
    },
    {
      "epoch": 0.28783333333333333,
      "grad_norm": 0.8376750349998474,
      "learning_rate": 0.0002438402459321355,
      "loss": 3.7255,
      "step": 138160
    },
    {
      "epoch": 0.2878541666666667,
      "grad_norm": 0.6736060380935669,
      "learning_rate": 0.00024383255465053072,
      "loss": 3.9398,
      "step": 138170
    },
    {
      "epoch": 0.287875,
      "grad_norm": 0.7400938272476196,
      "learning_rate": 0.00024382486296360651,
      "loss": 3.9649,
      "step": 138180
    },
    {
      "epoch": 0.28789583333333335,
      "grad_norm": 0.8239027857780457,
      "learning_rate": 0.00024381717087139599,
      "loss": 3.9346,
      "step": 138190
    },
    {
      "epoch": 0.28791666666666665,
      "grad_norm": 0.7697859406471252,
      "learning_rate": 0.00024380947837393237,
      "loss": 3.8633,
      "step": 138200
    },
    {
      "epoch": 0.2879375,
      "grad_norm": 0.6768129467964172,
      "learning_rate": 0.00024380178547124903,
      "loss": 3.7374,
      "step": 138210
    },
    {
      "epoch": 0.2879583333333333,
      "grad_norm": 0.814587414264679,
      "learning_rate": 0.00024379409216337906,
      "loss": 3.9828,
      "step": 138220
    },
    {
      "epoch": 0.2879791666666667,
      "grad_norm": 0.7929084300994873,
      "learning_rate": 0.00024378639845035579,
      "loss": 4.0145,
      "step": 138230
    },
    {
      "epoch": 0.288,
      "grad_norm": 0.811228334903717,
      "learning_rate": 0.00024377870433221231,
      "loss": 3.9296,
      "step": 138240
    },
    {
      "epoch": 0.28802083333333334,
      "grad_norm": 0.7263697981834412,
      "learning_rate": 0.00024377100980898202,
      "loss": 3.9456,
      "step": 138250
    },
    {
      "epoch": 0.28804166666666664,
      "grad_norm": 0.9458587169647217,
      "learning_rate": 0.00024376331488069804,
      "loss": 3.9159,
      "step": 138260
    },
    {
      "epoch": 0.2880625,
      "grad_norm": 0.7172942161560059,
      "learning_rate": 0.0002437556195473937,
      "loss": 3.8626,
      "step": 138270
    },
    {
      "epoch": 0.28808333333333336,
      "grad_norm": 0.7410629987716675,
      "learning_rate": 0.00024374792380910218,
      "loss": 3.8212,
      "step": 138280
    },
    {
      "epoch": 0.28810416666666666,
      "grad_norm": 0.7655424475669861,
      "learning_rate": 0.00024374022766585676,
      "loss": 4.0485,
      "step": 138290
    },
    {
      "epoch": 0.288125,
      "grad_norm": 0.8554345369338989,
      "learning_rate": 0.00024373253111769058,
      "loss": 3.9104,
      "step": 138300
    },
    {
      "epoch": 0.2881458333333333,
      "grad_norm": 0.7116037011146545,
      "learning_rate": 0.00024372483416463704,
      "loss": 3.9545,
      "step": 138310
    },
    {
      "epoch": 0.2881666666666667,
      "grad_norm": 0.7995613217353821,
      "learning_rate": 0.00024371713680672931,
      "loss": 3.8832,
      "step": 138320
    },
    {
      "epoch": 0.2881875,
      "grad_norm": 0.7025057077407837,
      "learning_rate": 0.0002437094390440006,
      "loss": 3.9043,
      "step": 138330
    },
    {
      "epoch": 0.28820833333333334,
      "grad_norm": 0.7854443788528442,
      "learning_rate": 0.00024370174087648422,
      "loss": 3.7922,
      "step": 138340
    },
    {
      "epoch": 0.28822916666666665,
      "grad_norm": 0.7425994873046875,
      "learning_rate": 0.00024369404230421344,
      "loss": 3.9535,
      "step": 138350
    },
    {
      "epoch": 0.28825,
      "grad_norm": 0.8156178593635559,
      "learning_rate": 0.00024368634332722148,
      "loss": 3.8015,
      "step": 138360
    },
    {
      "epoch": 0.2882708333333333,
      "grad_norm": 0.748370885848999,
      "learning_rate": 0.0002436786439455416,
      "loss": 3.952,
      "step": 138370
    },
    {
      "epoch": 0.28829166666666667,
      "grad_norm": 0.7881497144699097,
      "learning_rate": 0.000243670944159207,
      "loss": 3.8764,
      "step": 138380
    },
    {
      "epoch": 0.2883125,
      "grad_norm": 0.7540528774261475,
      "learning_rate": 0.00024366324396825107,
      "loss": 4.0767,
      "step": 138390
    },
    {
      "epoch": 0.28833333333333333,
      "grad_norm": 0.9541378617286682,
      "learning_rate": 0.00024365554337270697,
      "loss": 3.873,
      "step": 138400
    },
    {
      "epoch": 0.2883541666666667,
      "grad_norm": 0.80631023645401,
      "learning_rate": 0.000243647842372608,
      "loss": 3.8421,
      "step": 138410
    },
    {
      "epoch": 0.288375,
      "grad_norm": 0.7156879901885986,
      "learning_rate": 0.0002436401409679874,
      "loss": 3.95,
      "step": 138420
    },
    {
      "epoch": 0.28839583333333335,
      "grad_norm": 0.7454984784126282,
      "learning_rate": 0.0002436324391588785,
      "loss": 3.789,
      "step": 138430
    },
    {
      "epoch": 0.28841666666666665,
      "grad_norm": 1.0581188201904297,
      "learning_rate": 0.00024362473694531452,
      "loss": 4.1436,
      "step": 138440
    },
    {
      "epoch": 0.2884375,
      "grad_norm": 0.8336156606674194,
      "learning_rate": 0.0002436170343273287,
      "loss": 3.8365,
      "step": 138450
    },
    {
      "epoch": 0.2884583333333333,
      "grad_norm": 0.7886384725570679,
      "learning_rate": 0.00024360933130495436,
      "loss": 3.994,
      "step": 138460
    },
    {
      "epoch": 0.2884791666666667,
      "grad_norm": 0.8110909461975098,
      "learning_rate": 0.00024360162787822476,
      "loss": 3.9957,
      "step": 138470
    },
    {
      "epoch": 0.2885,
      "grad_norm": 0.7616660594940186,
      "learning_rate": 0.0002435939240471732,
      "loss": 3.8519,
      "step": 138480
    },
    {
      "epoch": 0.28852083333333334,
      "grad_norm": 0.779921293258667,
      "learning_rate": 0.00024358621981183292,
      "loss": 4.0754,
      "step": 138490
    },
    {
      "epoch": 0.28854166666666664,
      "grad_norm": 0.7675566077232361,
      "learning_rate": 0.0002435785151722372,
      "loss": 3.7156,
      "step": 138500
    },
    {
      "epoch": 0.2885625,
      "grad_norm": 0.7765588164329529,
      "learning_rate": 0.00024357081012841935,
      "loss": 3.8746,
      "step": 138510
    },
    {
      "epoch": 0.28858333333333336,
      "grad_norm": 0.6873660087585449,
      "learning_rate": 0.0002435631046804126,
      "loss": 3.8763,
      "step": 138520
    },
    {
      "epoch": 0.28860416666666666,
      "grad_norm": 0.6998744010925293,
      "learning_rate": 0.00024355539882825033,
      "loss": 3.8499,
      "step": 138530
    },
    {
      "epoch": 0.288625,
      "grad_norm": 0.6702480912208557,
      "learning_rate": 0.00024354769257196578,
      "loss": 3.9702,
      "step": 138540
    },
    {
      "epoch": 0.2886458333333333,
      "grad_norm": 0.7236742973327637,
      "learning_rate": 0.00024353998591159217,
      "loss": 3.9394,
      "step": 138550
    },
    {
      "epoch": 0.2886666666666667,
      "grad_norm": 0.8520685434341431,
      "learning_rate": 0.00024353227884716292,
      "loss": 3.8283,
      "step": 138560
    },
    {
      "epoch": 0.2886875,
      "grad_norm": 0.6604772210121155,
      "learning_rate": 0.00024352457137871117,
      "loss": 4.0221,
      "step": 138570
    },
    {
      "epoch": 0.28870833333333334,
      "grad_norm": 0.8402461409568787,
      "learning_rate": 0.00024351686350627033,
      "loss": 4.0024,
      "step": 138580
    },
    {
      "epoch": 0.28872916666666665,
      "grad_norm": 0.7435330748558044,
      "learning_rate": 0.00024350915522987362,
      "loss": 3.937,
      "step": 138590
    },
    {
      "epoch": 0.28875,
      "grad_norm": 0.7281457185745239,
      "learning_rate": 0.0002435014465495544,
      "loss": 3.8474,
      "step": 138600
    },
    {
      "epoch": 0.2887708333333333,
      "grad_norm": 0.8635866641998291,
      "learning_rate": 0.00024349373746534596,
      "loss": 3.9343,
      "step": 138610
    },
    {
      "epoch": 0.28879166666666667,
      "grad_norm": 0.8438203930854797,
      "learning_rate": 0.00024348602797728155,
      "loss": 3.7866,
      "step": 138620
    },
    {
      "epoch": 0.2888125,
      "grad_norm": 0.7604734897613525,
      "learning_rate": 0.00024347831808539455,
      "loss": 3.9152,
      "step": 138630
    },
    {
      "epoch": 0.28883333333333333,
      "grad_norm": 0.8482592701911926,
      "learning_rate": 0.00024347060778971816,
      "loss": 3.891,
      "step": 138640
    },
    {
      "epoch": 0.2888541666666667,
      "grad_norm": 0.7200841307640076,
      "learning_rate": 0.00024346289709028577,
      "loss": 3.8242,
      "step": 138650
    },
    {
      "epoch": 0.288875,
      "grad_norm": 0.7947090268135071,
      "learning_rate": 0.00024345518598713068,
      "loss": 3.8294,
      "step": 138660
    },
    {
      "epoch": 0.28889583333333335,
      "grad_norm": 0.7065472602844238,
      "learning_rate": 0.00024344747448028613,
      "loss": 3.9013,
      "step": 138670
    },
    {
      "epoch": 0.28891666666666665,
      "grad_norm": 0.8082665205001831,
      "learning_rate": 0.00024343976256978553,
      "loss": 4.0207,
      "step": 138680
    },
    {
      "epoch": 0.2889375,
      "grad_norm": 0.7134546637535095,
      "learning_rate": 0.0002434320502556621,
      "loss": 3.9117,
      "step": 138690
    },
    {
      "epoch": 0.2889583333333333,
      "grad_norm": 0.8335888981819153,
      "learning_rate": 0.0002434243375379492,
      "loss": 3.8998,
      "step": 138700
    },
    {
      "epoch": 0.2889791666666667,
      "grad_norm": 0.7324604988098145,
      "learning_rate": 0.00024341662441668016,
      "loss": 3.911,
      "step": 138710
    },
    {
      "epoch": 0.289,
      "grad_norm": 0.933992862701416,
      "learning_rate": 0.00024340891089188826,
      "loss": 3.8421,
      "step": 138720
    },
    {
      "epoch": 0.28902083333333334,
      "grad_norm": 0.8163931369781494,
      "learning_rate": 0.00024340119696360685,
      "loss": 4.0282,
      "step": 138730
    },
    {
      "epoch": 0.28904166666666664,
      "grad_norm": 0.7582767009735107,
      "learning_rate": 0.00024339348263186924,
      "loss": 3.8298,
      "step": 138740
    },
    {
      "epoch": 0.2890625,
      "grad_norm": 0.7494589686393738,
      "learning_rate": 0.00024338576789670875,
      "loss": 3.6335,
      "step": 138750
    },
    {
      "epoch": 0.28908333333333336,
      "grad_norm": 0.7401353120803833,
      "learning_rate": 0.00024337805275815872,
      "loss": 3.9844,
      "step": 138760
    },
    {
      "epoch": 0.28910416666666666,
      "grad_norm": 0.6799216270446777,
      "learning_rate": 0.00024337033721625248,
      "loss": 3.7603,
      "step": 138770
    },
    {
      "epoch": 0.289125,
      "grad_norm": 0.6818804144859314,
      "learning_rate": 0.0002433626212710233,
      "loss": 3.9087,
      "step": 138780
    },
    {
      "epoch": 0.2891458333333333,
      "grad_norm": 0.905340850353241,
      "learning_rate": 0.00024335490492250457,
      "loss": 3.7912,
      "step": 138790
    },
    {
      "epoch": 0.2891666666666667,
      "grad_norm": 0.7088428735733032,
      "learning_rate": 0.0002433471881707296,
      "loss": 3.9167,
      "step": 138800
    },
    {
      "epoch": 0.2891875,
      "grad_norm": 0.8036535382270813,
      "learning_rate": 0.00024333947101573173,
      "loss": 3.7204,
      "step": 138810
    },
    {
      "epoch": 0.28920833333333335,
      "grad_norm": 0.7365301251411438,
      "learning_rate": 0.00024333175345754433,
      "loss": 3.8002,
      "step": 138820
    },
    {
      "epoch": 0.28922916666666665,
      "grad_norm": 0.6981449127197266,
      "learning_rate": 0.00024332403549620063,
      "loss": 4.1126,
      "step": 138830
    },
    {
      "epoch": 0.28925,
      "grad_norm": 0.7617499828338623,
      "learning_rate": 0.00024331631713173408,
      "loss": 3.9132,
      "step": 138840
    },
    {
      "epoch": 0.2892708333333333,
      "grad_norm": 0.8825634717941284,
      "learning_rate": 0.00024330859836417794,
      "loss": 3.8703,
      "step": 138850
    },
    {
      "epoch": 0.28929166666666667,
      "grad_norm": 0.7540954947471619,
      "learning_rate": 0.0002433008791935656,
      "loss": 3.936,
      "step": 138860
    },
    {
      "epoch": 0.2893125,
      "grad_norm": 0.7066934704780579,
      "learning_rate": 0.0002432931596199304,
      "loss": 3.9864,
      "step": 138870
    },
    {
      "epoch": 0.28933333333333333,
      "grad_norm": 1.0368306636810303,
      "learning_rate": 0.0002432854396433057,
      "loss": 4.0013,
      "step": 138880
    },
    {
      "epoch": 0.2893541666666667,
      "grad_norm": 0.7925239205360413,
      "learning_rate": 0.0002432777192637248,
      "loss": 3.8993,
      "step": 138890
    },
    {
      "epoch": 0.289375,
      "grad_norm": 0.757136881351471,
      "learning_rate": 0.00024326999848122108,
      "loss": 3.9387,
      "step": 138900
    },
    {
      "epoch": 0.28939583333333335,
      "grad_norm": 0.7672238945960999,
      "learning_rate": 0.0002432622772958279,
      "loss": 3.8106,
      "step": 138910
    },
    {
      "epoch": 0.28941666666666666,
      "grad_norm": 0.7652164101600647,
      "learning_rate": 0.00024325455570757857,
      "loss": 3.931,
      "step": 138920
    },
    {
      "epoch": 0.2894375,
      "grad_norm": 0.7633220553398132,
      "learning_rate": 0.0002432468337165065,
      "loss": 3.9686,
      "step": 138930
    },
    {
      "epoch": 0.2894583333333333,
      "grad_norm": 0.8511950969696045,
      "learning_rate": 0.000243239111322645,
      "loss": 4.046,
      "step": 138940
    },
    {
      "epoch": 0.2894791666666667,
      "grad_norm": 0.7012831568717957,
      "learning_rate": 0.00024323138852602746,
      "loss": 3.843,
      "step": 138950
    },
    {
      "epoch": 0.2895,
      "grad_norm": 0.7629197835922241,
      "learning_rate": 0.0002432236653266872,
      "loss": 3.7015,
      "step": 138960
    },
    {
      "epoch": 0.28952083333333334,
      "grad_norm": 0.8124876618385315,
      "learning_rate": 0.00024321594172465767,
      "loss": 3.9478,
      "step": 138970
    },
    {
      "epoch": 0.28954166666666664,
      "grad_norm": 0.9912405014038086,
      "learning_rate": 0.0002432082177199721,
      "loss": 4.0004,
      "step": 138980
    },
    {
      "epoch": 0.2895625,
      "grad_norm": 0.741025447845459,
      "learning_rate": 0.00024320049331266397,
      "loss": 3.9261,
      "step": 138990
    },
    {
      "epoch": 0.28958333333333336,
      "grad_norm": 0.8794702887535095,
      "learning_rate": 0.00024319276850276654,
      "loss": 3.8978,
      "step": 139000
    },
    {
      "epoch": 0.28958333333333336,
      "eval_loss": 4.2228240966796875,
      "eval_runtime": 9.6355,
      "eval_samples_per_second": 1.038,
      "eval_steps_per_second": 0.311,
      "step": 139000
    },
    {
      "epoch": 0.28960416666666666,
      "grad_norm": 0.7391228079795837,
      "learning_rate": 0.00024318504329031327,
      "loss": 4.0501,
      "step": 139010
    },
    {
      "epoch": 0.289625,
      "grad_norm": 0.8324344158172607,
      "learning_rate": 0.00024317731767533753,
      "loss": 3.8247,
      "step": 139020
    },
    {
      "epoch": 0.2896458333333333,
      "grad_norm": 0.7874330282211304,
      "learning_rate": 0.0002431695916578726,
      "loss": 3.9537,
      "step": 139030
    },
    {
      "epoch": 0.2896666666666667,
      "grad_norm": 0.7439632415771484,
      "learning_rate": 0.00024316186523795194,
      "loss": 3.9294,
      "step": 139040
    },
    {
      "epoch": 0.2896875,
      "grad_norm": 0.7588322162628174,
      "learning_rate": 0.0002431541384156089,
      "loss": 3.8563,
      "step": 139050
    },
    {
      "epoch": 0.28970833333333335,
      "grad_norm": 0.7288442254066467,
      "learning_rate": 0.0002431464111908769,
      "loss": 3.8733,
      "step": 139060
    },
    {
      "epoch": 0.28972916666666665,
      "grad_norm": 0.9014606475830078,
      "learning_rate": 0.0002431386835637892,
      "loss": 3.8691,
      "step": 139070
    },
    {
      "epoch": 0.28975,
      "grad_norm": 0.9198623895645142,
      "learning_rate": 0.0002431309555343793,
      "loss": 3.7973,
      "step": 139080
    },
    {
      "epoch": 0.2897708333333333,
      "grad_norm": 0.9705918431282043,
      "learning_rate": 0.00024312322710268053,
      "loss": 3.9326,
      "step": 139090
    },
    {
      "epoch": 0.28979166666666667,
      "grad_norm": 0.7144233584403992,
      "learning_rate": 0.0002431154982687263,
      "loss": 3.8128,
      "step": 139100
    },
    {
      "epoch": 0.2898125,
      "grad_norm": 0.7525800466537476,
      "learning_rate": 0.00024310776903254994,
      "loss": 3.9954,
      "step": 139110
    },
    {
      "epoch": 0.28983333333333333,
      "grad_norm": 0.7880812883377075,
      "learning_rate": 0.00024310003939418483,
      "loss": 4.0431,
      "step": 139120
    },
    {
      "epoch": 0.2898541666666667,
      "grad_norm": 0.7065567970275879,
      "learning_rate": 0.0002430923093536645,
      "loss": 3.6964,
      "step": 139130
    },
    {
      "epoch": 0.289875,
      "grad_norm": 0.8250817060470581,
      "learning_rate": 0.0002430845789110222,
      "loss": 3.8479,
      "step": 139140
    },
    {
      "epoch": 0.28989583333333335,
      "grad_norm": 0.7421286106109619,
      "learning_rate": 0.00024307684806629132,
      "loss": 3.8247,
      "step": 139150
    },
    {
      "epoch": 0.28991666666666666,
      "grad_norm": 0.7329800724983215,
      "learning_rate": 0.00024306911681950538,
      "loss": 3.9922,
      "step": 139160
    },
    {
      "epoch": 0.2899375,
      "grad_norm": 0.6905834674835205,
      "learning_rate": 0.0002430613851706976,
      "loss": 3.9167,
      "step": 139170
    },
    {
      "epoch": 0.2899583333333333,
      "grad_norm": 0.8320784568786621,
      "learning_rate": 0.00024305365311990152,
      "loss": 3.892,
      "step": 139180
    },
    {
      "epoch": 0.2899791666666667,
      "grad_norm": 0.8663868308067322,
      "learning_rate": 0.00024304592066715054,
      "loss": 4.0935,
      "step": 139190
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.760932207107544,
      "learning_rate": 0.00024303818781247794,
      "loss": 3.9881,
      "step": 139200
    },
    {
      "epoch": 0.29002083333333334,
      "grad_norm": 0.6820330619812012,
      "learning_rate": 0.00024303045455591722,
      "loss": 3.7704,
      "step": 139210
    },
    {
      "epoch": 0.29004166666666664,
      "grad_norm": 0.7649697065353394,
      "learning_rate": 0.00024302272089750176,
      "loss": 3.8319,
      "step": 139220
    },
    {
      "epoch": 0.2900625,
      "grad_norm": 0.7723069190979004,
      "learning_rate": 0.00024301498683726498,
      "loss": 3.8582,
      "step": 139230
    },
    {
      "epoch": 0.29008333333333336,
      "grad_norm": 1.1185102462768555,
      "learning_rate": 0.00024300725237524028,
      "loss": 3.8577,
      "step": 139240
    },
    {
      "epoch": 0.29010416666666666,
      "grad_norm": 0.8294806480407715,
      "learning_rate": 0.00024299951751146105,
      "loss": 3.8833,
      "step": 139250
    },
    {
      "epoch": 0.290125,
      "grad_norm": 0.8288686871528625,
      "learning_rate": 0.0002429917822459607,
      "loss": 4.0347,
      "step": 139260
    },
    {
      "epoch": 0.2901458333333333,
      "grad_norm": 0.8807134032249451,
      "learning_rate": 0.0002429840465787727,
      "loss": 3.9047,
      "step": 139270
    },
    {
      "epoch": 0.2901666666666667,
      "grad_norm": 0.8035954833030701,
      "learning_rate": 0.0002429763105099304,
      "loss": 3.9942,
      "step": 139280
    },
    {
      "epoch": 0.2901875,
      "grad_norm": 0.6625998020172119,
      "learning_rate": 0.0002429685740394672,
      "loss": 3.9431,
      "step": 139290
    },
    {
      "epoch": 0.29020833333333335,
      "grad_norm": 0.6758374571800232,
      "learning_rate": 0.00024296083716741665,
      "loss": 3.8406,
      "step": 139300
    },
    {
      "epoch": 0.29022916666666665,
      "grad_norm": 0.7225494980812073,
      "learning_rate": 0.00024295309989381202,
      "loss": 3.8456,
      "step": 139310
    },
    {
      "epoch": 0.29025,
      "grad_norm": 0.8294796347618103,
      "learning_rate": 0.00024294536221868677,
      "loss": 3.941,
      "step": 139320
    },
    {
      "epoch": 0.2902708333333333,
      "grad_norm": 0.7418457269668579,
      "learning_rate": 0.0002429376241420744,
      "loss": 3.8107,
      "step": 139330
    },
    {
      "epoch": 0.29029166666666667,
      "grad_norm": 0.9185358285903931,
      "learning_rate": 0.00024292988566400827,
      "loss": 4.0247,
      "step": 139340
    },
    {
      "epoch": 0.2903125,
      "grad_norm": 0.7436439394950867,
      "learning_rate": 0.00024292214678452178,
      "loss": 3.7269,
      "step": 139350
    },
    {
      "epoch": 0.29033333333333333,
      "grad_norm": 0.7694467306137085,
      "learning_rate": 0.00024291440750364845,
      "loss": 3.8515,
      "step": 139360
    },
    {
      "epoch": 0.2903541666666667,
      "grad_norm": 0.7273733615875244,
      "learning_rate": 0.0002429066678214216,
      "loss": 3.7592,
      "step": 139370
    },
    {
      "epoch": 0.290375,
      "grad_norm": 0.7251418828964233,
      "learning_rate": 0.0002428989277378748,
      "loss": 3.9555,
      "step": 139380
    },
    {
      "epoch": 0.29039583333333335,
      "grad_norm": 1.4593943357467651,
      "learning_rate": 0.00024289118725304135,
      "loss": 4.0245,
      "step": 139390
    },
    {
      "epoch": 0.29041666666666666,
      "grad_norm": 0.8345019221305847,
      "learning_rate": 0.00024288344636695474,
      "loss": 3.8861,
      "step": 139400
    },
    {
      "epoch": 0.2904375,
      "grad_norm": 0.775587260723114,
      "learning_rate": 0.0002428757050796484,
      "loss": 3.8781,
      "step": 139410
    },
    {
      "epoch": 0.2904583333333333,
      "grad_norm": 1.2068963050842285,
      "learning_rate": 0.00024286796339115577,
      "loss": 3.8327,
      "step": 139420
    },
    {
      "epoch": 0.2904791666666667,
      "grad_norm": 0.8619191646575928,
      "learning_rate": 0.00024286022130151034,
      "loss": 4.0567,
      "step": 139430
    },
    {
      "epoch": 0.2905,
      "grad_norm": 0.7086812853813171,
      "learning_rate": 0.00024285247881074547,
      "loss": 4.0826,
      "step": 139440
    },
    {
      "epoch": 0.29052083333333334,
      "grad_norm": 0.7968381643295288,
      "learning_rate": 0.00024284473591889465,
      "loss": 3.8205,
      "step": 139450
    },
    {
      "epoch": 0.29054166666666664,
      "grad_norm": 0.6958435773849487,
      "learning_rate": 0.00024283699262599135,
      "loss": 3.9502,
      "step": 139460
    },
    {
      "epoch": 0.2905625,
      "grad_norm": 0.7479767799377441,
      "learning_rate": 0.000242829248932069,
      "loss": 4.0896,
      "step": 139470
    },
    {
      "epoch": 0.29058333333333336,
      "grad_norm": 0.7893520593643188,
      "learning_rate": 0.00024282150483716103,
      "loss": 3.8385,
      "step": 139480
    },
    {
      "epoch": 0.29060416666666666,
      "grad_norm": 0.7672897577285767,
      "learning_rate": 0.00024281376034130086,
      "loss": 3.9549,
      "step": 139490
    },
    {
      "epoch": 0.290625,
      "grad_norm": 0.7214065194129944,
      "learning_rate": 0.00024280601544452202,
      "loss": 3.9465,
      "step": 139500
    },
    {
      "epoch": 0.2906458333333333,
      "grad_norm": 0.7052217125892639,
      "learning_rate": 0.0002427982701468579,
      "loss": 3.9064,
      "step": 139510
    },
    {
      "epoch": 0.2906666666666667,
      "grad_norm": 0.7610352635383606,
      "learning_rate": 0.00024279052444834198,
      "loss": 3.7076,
      "step": 139520
    },
    {
      "epoch": 0.2906875,
      "grad_norm": 0.9277464747428894,
      "learning_rate": 0.00024278277834900776,
      "loss": 3.9186,
      "step": 139530
    },
    {
      "epoch": 0.29070833333333335,
      "grad_norm": 0.8436184525489807,
      "learning_rate": 0.00024277503184888866,
      "loss": 3.8411,
      "step": 139540
    },
    {
      "epoch": 0.29072916666666665,
      "grad_norm": 0.7597026228904724,
      "learning_rate": 0.0002427672849480181,
      "loss": 3.9572,
      "step": 139550
    },
    {
      "epoch": 0.29075,
      "grad_norm": 0.7921634316444397,
      "learning_rate": 0.00024275953764642965,
      "loss": 3.7187,
      "step": 139560
    },
    {
      "epoch": 0.2907708333333333,
      "grad_norm": 0.7389621138572693,
      "learning_rate": 0.00024275178994415667,
      "loss": 3.7739,
      "step": 139570
    },
    {
      "epoch": 0.29079166666666667,
      "grad_norm": 0.8657936453819275,
      "learning_rate": 0.00024274404184123274,
      "loss": 3.8601,
      "step": 139580
    },
    {
      "epoch": 0.2908125,
      "grad_norm": 0.6853923797607422,
      "learning_rate": 0.0002427362933376912,
      "loss": 3.8552,
      "step": 139590
    },
    {
      "epoch": 0.29083333333333333,
      "grad_norm": 0.7559031844139099,
      "learning_rate": 0.00024272854443356558,
      "loss": 3.9364,
      "step": 139600
    },
    {
      "epoch": 0.2908541666666667,
      "grad_norm": 0.8418224453926086,
      "learning_rate": 0.00024272079512888936,
      "loss": 3.7833,
      "step": 139610
    },
    {
      "epoch": 0.290875,
      "grad_norm": 0.6778672933578491,
      "learning_rate": 0.00024271304542369598,
      "loss": 3.99,
      "step": 139620
    },
    {
      "epoch": 0.29089583333333335,
      "grad_norm": 0.8276544213294983,
      "learning_rate": 0.00024270529531801897,
      "loss": 4.1308,
      "step": 139630
    },
    {
      "epoch": 0.29091666666666666,
      "grad_norm": 0.678786039352417,
      "learning_rate": 0.0002426975448118918,
      "loss": 3.9115,
      "step": 139640
    },
    {
      "epoch": 0.2909375,
      "grad_norm": 0.8815476894378662,
      "learning_rate": 0.00024268979390534788,
      "loss": 3.8164,
      "step": 139650
    },
    {
      "epoch": 0.2909583333333333,
      "grad_norm": 0.8104515075683594,
      "learning_rate": 0.00024268204259842075,
      "loss": 3.7692,
      "step": 139660
    },
    {
      "epoch": 0.2909791666666667,
      "grad_norm": 0.836234986782074,
      "learning_rate": 0.00024267429089114392,
      "loss": 3.9873,
      "step": 139670
    },
    {
      "epoch": 0.291,
      "grad_norm": 0.8029583692550659,
      "learning_rate": 0.00024266653878355084,
      "loss": 3.6843,
      "step": 139680
    },
    {
      "epoch": 0.29102083333333334,
      "grad_norm": 0.827995240688324,
      "learning_rate": 0.000242658786275675,
      "loss": 3.9371,
      "step": 139690
    },
    {
      "epoch": 0.29104166666666664,
      "grad_norm": 0.9397084712982178,
      "learning_rate": 0.0002426510333675498,
      "loss": 4.0426,
      "step": 139700
    },
    {
      "epoch": 0.2910625,
      "grad_norm": 0.8838071823120117,
      "learning_rate": 0.00024264328005920888,
      "loss": 3.7967,
      "step": 139710
    },
    {
      "epoch": 0.29108333333333336,
      "grad_norm": 0.69487464427948,
      "learning_rate": 0.00024263552635068564,
      "loss": 3.8016,
      "step": 139720
    },
    {
      "epoch": 0.29110416666666666,
      "grad_norm": 1.0179634094238281,
      "learning_rate": 0.00024262777224201356,
      "loss": 3.9496,
      "step": 139730
    },
    {
      "epoch": 0.291125,
      "grad_norm": 0.6741147041320801,
      "learning_rate": 0.0002426200177332262,
      "loss": 3.9841,
      "step": 139740
    },
    {
      "epoch": 0.2911458333333333,
      "grad_norm": 0.6658675074577332,
      "learning_rate": 0.00024261226282435707,
      "loss": 3.7463,
      "step": 139750
    },
    {
      "epoch": 0.2911666666666667,
      "grad_norm": 0.787595272064209,
      "learning_rate": 0.00024260450751543953,
      "loss": 3.8626,
      "step": 139760
    },
    {
      "epoch": 0.2911875,
      "grad_norm": 0.7410524487495422,
      "learning_rate": 0.00024259675180650722,
      "loss": 3.8001,
      "step": 139770
    },
    {
      "epoch": 0.29120833333333335,
      "grad_norm": 0.8427249193191528,
      "learning_rate": 0.0002425889956975936,
      "loss": 3.8557,
      "step": 139780
    },
    {
      "epoch": 0.29122916666666665,
      "grad_norm": 0.8283651471138,
      "learning_rate": 0.00024258123918873218,
      "loss": 3.9295,
      "step": 139790
    },
    {
      "epoch": 0.29125,
      "grad_norm": 0.8194693922996521,
      "learning_rate": 0.00024257348227995645,
      "loss": 3.9392,
      "step": 139800
    },
    {
      "epoch": 0.2912708333333333,
      "grad_norm": 0.9101590514183044,
      "learning_rate": 0.0002425657249712999,
      "loss": 4.0404,
      "step": 139810
    },
    {
      "epoch": 0.29129166666666667,
      "grad_norm": 0.81870436668396,
      "learning_rate": 0.00024255796726279605,
      "loss": 3.6795,
      "step": 139820
    },
    {
      "epoch": 0.2913125,
      "grad_norm": 0.7196553349494934,
      "learning_rate": 0.00024255020915447845,
      "loss": 3.7688,
      "step": 139830
    },
    {
      "epoch": 0.29133333333333333,
      "grad_norm": 0.9259107708930969,
      "learning_rate": 0.00024254245064638053,
      "loss": 3.8718,
      "step": 139840
    },
    {
      "epoch": 0.2913541666666667,
      "grad_norm": 0.7573955059051514,
      "learning_rate": 0.0002425346917385359,
      "loss": 3.8146,
      "step": 139850
    },
    {
      "epoch": 0.291375,
      "grad_norm": 0.7890813946723938,
      "learning_rate": 0.00024252693243097804,
      "loss": 3.941,
      "step": 139860
    },
    {
      "epoch": 0.29139583333333335,
      "grad_norm": 0.775662362575531,
      "learning_rate": 0.0002425191727237404,
      "loss": 4.0711,
      "step": 139870
    },
    {
      "epoch": 0.29141666666666666,
      "grad_norm": 0.8355532288551331,
      "learning_rate": 0.0002425114126168566,
      "loss": 3.7578,
      "step": 139880
    },
    {
      "epoch": 0.2914375,
      "grad_norm": 0.6753919124603271,
      "learning_rate": 0.0002425036521103601,
      "loss": 3.6461,
      "step": 139890
    },
    {
      "epoch": 0.2914583333333333,
      "grad_norm": 0.7622658610343933,
      "learning_rate": 0.00024249589120428446,
      "loss": 3.7644,
      "step": 139900
    },
    {
      "epoch": 0.2914791666666667,
      "grad_norm": 0.8089773654937744,
      "learning_rate": 0.00024248812989866316,
      "loss": 3.8965,
      "step": 139910
    },
    {
      "epoch": 0.2915,
      "grad_norm": 0.692693293094635,
      "learning_rate": 0.00024248036819352978,
      "loss": 3.8677,
      "step": 139920
    },
    {
      "epoch": 0.29152083333333334,
      "grad_norm": 0.7138315439224243,
      "learning_rate": 0.00024247260608891777,
      "loss": 3.6998,
      "step": 139930
    },
    {
      "epoch": 0.29154166666666664,
      "grad_norm": 0.6978611350059509,
      "learning_rate": 0.00024246484358486073,
      "loss": 3.9194,
      "step": 139940
    },
    {
      "epoch": 0.2915625,
      "grad_norm": 0.7414955496788025,
      "learning_rate": 0.00024245708068139214,
      "loss": 3.8353,
      "step": 139950
    },
    {
      "epoch": 0.29158333333333336,
      "grad_norm": 0.9586357474327087,
      "learning_rate": 0.0002424493173785456,
      "loss": 3.8513,
      "step": 139960
    },
    {
      "epoch": 0.29160416666666666,
      "grad_norm": 0.7471902370452881,
      "learning_rate": 0.00024244155367635455,
      "loss": 3.8507,
      "step": 139970
    },
    {
      "epoch": 0.291625,
      "grad_norm": 0.7904173731803894,
      "learning_rate": 0.00024243378957485264,
      "loss": 3.7043,
      "step": 139980
    },
    {
      "epoch": 0.2916458333333333,
      "grad_norm": 0.7731053829193115,
      "learning_rate": 0.0002424260250740733,
      "loss": 3.9605,
      "step": 139990
    },
    {
      "epoch": 0.2916666666666667,
      "grad_norm": 0.7772955298423767,
      "learning_rate": 0.00024241826017405016,
      "loss": 3.8223,
      "step": 140000
    },
    {
      "epoch": 0.2916666666666667,
      "eval_loss": 4.210299015045166,
      "eval_runtime": 10.7157,
      "eval_samples_per_second": 0.933,
      "eval_steps_per_second": 0.28,
      "step": 140000
    },
    {
      "epoch": 0.2916875,
      "grad_norm": 0.8672594428062439,
      "learning_rate": 0.0002424104948748167,
      "loss": 3.7792,
      "step": 140010
    },
    {
      "epoch": 0.29170833333333335,
      "grad_norm": 0.9462454319000244,
      "learning_rate": 0.00024240272917640647,
      "loss": 3.8392,
      "step": 140020
    },
    {
      "epoch": 0.29172916666666665,
      "grad_norm": 0.8573209643363953,
      "learning_rate": 0.00024239496307885302,
      "loss": 3.8792,
      "step": 140030
    },
    {
      "epoch": 0.29175,
      "grad_norm": 0.9693619608879089,
      "learning_rate": 0.0002423871965821899,
      "loss": 4.0628,
      "step": 140040
    },
    {
      "epoch": 0.2917708333333333,
      "grad_norm": 0.7640627026557922,
      "learning_rate": 0.00024237942968645068,
      "loss": 3.7325,
      "step": 140050
    },
    {
      "epoch": 0.29179166666666667,
      "grad_norm": 0.838090181350708,
      "learning_rate": 0.00024237166239166887,
      "loss": 3.7158,
      "step": 140060
    },
    {
      "epoch": 0.2918125,
      "grad_norm": 0.7937096953392029,
      "learning_rate": 0.00024236389469787806,
      "loss": 3.8602,
      "step": 140070
    },
    {
      "epoch": 0.29183333333333333,
      "grad_norm": 0.7938105463981628,
      "learning_rate": 0.00024235612660511178,
      "loss": 3.9947,
      "step": 140080
    },
    {
      "epoch": 0.2918541666666667,
      "grad_norm": 0.7963412404060364,
      "learning_rate": 0.00024234835811340357,
      "loss": 3.8866,
      "step": 140090
    },
    {
      "epoch": 0.291875,
      "grad_norm": 0.6854256391525269,
      "learning_rate": 0.00024234058922278703,
      "loss": 3.828,
      "step": 140100
    },
    {
      "epoch": 0.29189583333333335,
      "grad_norm": 0.780472457408905,
      "learning_rate": 0.00024233281993329568,
      "loss": 3.8118,
      "step": 140110
    },
    {
      "epoch": 0.29191666666666666,
      "grad_norm": 0.7564768195152283,
      "learning_rate": 0.00024232505024496313,
      "loss": 3.9585,
      "step": 140120
    },
    {
      "epoch": 0.2919375,
      "grad_norm": 0.7395073175430298,
      "learning_rate": 0.00024231728015782286,
      "loss": 4.0229,
      "step": 140130
    },
    {
      "epoch": 0.2919583333333333,
      "grad_norm": 0.7212137579917908,
      "learning_rate": 0.00024230950967190853,
      "loss": 3.7174,
      "step": 140140
    },
    {
      "epoch": 0.2919791666666667,
      "grad_norm": 0.7529579997062683,
      "learning_rate": 0.00024230173878725362,
      "loss": 3.8618,
      "step": 140150
    },
    {
      "epoch": 0.292,
      "grad_norm": 0.7031762003898621,
      "learning_rate": 0.00024229396750389176,
      "loss": 3.9088,
      "step": 140160
    },
    {
      "epoch": 0.29202083333333334,
      "grad_norm": 0.9343055486679077,
      "learning_rate": 0.00024228619582185648,
      "loss": 3.8402,
      "step": 140170
    },
    {
      "epoch": 0.29204166666666664,
      "grad_norm": 0.7840060591697693,
      "learning_rate": 0.00024227842374118134,
      "loss": 3.8272,
      "step": 140180
    },
    {
      "epoch": 0.2920625,
      "grad_norm": 0.8061947822570801,
      "learning_rate": 0.00024227065126189996,
      "loss": 4.0183,
      "step": 140190
    },
    {
      "epoch": 0.2920833333333333,
      "grad_norm": 0.8937455415725708,
      "learning_rate": 0.0002422628783840459,
      "loss": 3.8585,
      "step": 140200
    },
    {
      "epoch": 0.29210416666666666,
      "grad_norm": 0.8992366194725037,
      "learning_rate": 0.0002422551051076527,
      "loss": 3.9424,
      "step": 140210
    },
    {
      "epoch": 0.292125,
      "grad_norm": 0.6362965703010559,
      "learning_rate": 0.00024224733143275398,
      "loss": 3.7378,
      "step": 140220
    },
    {
      "epoch": 0.2921458333333333,
      "grad_norm": 0.7393621206283569,
      "learning_rate": 0.0002422395573593833,
      "loss": 3.8551,
      "step": 140230
    },
    {
      "epoch": 0.2921666666666667,
      "grad_norm": 0.7637709379196167,
      "learning_rate": 0.00024223178288757425,
      "loss": 3.8489,
      "step": 140240
    },
    {
      "epoch": 0.2921875,
      "grad_norm": 0.924167275428772,
      "learning_rate": 0.00024222400801736038,
      "loss": 3.9437,
      "step": 140250
    },
    {
      "epoch": 0.29220833333333335,
      "grad_norm": 0.8150623440742493,
      "learning_rate": 0.00024221623274877532,
      "loss": 3.8933,
      "step": 140260
    },
    {
      "epoch": 0.29222916666666665,
      "grad_norm": 0.7975591421127319,
      "learning_rate": 0.00024220845708185264,
      "loss": 3.8623,
      "step": 140270
    },
    {
      "epoch": 0.29225,
      "grad_norm": 0.7030617594718933,
      "learning_rate": 0.0002422006810166259,
      "loss": 4.0527,
      "step": 140280
    },
    {
      "epoch": 0.2922708333333333,
      "grad_norm": 0.8369157314300537,
      "learning_rate": 0.00024219290455312876,
      "loss": 3.8195,
      "step": 140290
    },
    {
      "epoch": 0.29229166666666667,
      "grad_norm": 0.7187013030052185,
      "learning_rate": 0.00024218512769139472,
      "loss": 3.9683,
      "step": 140300
    },
    {
      "epoch": 0.2923125,
      "grad_norm": 0.8017318248748779,
      "learning_rate": 0.00024217735043145745,
      "loss": 3.6698,
      "step": 140310
    },
    {
      "epoch": 0.29233333333333333,
      "grad_norm": 0.7788828611373901,
      "learning_rate": 0.00024216957277335048,
      "loss": 3.9533,
      "step": 140320
    },
    {
      "epoch": 0.2923541666666667,
      "grad_norm": 0.8362429141998291,
      "learning_rate": 0.00024216179471710746,
      "loss": 3.9234,
      "step": 140330
    },
    {
      "epoch": 0.292375,
      "grad_norm": 0.7219166159629822,
      "learning_rate": 0.00024215401626276198,
      "loss": 3.8954,
      "step": 140340
    },
    {
      "epoch": 0.29239583333333335,
      "grad_norm": 0.7450678944587708,
      "learning_rate": 0.0002421462374103476,
      "loss": 3.8519,
      "step": 140350
    },
    {
      "epoch": 0.29241666666666666,
      "grad_norm": 0.7859037518501282,
      "learning_rate": 0.00024213845815989796,
      "loss": 3.8451,
      "step": 140360
    },
    {
      "epoch": 0.2924375,
      "grad_norm": 0.7762590050697327,
      "learning_rate": 0.00024213067851144664,
      "loss": 3.762,
      "step": 140370
    },
    {
      "epoch": 0.2924583333333333,
      "grad_norm": 0.7464417219161987,
      "learning_rate": 0.00024212289846502728,
      "loss": 3.7383,
      "step": 140380
    },
    {
      "epoch": 0.2924791666666667,
      "grad_norm": 0.9084646701812744,
      "learning_rate": 0.00024211511802067342,
      "loss": 3.935,
      "step": 140390
    },
    {
      "epoch": 0.2925,
      "grad_norm": 0.7809122204780579,
      "learning_rate": 0.00024210733717841876,
      "loss": 3.9926,
      "step": 140400
    },
    {
      "epoch": 0.29252083333333334,
      "grad_norm": 1.1722034215927124,
      "learning_rate": 0.00024209955593829682,
      "loss": 3.7039,
      "step": 140410
    },
    {
      "epoch": 0.29254166666666664,
      "grad_norm": 0.7986706495285034,
      "learning_rate": 0.00024209177430034132,
      "loss": 3.8851,
      "step": 140420
    },
    {
      "epoch": 0.2925625,
      "grad_norm": 0.9715280532836914,
      "learning_rate": 0.00024208399226458574,
      "loss": 3.8992,
      "step": 140430
    },
    {
      "epoch": 0.2925833333333333,
      "grad_norm": 0.7860935926437378,
      "learning_rate": 0.0002420762098310638,
      "loss": 3.97,
      "step": 140440
    },
    {
      "epoch": 0.29260416666666667,
      "grad_norm": 0.8264633417129517,
      "learning_rate": 0.00024206842699980906,
      "loss": 3.9209,
      "step": 140450
    },
    {
      "epoch": 0.292625,
      "grad_norm": 0.7512417435646057,
      "learning_rate": 0.00024206064377085514,
      "loss": 3.8511,
      "step": 140460
    },
    {
      "epoch": 0.2926458333333333,
      "grad_norm": 0.773978054523468,
      "learning_rate": 0.0002420528601442357,
      "loss": 3.8922,
      "step": 140470
    },
    {
      "epoch": 0.2926666666666667,
      "grad_norm": 0.8625437617301941,
      "learning_rate": 0.00024204507611998437,
      "loss": 4.0569,
      "step": 140480
    },
    {
      "epoch": 0.2926875,
      "grad_norm": 0.7144834995269775,
      "learning_rate": 0.00024203729169813474,
      "loss": 3.7763,
      "step": 140490
    },
    {
      "epoch": 0.29270833333333335,
      "grad_norm": 0.8195334672927856,
      "learning_rate": 0.00024202950687872042,
      "loss": 3.8398,
      "step": 140500
    },
    {
      "epoch": 0.29272916666666665,
      "grad_norm": 0.8074634671211243,
      "learning_rate": 0.00024202172166177505,
      "loss": 3.9547,
      "step": 140510
    },
    {
      "epoch": 0.29275,
      "grad_norm": 0.7575667500495911,
      "learning_rate": 0.00024201393604733227,
      "loss": 3.6875,
      "step": 140520
    },
    {
      "epoch": 0.2927708333333333,
      "grad_norm": 0.7886084318161011,
      "learning_rate": 0.0002420061500354257,
      "loss": 3.913,
      "step": 140530
    },
    {
      "epoch": 0.2927916666666667,
      "grad_norm": 0.7569853067398071,
      "learning_rate": 0.000241998363626089,
      "loss": 3.9521,
      "step": 140540
    },
    {
      "epoch": 0.2928125,
      "grad_norm": 0.8806144595146179,
      "learning_rate": 0.0002419905768193558,
      "loss": 3.9615,
      "step": 140550
    },
    {
      "epoch": 0.29283333333333333,
      "grad_norm": 0.8063396215438843,
      "learning_rate": 0.0002419827896152597,
      "loss": 3.9406,
      "step": 140560
    },
    {
      "epoch": 0.2928541666666667,
      "grad_norm": 0.7073752880096436,
      "learning_rate": 0.00024197500201383437,
      "loss": 3.8253,
      "step": 140570
    },
    {
      "epoch": 0.292875,
      "grad_norm": 0.6913853287696838,
      "learning_rate": 0.00024196721401511338,
      "loss": 3.8047,
      "step": 140580
    },
    {
      "epoch": 0.29289583333333336,
      "grad_norm": 0.706533670425415,
      "learning_rate": 0.00024195942561913052,
      "loss": 3.7884,
      "step": 140590
    },
    {
      "epoch": 0.29291666666666666,
      "grad_norm": 0.71084064245224,
      "learning_rate": 0.00024195163682591927,
      "loss": 3.7556,
      "step": 140600
    },
    {
      "epoch": 0.2929375,
      "grad_norm": 0.8254727721214294,
      "learning_rate": 0.00024194384763551337,
      "loss": 3.8469,
      "step": 140610
    },
    {
      "epoch": 0.2929583333333333,
      "grad_norm": 0.7599241733551025,
      "learning_rate": 0.00024193605804794646,
      "loss": 3.8028,
      "step": 140620
    },
    {
      "epoch": 0.2929791666666667,
      "grad_norm": 0.8286991715431213,
      "learning_rate": 0.00024192826806325216,
      "loss": 3.846,
      "step": 140630
    },
    {
      "epoch": 0.293,
      "grad_norm": 0.8125946521759033,
      "learning_rate": 0.0002419204776814641,
      "loss": 4.007,
      "step": 140640
    },
    {
      "epoch": 0.29302083333333334,
      "grad_norm": 0.8086634278297424,
      "learning_rate": 0.00024191268690261597,
      "loss": 3.8094,
      "step": 140650
    },
    {
      "epoch": 0.29304166666666664,
      "grad_norm": 0.7814898490905762,
      "learning_rate": 0.00024190489572674146,
      "loss": 3.8085,
      "step": 140660
    },
    {
      "epoch": 0.2930625,
      "grad_norm": 0.8213218450546265,
      "learning_rate": 0.00024189710415387414,
      "loss": 4.0957,
      "step": 140670
    },
    {
      "epoch": 0.2930833333333333,
      "grad_norm": 0.7583511471748352,
      "learning_rate": 0.00024188931218404772,
      "loss": 3.9333,
      "step": 140680
    },
    {
      "epoch": 0.29310416666666667,
      "grad_norm": 0.9542106986045837,
      "learning_rate": 0.00024188151981729584,
      "loss": 3.9097,
      "step": 140690
    },
    {
      "epoch": 0.293125,
      "grad_norm": 0.6417637467384338,
      "learning_rate": 0.00024187372705365215,
      "loss": 3.9274,
      "step": 140700
    },
    {
      "epoch": 0.2931458333333333,
      "grad_norm": 0.711083173751831,
      "learning_rate": 0.00024186593389315036,
      "loss": 3.7238,
      "step": 140710
    },
    {
      "epoch": 0.2931666666666667,
      "grad_norm": 0.763844907283783,
      "learning_rate": 0.00024185814033582406,
      "loss": 3.9527,
      "step": 140720
    },
    {
      "epoch": 0.2931875,
      "grad_norm": 0.6773337721824646,
      "learning_rate": 0.00024185034638170698,
      "loss": 3.8584,
      "step": 140730
    },
    {
      "epoch": 0.29320833333333335,
      "grad_norm": 0.8581071496009827,
      "learning_rate": 0.00024184255203083275,
      "loss": 3.839,
      "step": 140740
    },
    {
      "epoch": 0.29322916666666665,
      "grad_norm": 0.713061511516571,
      "learning_rate": 0.00024183475728323502,
      "loss": 3.8168,
      "step": 140750
    },
    {
      "epoch": 0.29325,
      "grad_norm": 0.703161895275116,
      "learning_rate": 0.00024182696213894753,
      "loss": 3.8321,
      "step": 140760
    },
    {
      "epoch": 0.2932708333333333,
      "grad_norm": 0.7313702702522278,
      "learning_rate": 0.00024181916659800392,
      "loss": 3.9087,
      "step": 140770
    },
    {
      "epoch": 0.2932916666666667,
      "grad_norm": 0.8215851187705994,
      "learning_rate": 0.00024181137066043781,
      "loss": 3.9761,
      "step": 140780
    },
    {
      "epoch": 0.2933125,
      "grad_norm": 0.7274200916290283,
      "learning_rate": 0.00024180357432628294,
      "loss": 3.9079,
      "step": 140790
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 0.7217288017272949,
      "learning_rate": 0.000241795777595573,
      "loss": 3.9277,
      "step": 140800
    },
    {
      "epoch": 0.2933541666666667,
      "grad_norm": 1.1992197036743164,
      "learning_rate": 0.00024178798046834156,
      "loss": 4.0507,
      "step": 140810
    },
    {
      "epoch": 0.293375,
      "grad_norm": 0.8396426439285278,
      "learning_rate": 0.00024178018294462246,
      "loss": 3.7647,
      "step": 140820
    },
    {
      "epoch": 0.29339583333333336,
      "grad_norm": 0.9720112681388855,
      "learning_rate": 0.00024177238502444927,
      "loss": 3.9297,
      "step": 140830
    },
    {
      "epoch": 0.29341666666666666,
      "grad_norm": 0.8591843843460083,
      "learning_rate": 0.00024176458670785566,
      "loss": 3.77,
      "step": 140840
    },
    {
      "epoch": 0.2934375,
      "grad_norm": 0.7403445839881897,
      "learning_rate": 0.00024175678799487539,
      "loss": 3.9584,
      "step": 140850
    },
    {
      "epoch": 0.2934583333333333,
      "grad_norm": 0.7289806008338928,
      "learning_rate": 0.00024174898888554213,
      "loss": 3.6654,
      "step": 140860
    },
    {
      "epoch": 0.2934791666666667,
      "grad_norm": 0.7734667658805847,
      "learning_rate": 0.00024174118937988958,
      "loss": 3.9344,
      "step": 140870
    },
    {
      "epoch": 0.2935,
      "grad_norm": 1.0379374027252197,
      "learning_rate": 0.00024173338947795138,
      "loss": 3.9826,
      "step": 140880
    },
    {
      "epoch": 0.29352083333333334,
      "grad_norm": 0.7828955054283142,
      "learning_rate": 0.00024172558917976122,
      "loss": 3.8356,
      "step": 140890
    },
    {
      "epoch": 0.29354166666666665,
      "grad_norm": 0.8145968317985535,
      "learning_rate": 0.00024171778848535282,
      "loss": 3.6822,
      "step": 140900
    },
    {
      "epoch": 0.2935625,
      "grad_norm": 0.7913343906402588,
      "learning_rate": 0.0002417099873947599,
      "loss": 3.9093,
      "step": 140910
    },
    {
      "epoch": 0.2935833333333333,
      "grad_norm": 0.7835724949836731,
      "learning_rate": 0.00024170218590801614,
      "loss": 3.7403,
      "step": 140920
    },
    {
      "epoch": 0.29360416666666667,
      "grad_norm": 0.934645414352417,
      "learning_rate": 0.00024169438402515524,
      "loss": 3.9545,
      "step": 140930
    },
    {
      "epoch": 0.293625,
      "grad_norm": 0.7800664901733398,
      "learning_rate": 0.00024168658174621085,
      "loss": 3.8942,
      "step": 140940
    },
    {
      "epoch": 0.29364583333333333,
      "grad_norm": 0.765688419342041,
      "learning_rate": 0.00024167877907121677,
      "loss": 3.9399,
      "step": 140950
    },
    {
      "epoch": 0.2936666666666667,
      "grad_norm": 0.7333962917327881,
      "learning_rate": 0.00024167097600020666,
      "loss": 3.7899,
      "step": 140960
    },
    {
      "epoch": 0.2936875,
      "grad_norm": 0.776090145111084,
      "learning_rate": 0.00024166317253321418,
      "loss": 3.9789,
      "step": 140970
    },
    {
      "epoch": 0.29370833333333335,
      "grad_norm": 0.8061639666557312,
      "learning_rate": 0.0002416553686702731,
      "loss": 3.7807,
      "step": 140980
    },
    {
      "epoch": 0.29372916666666665,
      "grad_norm": 0.8103238940238953,
      "learning_rate": 0.0002416475644114171,
      "loss": 3.7565,
      "step": 140990
    },
    {
      "epoch": 0.29375,
      "grad_norm": 0.7426366209983826,
      "learning_rate": 0.00024163975975667991,
      "loss": 3.7498,
      "step": 141000
    },
    {
      "epoch": 0.29375,
      "eval_loss": 4.217345237731934,
      "eval_runtime": 10.6056,
      "eval_samples_per_second": 0.943,
      "eval_steps_per_second": 0.283,
      "step": 141000
    },
    {
      "epoch": 0.2937708333333333,
      "grad_norm": 0.6640775799751282,
      "learning_rate": 0.0002416319547060952,
      "loss": 3.8282,
      "step": 141010
    },
    {
      "epoch": 0.2937916666666667,
      "grad_norm": 0.7517673969268799,
      "learning_rate": 0.00024162414925969674,
      "loss": 3.8696,
      "step": 141020
    },
    {
      "epoch": 0.2938125,
      "grad_norm": 0.8378080129623413,
      "learning_rate": 0.00024161634341751822,
      "loss": 3.9331,
      "step": 141030
    },
    {
      "epoch": 0.29383333333333334,
      "grad_norm": 0.7804750800132751,
      "learning_rate": 0.00024160853717959338,
      "loss": 3.9349,
      "step": 141040
    },
    {
      "epoch": 0.2938541666666667,
      "grad_norm": 0.7973634004592896,
      "learning_rate": 0.0002416007305459559,
      "loss": 4.0331,
      "step": 141050
    },
    {
      "epoch": 0.293875,
      "grad_norm": 0.8318438529968262,
      "learning_rate": 0.00024159292351663952,
      "loss": 3.9709,
      "step": 141060
    },
    {
      "epoch": 0.29389583333333336,
      "grad_norm": 0.7358540892601013,
      "learning_rate": 0.000241585116091678,
      "loss": 3.9502,
      "step": 141070
    },
    {
      "epoch": 0.29391666666666666,
      "grad_norm": 0.6947616338729858,
      "learning_rate": 0.00024157730827110497,
      "loss": 3.9331,
      "step": 141080
    },
    {
      "epoch": 0.2939375,
      "grad_norm": 0.7555621266365051,
      "learning_rate": 0.00024156950005495422,
      "loss": 3.8398,
      "step": 141090
    },
    {
      "epoch": 0.2939583333333333,
      "grad_norm": 0.7851009964942932,
      "learning_rate": 0.00024156169144325955,
      "loss": 3.9111,
      "step": 141100
    },
    {
      "epoch": 0.2939791666666667,
      "grad_norm": 0.7387374043464661,
      "learning_rate": 0.00024155388243605455,
      "loss": 4.0309,
      "step": 141110
    },
    {
      "epoch": 0.294,
      "grad_norm": 0.8894721269607544,
      "learning_rate": 0.000241546073033373,
      "loss": 3.9851,
      "step": 141120
    },
    {
      "epoch": 0.29402083333333334,
      "grad_norm": 0.7146965265274048,
      "learning_rate": 0.00024153826323524872,
      "loss": 3.7712,
      "step": 141130
    },
    {
      "epoch": 0.29404166666666665,
      "grad_norm": 0.9076192378997803,
      "learning_rate": 0.0002415304530417153,
      "loss": 3.9627,
      "step": 141140
    },
    {
      "epoch": 0.2940625,
      "grad_norm": 0.7168048620223999,
      "learning_rate": 0.00024152264245280662,
      "loss": 3.7656,
      "step": 141150
    },
    {
      "epoch": 0.2940833333333333,
      "grad_norm": 0.9284773468971252,
      "learning_rate": 0.00024151483146855632,
      "loss": 4.1061,
      "step": 141160
    },
    {
      "epoch": 0.29410416666666667,
      "grad_norm": 0.8223463296890259,
      "learning_rate": 0.00024150702008899822,
      "loss": 3.9335,
      "step": 141170
    },
    {
      "epoch": 0.294125,
      "grad_norm": 0.8546029329299927,
      "learning_rate": 0.00024149920831416594,
      "loss": 3.836,
      "step": 141180
    },
    {
      "epoch": 0.29414583333333333,
      "grad_norm": 0.8207334876060486,
      "learning_rate": 0.00024149139614409334,
      "loss": 3.8236,
      "step": 141190
    },
    {
      "epoch": 0.2941666666666667,
      "grad_norm": 0.8574368953704834,
      "learning_rate": 0.00024148358357881412,
      "loss": 3.7652,
      "step": 141200
    },
    {
      "epoch": 0.2941875,
      "grad_norm": 0.7125202417373657,
      "learning_rate": 0.000241475770618362,
      "loss": 3.8733,
      "step": 141210
    },
    {
      "epoch": 0.29420833333333335,
      "grad_norm": 0.7358430624008179,
      "learning_rate": 0.0002414679572627708,
      "loss": 3.7297,
      "step": 141220
    },
    {
      "epoch": 0.29422916666666665,
      "grad_norm": 0.6912760734558105,
      "learning_rate": 0.0002414601435120742,
      "loss": 3.7982,
      "step": 141230
    },
    {
      "epoch": 0.29425,
      "grad_norm": 0.8697095513343811,
      "learning_rate": 0.000241452329366306,
      "loss": 3.8291,
      "step": 141240
    },
    {
      "epoch": 0.2942708333333333,
      "grad_norm": 0.9185816645622253,
      "learning_rate": 0.00024144451482549997,
      "loss": 3.8706,
      "step": 141250
    },
    {
      "epoch": 0.2942916666666667,
      "grad_norm": 0.7468439936637878,
      "learning_rate": 0.00024143669988968975,
      "loss": 3.9374,
      "step": 141260
    },
    {
      "epoch": 0.2943125,
      "grad_norm": 0.7520104050636292,
      "learning_rate": 0.00024142888455890924,
      "loss": 3.8655,
      "step": 141270
    },
    {
      "epoch": 0.29433333333333334,
      "grad_norm": 0.7538866400718689,
      "learning_rate": 0.00024142106883319212,
      "loss": 3.9224,
      "step": 141280
    },
    {
      "epoch": 0.29435416666666664,
      "grad_norm": 0.8627321124076843,
      "learning_rate": 0.0002414132527125722,
      "loss": 3.843,
      "step": 141290
    },
    {
      "epoch": 0.294375,
      "grad_norm": 0.7860305309295654,
      "learning_rate": 0.00024140543619708318,
      "loss": 3.7202,
      "step": 141300
    },
    {
      "epoch": 0.29439583333333336,
      "grad_norm": 0.892854630947113,
      "learning_rate": 0.00024139761928675883,
      "loss": 3.8729,
      "step": 141310
    },
    {
      "epoch": 0.29441666666666666,
      "grad_norm": 0.7905489206314087,
      "learning_rate": 0.00024138980198163302,
      "loss": 3.9802,
      "step": 141320
    },
    {
      "epoch": 0.2944375,
      "grad_norm": 0.7345721125602722,
      "learning_rate": 0.00024138198428173935,
      "loss": 3.7476,
      "step": 141330
    },
    {
      "epoch": 0.2944583333333333,
      "grad_norm": 0.7854174971580505,
      "learning_rate": 0.00024137416618711174,
      "loss": 3.6736,
      "step": 141340
    },
    {
      "epoch": 0.2944791666666667,
      "grad_norm": 0.8046505451202393,
      "learning_rate": 0.00024136634769778391,
      "loss": 3.9465,
      "step": 141350
    },
    {
      "epoch": 0.2945,
      "grad_norm": 0.7580924034118652,
      "learning_rate": 0.00024135852881378958,
      "loss": 3.8767,
      "step": 141360
    },
    {
      "epoch": 0.29452083333333334,
      "grad_norm": 0.7397891879081726,
      "learning_rate": 0.0002413507095351626,
      "loss": 3.8884,
      "step": 141370
    },
    {
      "epoch": 0.29454166666666665,
      "grad_norm": 0.807373583316803,
      "learning_rate": 0.00024134288986193668,
      "loss": 3.9122,
      "step": 141380
    },
    {
      "epoch": 0.2945625,
      "grad_norm": 0.6602598428726196,
      "learning_rate": 0.00024133506979414566,
      "loss": 3.8287,
      "step": 141390
    },
    {
      "epoch": 0.2945833333333333,
      "grad_norm": 0.793376088142395,
      "learning_rate": 0.00024132724933182328,
      "loss": 4.0321,
      "step": 141400
    },
    {
      "epoch": 0.29460416666666667,
      "grad_norm": 0.6929689049720764,
      "learning_rate": 0.00024131942847500335,
      "loss": 3.8667,
      "step": 141410
    },
    {
      "epoch": 0.294625,
      "grad_norm": 0.7729184627532959,
      "learning_rate": 0.00024131160722371962,
      "loss": 3.9342,
      "step": 141420
    },
    {
      "epoch": 0.29464583333333333,
      "grad_norm": 0.6764984726905823,
      "learning_rate": 0.0002413037855780059,
      "loss": 3.8415,
      "step": 141430
    },
    {
      "epoch": 0.2946666666666667,
      "grad_norm": 0.879420280456543,
      "learning_rate": 0.00024129596353789594,
      "loss": 3.8359,
      "step": 141440
    },
    {
      "epoch": 0.2946875,
      "grad_norm": 0.8166232109069824,
      "learning_rate": 0.00024128814110342358,
      "loss": 3.8134,
      "step": 141450
    },
    {
      "epoch": 0.29470833333333335,
      "grad_norm": 0.7488299608230591,
      "learning_rate": 0.00024128031827462258,
      "loss": 3.907,
      "step": 141460
    },
    {
      "epoch": 0.29472916666666665,
      "grad_norm": 0.8366159200668335,
      "learning_rate": 0.0002412724950515267,
      "loss": 3.9853,
      "step": 141470
    },
    {
      "epoch": 0.29475,
      "grad_norm": 0.8554993867874146,
      "learning_rate": 0.0002412646714341698,
      "loss": 3.9558,
      "step": 141480
    },
    {
      "epoch": 0.2947708333333333,
      "grad_norm": 0.7381215691566467,
      "learning_rate": 0.00024125684742258569,
      "loss": 3.9416,
      "step": 141490
    },
    {
      "epoch": 0.2947916666666667,
      "grad_norm": 0.7350212931632996,
      "learning_rate": 0.00024124902301680807,
      "loss": 3.9187,
      "step": 141500
    },
    {
      "epoch": 0.2948125,
      "grad_norm": 0.6916520595550537,
      "learning_rate": 0.0002412411982168708,
      "loss": 3.834,
      "step": 141510
    },
    {
      "epoch": 0.29483333333333334,
      "grad_norm": 0.7851690053939819,
      "learning_rate": 0.00024123337302280764,
      "loss": 3.9623,
      "step": 141520
    },
    {
      "epoch": 0.29485416666666664,
      "grad_norm": 0.6249490976333618,
      "learning_rate": 0.0002412255474346525,
      "loss": 3.912,
      "step": 141530
    },
    {
      "epoch": 0.294875,
      "grad_norm": 0.8368352651596069,
      "learning_rate": 0.00024121772145243903,
      "loss": 3.8058,
      "step": 141540
    },
    {
      "epoch": 0.29489583333333336,
      "grad_norm": 0.8589141368865967,
      "learning_rate": 0.00024120989507620113,
      "loss": 3.8729,
      "step": 141550
    },
    {
      "epoch": 0.29491666666666666,
      "grad_norm": 0.9143207669258118,
      "learning_rate": 0.00024120206830597263,
      "loss": 3.9737,
      "step": 141560
    },
    {
      "epoch": 0.2949375,
      "grad_norm": 0.78697270154953,
      "learning_rate": 0.00024119424114178722,
      "loss": 3.9372,
      "step": 141570
    },
    {
      "epoch": 0.2949583333333333,
      "grad_norm": 0.7533753514289856,
      "learning_rate": 0.00024118641358367884,
      "loss": 3.8673,
      "step": 141580
    },
    {
      "epoch": 0.2949791666666667,
      "grad_norm": 0.7752100229263306,
      "learning_rate": 0.0002411785856316812,
      "loss": 3.8575,
      "step": 141590
    },
    {
      "epoch": 0.295,
      "grad_norm": 0.6848317980766296,
      "learning_rate": 0.0002411707572858282,
      "loss": 3.9799,
      "step": 141600
    },
    {
      "epoch": 0.29502083333333334,
      "grad_norm": 0.9810097813606262,
      "learning_rate": 0.00024116292854615366,
      "loss": 3.7558,
      "step": 141610
    },
    {
      "epoch": 0.29504166666666665,
      "grad_norm": 0.8673974275588989,
      "learning_rate": 0.00024115509941269125,
      "loss": 4.0615,
      "step": 141620
    },
    {
      "epoch": 0.2950625,
      "grad_norm": 0.7933180332183838,
      "learning_rate": 0.00024114726988547496,
      "loss": 3.9647,
      "step": 141630
    },
    {
      "epoch": 0.2950833333333333,
      "grad_norm": 0.7834346890449524,
      "learning_rate": 0.00024113943996453854,
      "loss": 3.9263,
      "step": 141640
    },
    {
      "epoch": 0.29510416666666667,
      "grad_norm": 0.7808367013931274,
      "learning_rate": 0.00024113160964991576,
      "loss": 3.9668,
      "step": 141650
    },
    {
      "epoch": 0.295125,
      "grad_norm": 0.8459610342979431,
      "learning_rate": 0.00024112377894164053,
      "loss": 3.9296,
      "step": 141660
    },
    {
      "epoch": 0.29514583333333333,
      "grad_norm": 0.7524875998497009,
      "learning_rate": 0.00024111594783974668,
      "loss": 3.9822,
      "step": 141670
    },
    {
      "epoch": 0.2951666666666667,
      "grad_norm": 0.7343438863754272,
      "learning_rate": 0.00024110811634426796,
      "loss": 4.1146,
      "step": 141680
    },
    {
      "epoch": 0.2951875,
      "grad_norm": 0.7956542372703552,
      "learning_rate": 0.00024110028445523826,
      "loss": 3.7756,
      "step": 141690
    },
    {
      "epoch": 0.29520833333333335,
      "grad_norm": 0.9538717269897461,
      "learning_rate": 0.00024109245217269137,
      "loss": 3.8083,
      "step": 141700
    },
    {
      "epoch": 0.29522916666666665,
      "grad_norm": 0.7750533819198608,
      "learning_rate": 0.00024108461949666116,
      "loss": 3.9174,
      "step": 141710
    },
    {
      "epoch": 0.29525,
      "grad_norm": 0.7755551338195801,
      "learning_rate": 0.0002410767864271815,
      "loss": 3.7011,
      "step": 141720
    },
    {
      "epoch": 0.2952708333333333,
      "grad_norm": 0.8519576787948608,
      "learning_rate": 0.00024106895296428609,
      "loss": 3.9597,
      "step": 141730
    },
    {
      "epoch": 0.2952916666666667,
      "grad_norm": 0.8185394406318665,
      "learning_rate": 0.00024106111910800887,
      "loss": 3.9643,
      "step": 141740
    },
    {
      "epoch": 0.2953125,
      "grad_norm": 0.8626194596290588,
      "learning_rate": 0.0002410532848583837,
      "loss": 3.8806,
      "step": 141750
    },
    {
      "epoch": 0.29533333333333334,
      "grad_norm": 0.791012167930603,
      "learning_rate": 0.00024104545021544433,
      "loss": 3.8974,
      "step": 141760
    },
    {
      "epoch": 0.29535416666666664,
      "grad_norm": 0.7463192343711853,
      "learning_rate": 0.0002410376151792247,
      "loss": 4.0736,
      "step": 141770
    },
    {
      "epoch": 0.295375,
      "grad_norm": 0.6611722111701965,
      "learning_rate": 0.00024102977974975858,
      "loss": 4.0459,
      "step": 141780
    },
    {
      "epoch": 0.29539583333333336,
      "grad_norm": 0.7366801500320435,
      "learning_rate": 0.00024102194392707982,
      "loss": 3.8807,
      "step": 141790
    },
    {
      "epoch": 0.29541666666666666,
      "grad_norm": 0.8059824109077454,
      "learning_rate": 0.00024101410771122235,
      "loss": 3.7181,
      "step": 141800
    },
    {
      "epoch": 0.2954375,
      "grad_norm": 0.7922457456588745,
      "learning_rate": 0.00024100627110221993,
      "loss": 3.9018,
      "step": 141810
    },
    {
      "epoch": 0.2954583333333333,
      "grad_norm": 0.7514328360557556,
      "learning_rate": 0.0002409984341001064,
      "loss": 3.955,
      "step": 141820
    },
    {
      "epoch": 0.2954791666666667,
      "grad_norm": 0.7489309906959534,
      "learning_rate": 0.00024099059670491574,
      "loss": 3.9027,
      "step": 141830
    },
    {
      "epoch": 0.2955,
      "grad_norm": 0.8164059519767761,
      "learning_rate": 0.00024098275891668166,
      "loss": 3.9306,
      "step": 141840
    },
    {
      "epoch": 0.29552083333333334,
      "grad_norm": 0.8002371191978455,
      "learning_rate": 0.00024097492073543806,
      "loss": 3.7451,
      "step": 141850
    },
    {
      "epoch": 0.29554166666666665,
      "grad_norm": 0.8503592014312744,
      "learning_rate": 0.00024096708216121885,
      "loss": 3.8631,
      "step": 141860
    },
    {
      "epoch": 0.2955625,
      "grad_norm": 0.7028999328613281,
      "learning_rate": 0.00024095924319405784,
      "loss": 3.7959,
      "step": 141870
    },
    {
      "epoch": 0.2955833333333333,
      "grad_norm": 0.7650256752967834,
      "learning_rate": 0.00024095140383398892,
      "loss": 3.7372,
      "step": 141880
    },
    {
      "epoch": 0.29560416666666667,
      "grad_norm": 0.7171978950500488,
      "learning_rate": 0.00024094356408104592,
      "loss": 3.7044,
      "step": 141890
    },
    {
      "epoch": 0.295625,
      "grad_norm": 0.8826782703399658,
      "learning_rate": 0.00024093572393526274,
      "loss": 3.9929,
      "step": 141900
    },
    {
      "epoch": 0.29564583333333333,
      "grad_norm": 0.8456931114196777,
      "learning_rate": 0.00024092788339667321,
      "loss": 3.7233,
      "step": 141910
    },
    {
      "epoch": 0.2956666666666667,
      "grad_norm": 0.8248717784881592,
      "learning_rate": 0.00024092004246531123,
      "loss": 3.8368,
      "step": 141920
    },
    {
      "epoch": 0.2956875,
      "grad_norm": 0.721526563167572,
      "learning_rate": 0.0002409122011412106,
      "loss": 3.783,
      "step": 141930
    },
    {
      "epoch": 0.29570833333333335,
      "grad_norm": 0.6893012523651123,
      "learning_rate": 0.00024090435942440531,
      "loss": 3.9946,
      "step": 141940
    },
    {
      "epoch": 0.29572916666666665,
      "grad_norm": 0.7330619692802429,
      "learning_rate": 0.00024089651731492917,
      "loss": 3.8564,
      "step": 141950
    },
    {
      "epoch": 0.29575,
      "grad_norm": 0.7180487513542175,
      "learning_rate": 0.000240888674812816,
      "loss": 3.7282,
      "step": 141960
    },
    {
      "epoch": 0.2957708333333333,
      "grad_norm": 1.0977202653884888,
      "learning_rate": 0.00024088083191809977,
      "loss": 3.808,
      "step": 141970
    },
    {
      "epoch": 0.2957916666666667,
      "grad_norm": 1.013430118560791,
      "learning_rate": 0.00024087298863081433,
      "loss": 3.9321,
      "step": 141980
    },
    {
      "epoch": 0.2958125,
      "grad_norm": 0.9269954562187195,
      "learning_rate": 0.00024086514495099353,
      "loss": 3.8276,
      "step": 141990
    },
    {
      "epoch": 0.29583333333333334,
      "grad_norm": 0.8560387492179871,
      "learning_rate": 0.0002408573008786713,
      "loss": 3.9105,
      "step": 142000
    },
    {
      "epoch": 0.29583333333333334,
      "eval_loss": 4.208868503570557,
      "eval_runtime": 10.5579,
      "eval_samples_per_second": 0.947,
      "eval_steps_per_second": 0.284,
      "step": 142000
    },
    {
      "epoch": 0.29585416666666664,
      "grad_norm": 0.7532480955123901,
      "learning_rate": 0.00024084945641388144,
      "loss": 3.8282,
      "step": 142010
    },
    {
      "epoch": 0.295875,
      "grad_norm": 0.669823944568634,
      "learning_rate": 0.00024084161155665787,
      "loss": 3.7966,
      "step": 142020
    },
    {
      "epoch": 0.29589583333333336,
      "grad_norm": 0.8504632115364075,
      "learning_rate": 0.00024083376630703462,
      "loss": 3.8286,
      "step": 142030
    },
    {
      "epoch": 0.29591666666666666,
      "grad_norm": 0.8523635268211365,
      "learning_rate": 0.00024082592066504533,
      "loss": 4.0275,
      "step": 142040
    },
    {
      "epoch": 0.2959375,
      "grad_norm": 0.6714911460876465,
      "learning_rate": 0.00024081807463072408,
      "loss": 3.9144,
      "step": 142050
    },
    {
      "epoch": 0.2959583333333333,
      "grad_norm": 0.7867368459701538,
      "learning_rate": 0.00024081022820410464,
      "loss": 3.9102,
      "step": 142060
    },
    {
      "epoch": 0.2959791666666667,
      "grad_norm": 0.7639283537864685,
      "learning_rate": 0.00024080238138522101,
      "loss": 3.8162,
      "step": 142070
    },
    {
      "epoch": 0.296,
      "grad_norm": 0.7971590757369995,
      "learning_rate": 0.00024079453417410703,
      "loss": 3.8846,
      "step": 142080
    },
    {
      "epoch": 0.29602083333333334,
      "grad_norm": 0.7020189166069031,
      "learning_rate": 0.0002407866865707966,
      "loss": 3.7941,
      "step": 142090
    },
    {
      "epoch": 0.29604166666666665,
      "grad_norm": 0.8212747573852539,
      "learning_rate": 0.0002407788385753236,
      "loss": 4.0216,
      "step": 142100
    },
    {
      "epoch": 0.2960625,
      "grad_norm": 0.9827830195426941,
      "learning_rate": 0.00024077099018772198,
      "loss": 3.6725,
      "step": 142110
    },
    {
      "epoch": 0.2960833333333333,
      "grad_norm": 0.7668375968933105,
      "learning_rate": 0.00024076314140802563,
      "loss": 3.9323,
      "step": 142120
    },
    {
      "epoch": 0.29610416666666667,
      "grad_norm": 0.833960771560669,
      "learning_rate": 0.00024075529223626833,
      "loss": 3.7736,
      "step": 142130
    },
    {
      "epoch": 0.296125,
      "grad_norm": 0.736834704875946,
      "learning_rate": 0.0002407474426724842,
      "loss": 3.9314,
      "step": 142140
    },
    {
      "epoch": 0.29614583333333333,
      "grad_norm": 0.7131876945495605,
      "learning_rate": 0.00024073959271670697,
      "loss": 3.811,
      "step": 142150
    },
    {
      "epoch": 0.2961666666666667,
      "grad_norm": 0.735802412033081,
      "learning_rate": 0.00024073174236897065,
      "loss": 3.9013,
      "step": 142160
    },
    {
      "epoch": 0.2961875,
      "grad_norm": 0.8204641938209534,
      "learning_rate": 0.00024072389162930913,
      "loss": 3.8905,
      "step": 142170
    },
    {
      "epoch": 0.29620833333333335,
      "grad_norm": 0.7033344507217407,
      "learning_rate": 0.0002407160404977563,
      "loss": 4.0879,
      "step": 142180
    },
    {
      "epoch": 0.29622916666666665,
      "grad_norm": 0.8186962604522705,
      "learning_rate": 0.00024070818897434606,
      "loss": 3.8509,
      "step": 142190
    },
    {
      "epoch": 0.29625,
      "grad_norm": 0.7887150049209595,
      "learning_rate": 0.00024070033705911236,
      "loss": 3.9576,
      "step": 142200
    },
    {
      "epoch": 0.2962708333333333,
      "grad_norm": 0.7579504251480103,
      "learning_rate": 0.0002406924847520891,
      "loss": 3.7415,
      "step": 142210
    },
    {
      "epoch": 0.2962916666666667,
      "grad_norm": 0.737472653388977,
      "learning_rate": 0.00024068463205331023,
      "loss": 3.9991,
      "step": 142220
    },
    {
      "epoch": 0.2963125,
      "grad_norm": 0.7405239343643188,
      "learning_rate": 0.00024067677896280962,
      "loss": 3.8221,
      "step": 142230
    },
    {
      "epoch": 0.29633333333333334,
      "grad_norm": 0.806215763092041,
      "learning_rate": 0.00024066892548062124,
      "loss": 3.675,
      "step": 142240
    },
    {
      "epoch": 0.29635416666666664,
      "grad_norm": 0.7775173187255859,
      "learning_rate": 0.00024066107160677897,
      "loss": 3.7548,
      "step": 142250
    },
    {
      "epoch": 0.296375,
      "grad_norm": 0.7418007850646973,
      "learning_rate": 0.00024065321734131675,
      "loss": 3.6782,
      "step": 142260
    },
    {
      "epoch": 0.29639583333333336,
      "grad_norm": 0.7163615226745605,
      "learning_rate": 0.0002406453626842685,
      "loss": 3.8068,
      "step": 142270
    },
    {
      "epoch": 0.29641666666666666,
      "grad_norm": 0.7844934463500977,
      "learning_rate": 0.00024063750763566824,
      "loss": 3.7078,
      "step": 142280
    },
    {
      "epoch": 0.2964375,
      "grad_norm": 0.859001874923706,
      "learning_rate": 0.00024062965219554975,
      "loss": 3.9052,
      "step": 142290
    },
    {
      "epoch": 0.2964583333333333,
      "grad_norm": 0.7622842788696289,
      "learning_rate": 0.00024062179636394706,
      "loss": 3.8388,
      "step": 142300
    },
    {
      "epoch": 0.2964791666666667,
      "grad_norm": 0.7675563097000122,
      "learning_rate": 0.00024061394014089407,
      "loss": 3.7715,
      "step": 142310
    },
    {
      "epoch": 0.2965,
      "grad_norm": 0.6957120895385742,
      "learning_rate": 0.00024060608352642474,
      "loss": 3.9384,
      "step": 142320
    },
    {
      "epoch": 0.29652083333333334,
      "grad_norm": 0.7532066106796265,
      "learning_rate": 0.000240598226520573,
      "loss": 3.7027,
      "step": 142330
    },
    {
      "epoch": 0.29654166666666665,
      "grad_norm": 0.8184198141098022,
      "learning_rate": 0.0002405903691233728,
      "loss": 3.7474,
      "step": 142340
    },
    {
      "epoch": 0.2965625,
      "grad_norm": 0.8469700813293457,
      "learning_rate": 0.000240582511334858,
      "loss": 3.8338,
      "step": 142350
    },
    {
      "epoch": 0.2965833333333333,
      "grad_norm": 0.7744404077529907,
      "learning_rate": 0.00024057465315506266,
      "loss": 3.8823,
      "step": 142360
    },
    {
      "epoch": 0.29660416666666667,
      "grad_norm": 0.7721949815750122,
      "learning_rate": 0.00024056679458402068,
      "loss": 3.9053,
      "step": 142370
    },
    {
      "epoch": 0.296625,
      "grad_norm": 0.7477405071258545,
      "learning_rate": 0.00024055893562176592,
      "loss": 3.9957,
      "step": 142380
    },
    {
      "epoch": 0.29664583333333333,
      "grad_norm": 0.7738804817199707,
      "learning_rate": 0.00024055107626833245,
      "loss": 4.0451,
      "step": 142390
    },
    {
      "epoch": 0.2966666666666667,
      "grad_norm": 0.8903459906578064,
      "learning_rate": 0.0002405432165237542,
      "loss": 3.8819,
      "step": 142400
    },
    {
      "epoch": 0.2966875,
      "grad_norm": 0.7081618309020996,
      "learning_rate": 0.00024053535638806506,
      "loss": 3.6315,
      "step": 142410
    },
    {
      "epoch": 0.29670833333333335,
      "grad_norm": 0.7210261225700378,
      "learning_rate": 0.00024052749586129908,
      "loss": 3.6548,
      "step": 142420
    },
    {
      "epoch": 0.29672916666666665,
      "grad_norm": 0.7552427649497986,
      "learning_rate": 0.00024051963494349006,
      "loss": 3.8905,
      "step": 142430
    },
    {
      "epoch": 0.29675,
      "grad_norm": 0.7781370878219604,
      "learning_rate": 0.00024051177363467206,
      "loss": 3.8336,
      "step": 142440
    },
    {
      "epoch": 0.2967708333333333,
      "grad_norm": 0.7458909153938293,
      "learning_rate": 0.0002405039119348791,
      "loss": 3.8927,
      "step": 142450
    },
    {
      "epoch": 0.2967916666666667,
      "grad_norm": 0.7027264833450317,
      "learning_rate": 0.000240496049844145,
      "loss": 4.0941,
      "step": 142460
    },
    {
      "epoch": 0.2968125,
      "grad_norm": 0.6746301651000977,
      "learning_rate": 0.00024048818736250376,
      "loss": 3.7774,
      "step": 142470
    },
    {
      "epoch": 0.29683333333333334,
      "grad_norm": 0.8510965704917908,
      "learning_rate": 0.0002404803244899894,
      "loss": 3.8966,
      "step": 142480
    },
    {
      "epoch": 0.29685416666666664,
      "grad_norm": 0.7333560585975647,
      "learning_rate": 0.00024047246122663592,
      "loss": 4.017,
      "step": 142490
    },
    {
      "epoch": 0.296875,
      "grad_norm": 0.8176580667495728,
      "learning_rate": 0.00024046459757247714,
      "loss": 3.8584,
      "step": 142500
    },
    {
      "epoch": 0.29689583333333336,
      "grad_norm": 0.7123785018920898,
      "learning_rate": 0.0002404567335275471,
      "loss": 3.8442,
      "step": 142510
    },
    {
      "epoch": 0.29691666666666666,
      "grad_norm": 0.7650035619735718,
      "learning_rate": 0.00024044886909187983,
      "loss": 3.9413,
      "step": 142520
    },
    {
      "epoch": 0.2969375,
      "grad_norm": 0.7065532803535461,
      "learning_rate": 0.00024044100426550923,
      "loss": 3.8154,
      "step": 142530
    },
    {
      "epoch": 0.2969583333333333,
      "grad_norm": 0.8062930107116699,
      "learning_rate": 0.00024043313904846927,
      "loss": 3.9168,
      "step": 142540
    },
    {
      "epoch": 0.2969791666666667,
      "grad_norm": 0.666556179523468,
      "learning_rate": 0.00024042527344079396,
      "loss": 3.7148,
      "step": 142550
    },
    {
      "epoch": 0.297,
      "grad_norm": 0.8751487135887146,
      "learning_rate": 0.00024041740744251726,
      "loss": 3.7463,
      "step": 142560
    },
    {
      "epoch": 0.29702083333333335,
      "grad_norm": 0.7855331301689148,
      "learning_rate": 0.00024040954105367313,
      "loss": 3.7883,
      "step": 142570
    },
    {
      "epoch": 0.29704166666666665,
      "grad_norm": 0.7697669267654419,
      "learning_rate": 0.00024040167427429558,
      "loss": 3.7721,
      "step": 142580
    },
    {
      "epoch": 0.2970625,
      "grad_norm": 0.7571374773979187,
      "learning_rate": 0.0002403938071044186,
      "loss": 3.8391,
      "step": 142590
    },
    {
      "epoch": 0.2970833333333333,
      "grad_norm": 0.8206276893615723,
      "learning_rate": 0.00024038593954407616,
      "loss": 3.9106,
      "step": 142600
    },
    {
      "epoch": 0.29710416666666667,
      "grad_norm": 0.8063560724258423,
      "learning_rate": 0.0002403780715933022,
      "loss": 4.0098,
      "step": 142610
    },
    {
      "epoch": 0.297125,
      "grad_norm": 0.8712083101272583,
      "learning_rate": 0.0002403702032521308,
      "loss": 3.8116,
      "step": 142620
    },
    {
      "epoch": 0.29714583333333333,
      "grad_norm": 0.7385857105255127,
      "learning_rate": 0.00024036233452059584,
      "loss": 3.8829,
      "step": 142630
    },
    {
      "epoch": 0.2971666666666667,
      "grad_norm": 0.775091826915741,
      "learning_rate": 0.0002403544653987314,
      "loss": 3.9962,
      "step": 142640
    },
    {
      "epoch": 0.2971875,
      "grad_norm": 0.7643676400184631,
      "learning_rate": 0.0002403465958865714,
      "loss": 3.9646,
      "step": 142650
    },
    {
      "epoch": 0.29720833333333335,
      "grad_norm": 0.8644020557403564,
      "learning_rate": 0.00024033872598414987,
      "loss": 3.8312,
      "step": 142660
    },
    {
      "epoch": 0.29722916666666666,
      "grad_norm": 1.1989870071411133,
      "learning_rate": 0.0002403308556915008,
      "loss": 3.8939,
      "step": 142670
    },
    {
      "epoch": 0.29725,
      "grad_norm": 0.704155445098877,
      "learning_rate": 0.0002403229850086582,
      "loss": 3.7464,
      "step": 142680
    },
    {
      "epoch": 0.2972708333333333,
      "grad_norm": 0.7560657262802124,
      "learning_rate": 0.0002403151139356561,
      "loss": 3.772,
      "step": 142690
    },
    {
      "epoch": 0.2972916666666667,
      "grad_norm": 0.7802797555923462,
      "learning_rate": 0.0002403072424725284,
      "loss": 3.8669,
      "step": 142700
    },
    {
      "epoch": 0.2973125,
      "grad_norm": 0.9592667818069458,
      "learning_rate": 0.0002402993706193092,
      "loss": 3.8461,
      "step": 142710
    },
    {
      "epoch": 0.29733333333333334,
      "grad_norm": 0.7410505414009094,
      "learning_rate": 0.0002402914983760324,
      "loss": 3.7635,
      "step": 142720
    },
    {
      "epoch": 0.29735416666666664,
      "grad_norm": 0.9048067927360535,
      "learning_rate": 0.00024028362574273214,
      "loss": 3.8158,
      "step": 142730
    },
    {
      "epoch": 0.297375,
      "grad_norm": 0.8481195569038391,
      "learning_rate": 0.0002402757527194423,
      "loss": 4.0178,
      "step": 142740
    },
    {
      "epoch": 0.29739583333333336,
      "grad_norm": 0.9598065614700317,
      "learning_rate": 0.00024026787930619693,
      "loss": 3.8324,
      "step": 142750
    },
    {
      "epoch": 0.29741666666666666,
      "grad_norm": 0.8239943385124207,
      "learning_rate": 0.00024026000550303014,
      "loss": 3.789,
      "step": 142760
    },
    {
      "epoch": 0.2974375,
      "grad_norm": 0.7778174877166748,
      "learning_rate": 0.00024025213130997577,
      "loss": 3.9275,
      "step": 142770
    },
    {
      "epoch": 0.2974583333333333,
      "grad_norm": 0.8203853964805603,
      "learning_rate": 0.00024024425672706793,
      "loss": 3.973,
      "step": 142780
    },
    {
      "epoch": 0.2974791666666667,
      "grad_norm": 0.6867310404777527,
      "learning_rate": 0.00024023638175434066,
      "loss": 3.7403,
      "step": 142790
    },
    {
      "epoch": 0.2975,
      "grad_norm": 0.7706397175788879,
      "learning_rate": 0.0002402285063918279,
      "loss": 3.8747,
      "step": 142800
    },
    {
      "epoch": 0.29752083333333335,
      "grad_norm": 0.8105576038360596,
      "learning_rate": 0.00024022063063956374,
      "loss": 3.8448,
      "step": 142810
    },
    {
      "epoch": 0.29754166666666665,
      "grad_norm": 0.7678748369216919,
      "learning_rate": 0.00024021275449758212,
      "loss": 3.8812,
      "step": 142820
    },
    {
      "epoch": 0.2975625,
      "grad_norm": 0.7547206878662109,
      "learning_rate": 0.00024020487796591714,
      "loss": 4.0026,
      "step": 142830
    },
    {
      "epoch": 0.2975833333333333,
      "grad_norm": 0.8681719303131104,
      "learning_rate": 0.00024019700104460282,
      "loss": 3.7746,
      "step": 142840
    },
    {
      "epoch": 0.29760416666666667,
      "grad_norm": 0.7375267744064331,
      "learning_rate": 0.0002401891237336731,
      "loss": 3.9287,
      "step": 142850
    },
    {
      "epoch": 0.297625,
      "grad_norm": 0.783271312713623,
      "learning_rate": 0.0002401812460331621,
      "loss": 3.8416,
      "step": 142860
    },
    {
      "epoch": 0.29764583333333333,
      "grad_norm": 0.7762700915336609,
      "learning_rate": 0.00024017336794310382,
      "loss": 3.8337,
      "step": 142870
    },
    {
      "epoch": 0.2976666666666667,
      "grad_norm": 0.825272262096405,
      "learning_rate": 0.00024016548946353223,
      "loss": 3.9032,
      "step": 142880
    },
    {
      "epoch": 0.2976875,
      "grad_norm": 0.8174690008163452,
      "learning_rate": 0.00024015761059448145,
      "loss": 3.7184,
      "step": 142890
    },
    {
      "epoch": 0.29770833333333335,
      "grad_norm": 0.925254225730896,
      "learning_rate": 0.00024014973133598555,
      "loss": 3.8273,
      "step": 142900
    },
    {
      "epoch": 0.29772916666666666,
      "grad_norm": 0.9827408194541931,
      "learning_rate": 0.00024014185168807838,
      "loss": 3.8991,
      "step": 142910
    },
    {
      "epoch": 0.29775,
      "grad_norm": 0.8028187155723572,
      "learning_rate": 0.00024013397165079415,
      "loss": 3.8823,
      "step": 142920
    },
    {
      "epoch": 0.2977708333333333,
      "grad_norm": 0.7825886011123657,
      "learning_rate": 0.00024012609122416685,
      "loss": 3.7475,
      "step": 142930
    },
    {
      "epoch": 0.2977916666666667,
      "grad_norm": 0.7114209532737732,
      "learning_rate": 0.00024011821040823046,
      "loss": 3.8187,
      "step": 142940
    },
    {
      "epoch": 0.2978125,
      "grad_norm": 0.833908200263977,
      "learning_rate": 0.00024011032920301912,
      "loss": 3.9733,
      "step": 142950
    },
    {
      "epoch": 0.29783333333333334,
      "grad_norm": 0.8018801212310791,
      "learning_rate": 0.00024010244760856682,
      "loss": 3.9312,
      "step": 142960
    },
    {
      "epoch": 0.29785416666666664,
      "grad_norm": 0.7183029055595398,
      "learning_rate": 0.00024009456562490758,
      "loss": 3.968,
      "step": 142970
    },
    {
      "epoch": 0.297875,
      "grad_norm": 0.7013893723487854,
      "learning_rate": 0.0002400866832520755,
      "loss": 3.8652,
      "step": 142980
    },
    {
      "epoch": 0.29789583333333336,
      "grad_norm": 0.9590338468551636,
      "learning_rate": 0.00024007880049010464,
      "loss": 3.7753,
      "step": 142990
    },
    {
      "epoch": 0.29791666666666666,
      "grad_norm": 0.6982789635658264,
      "learning_rate": 0.00024007091733902895,
      "loss": 3.6953,
      "step": 143000
    },
    {
      "epoch": 0.29791666666666666,
      "eval_loss": 4.204442024230957,
      "eval_runtime": 10.935,
      "eval_samples_per_second": 0.914,
      "eval_steps_per_second": 0.274,
      "step": 143000
    },
    {
      "epoch": 0.2979375,
      "grad_norm": 0.7130032181739807,
      "learning_rate": 0.0002400630337988826,
      "loss": 3.933,
      "step": 143010
    },
    {
      "epoch": 0.2979583333333333,
      "grad_norm": 0.7911947965621948,
      "learning_rate": 0.00024005514986969958,
      "loss": 3.7847,
      "step": 143020
    },
    {
      "epoch": 0.2979791666666667,
      "grad_norm": 0.8167963624000549,
      "learning_rate": 0.00024004726555151395,
      "loss": 3.9054,
      "step": 143030
    },
    {
      "epoch": 0.298,
      "grad_norm": 0.7938100695610046,
      "learning_rate": 0.00024003938084435976,
      "loss": 3.8911,
      "step": 143040
    },
    {
      "epoch": 0.29802083333333335,
      "grad_norm": 0.8689572811126709,
      "learning_rate": 0.0002400314957482711,
      "loss": 3.8963,
      "step": 143050
    },
    {
      "epoch": 0.29804166666666665,
      "grad_norm": 0.7823813557624817,
      "learning_rate": 0.00024002361026328206,
      "loss": 3.686,
      "step": 143060
    },
    {
      "epoch": 0.2980625,
      "grad_norm": 0.7494820356369019,
      "learning_rate": 0.0002400157243894266,
      "loss": 3.9981,
      "step": 143070
    },
    {
      "epoch": 0.2980833333333333,
      "grad_norm": 0.6734172105789185,
      "learning_rate": 0.00024000783812673884,
      "loss": 4.0629,
      "step": 143080
    },
    {
      "epoch": 0.29810416666666667,
      "grad_norm": 0.7274554371833801,
      "learning_rate": 0.0002399999514752529,
      "loss": 3.9183,
      "step": 143090
    },
    {
      "epoch": 0.298125,
      "grad_norm": 0.768528163433075,
      "learning_rate": 0.00023999206443500273,
      "loss": 3.8636,
      "step": 143100
    },
    {
      "epoch": 0.29814583333333333,
      "grad_norm": 0.7654592990875244,
      "learning_rate": 0.00023998417700602252,
      "loss": 3.8754,
      "step": 143110
    },
    {
      "epoch": 0.2981666666666667,
      "grad_norm": 0.8371890187263489,
      "learning_rate": 0.00023997628918834626,
      "loss": 3.6181,
      "step": 143120
    },
    {
      "epoch": 0.2981875,
      "grad_norm": 1.0312129259109497,
      "learning_rate": 0.00023996840098200806,
      "loss": 3.8531,
      "step": 143130
    },
    {
      "epoch": 0.29820833333333335,
      "grad_norm": 0.7667146325111389,
      "learning_rate": 0.00023996051238704192,
      "loss": 3.8755,
      "step": 143140
    },
    {
      "epoch": 0.29822916666666666,
      "grad_norm": 0.7941297292709351,
      "learning_rate": 0.00023995262340348206,
      "loss": 3.8169,
      "step": 143150
    },
    {
      "epoch": 0.29825,
      "grad_norm": 0.7266224026679993,
      "learning_rate": 0.00023994473403136238,
      "loss": 4.0118,
      "step": 143160
    },
    {
      "epoch": 0.2982708333333333,
      "grad_norm": 0.7759219408035278,
      "learning_rate": 0.00023993684427071711,
      "loss": 3.762,
      "step": 143170
    },
    {
      "epoch": 0.2982916666666667,
      "grad_norm": 0.8343052268028259,
      "learning_rate": 0.00023992895412158028,
      "loss": 3.9807,
      "step": 143180
    },
    {
      "epoch": 0.2983125,
      "grad_norm": 1.145581841468811,
      "learning_rate": 0.00023992106358398596,
      "loss": 3.7653,
      "step": 143190
    },
    {
      "epoch": 0.29833333333333334,
      "grad_norm": 0.7514909505844116,
      "learning_rate": 0.0002399131726579682,
      "loss": 3.8004,
      "step": 143200
    },
    {
      "epoch": 0.29835416666666664,
      "grad_norm": 0.7333863973617554,
      "learning_rate": 0.0002399052813435612,
      "loss": 3.8022,
      "step": 143210
    },
    {
      "epoch": 0.298375,
      "grad_norm": 0.745380163192749,
      "learning_rate": 0.00023989738964079888,
      "loss": 3.8969,
      "step": 143220
    },
    {
      "epoch": 0.29839583333333336,
      "grad_norm": 0.7043828368186951,
      "learning_rate": 0.0002398894975497155,
      "loss": 3.8707,
      "step": 143230
    },
    {
      "epoch": 0.29841666666666666,
      "grad_norm": 0.6991416811943054,
      "learning_rate": 0.00023988160507034504,
      "loss": 3.8276,
      "step": 143240
    },
    {
      "epoch": 0.2984375,
      "grad_norm": 0.8049972057342529,
      "learning_rate": 0.0002398737122027216,
      "loss": 3.8412,
      "step": 143250
    },
    {
      "epoch": 0.2984583333333333,
      "grad_norm": 0.7084864377975464,
      "learning_rate": 0.00023986581894687933,
      "loss": 3.9498,
      "step": 143260
    },
    {
      "epoch": 0.2984791666666667,
      "grad_norm": 0.6952663660049438,
      "learning_rate": 0.00023985792530285225,
      "loss": 3.8311,
      "step": 143270
    },
    {
      "epoch": 0.2985,
      "grad_norm": 0.8309416770935059,
      "learning_rate": 0.00023985003127067453,
      "loss": 3.8816,
      "step": 143280
    },
    {
      "epoch": 0.29852083333333335,
      "grad_norm": 0.9307279586791992,
      "learning_rate": 0.00023984213685038024,
      "loss": 3.9748,
      "step": 143290
    },
    {
      "epoch": 0.29854166666666665,
      "grad_norm": 0.7182081341743469,
      "learning_rate": 0.0002398342420420035,
      "loss": 4.0329,
      "step": 143300
    },
    {
      "epoch": 0.2985625,
      "grad_norm": 0.8063571453094482,
      "learning_rate": 0.00023982634684557839,
      "loss": 3.884,
      "step": 143310
    },
    {
      "epoch": 0.2985833333333333,
      "grad_norm": 0.7549446821212769,
      "learning_rate": 0.00023981845126113898,
      "loss": 3.8881,
      "step": 143320
    },
    {
      "epoch": 0.29860416666666667,
      "grad_norm": 0.7458600997924805,
      "learning_rate": 0.00023981055528871946,
      "loss": 3.8989,
      "step": 143330
    },
    {
      "epoch": 0.298625,
      "grad_norm": 0.7047514319419861,
      "learning_rate": 0.00023980265892835383,
      "loss": 4.0266,
      "step": 143340
    },
    {
      "epoch": 0.29864583333333333,
      "grad_norm": 0.7286339998245239,
      "learning_rate": 0.00023979476218007634,
      "loss": 3.8546,
      "step": 143350
    },
    {
      "epoch": 0.2986666666666667,
      "grad_norm": 0.6967998147010803,
      "learning_rate": 0.00023978686504392096,
      "loss": 3.7904,
      "step": 143360
    },
    {
      "epoch": 0.2986875,
      "grad_norm": 0.6917837262153625,
      "learning_rate": 0.0002397789675199219,
      "loss": 3.9618,
      "step": 143370
    },
    {
      "epoch": 0.29870833333333335,
      "grad_norm": 0.743219792842865,
      "learning_rate": 0.0002397710696081132,
      "loss": 4.1029,
      "step": 143380
    },
    {
      "epoch": 0.29872916666666666,
      "grad_norm": 0.7349467873573303,
      "learning_rate": 0.00023976317130852904,
      "loss": 3.9119,
      "step": 143390
    },
    {
      "epoch": 0.29875,
      "grad_norm": 0.866553783416748,
      "learning_rate": 0.00023975527262120352,
      "loss": 3.878,
      "step": 143400
    },
    {
      "epoch": 0.2987708333333333,
      "grad_norm": 0.8215396404266357,
      "learning_rate": 0.00023974737354617073,
      "loss": 3.8187,
      "step": 143410
    },
    {
      "epoch": 0.2987916666666667,
      "grad_norm": 0.8764412999153137,
      "learning_rate": 0.00023973947408346478,
      "loss": 3.8098,
      "step": 143420
    },
    {
      "epoch": 0.2988125,
      "grad_norm": 0.9412057995796204,
      "learning_rate": 0.00023973157423311987,
      "loss": 3.7771,
      "step": 143430
    },
    {
      "epoch": 0.29883333333333334,
      "grad_norm": 0.786922812461853,
      "learning_rate": 0.00023972367399517004,
      "loss": 3.8542,
      "step": 143440
    },
    {
      "epoch": 0.29885416666666664,
      "grad_norm": 0.6840950846672058,
      "learning_rate": 0.0002397157733696495,
      "loss": 3.6552,
      "step": 143450
    },
    {
      "epoch": 0.298875,
      "grad_norm": 0.7778063416481018,
      "learning_rate": 0.0002397078723565923,
      "loss": 3.7833,
      "step": 143460
    },
    {
      "epoch": 0.29889583333333336,
      "grad_norm": 0.8713643550872803,
      "learning_rate": 0.0002396999709560326,
      "loss": 3.6385,
      "step": 143470
    },
    {
      "epoch": 0.29891666666666666,
      "grad_norm": 0.9960650205612183,
      "learning_rate": 0.00023969206916800453,
      "loss": 3.9976,
      "step": 143480
    },
    {
      "epoch": 0.2989375,
      "grad_norm": 0.6345992088317871,
      "learning_rate": 0.00023968416699254224,
      "loss": 3.9774,
      "step": 143490
    },
    {
      "epoch": 0.2989583333333333,
      "grad_norm": 0.7897392511367798,
      "learning_rate": 0.00023967626442967987,
      "loss": 3.9176,
      "step": 143500
    },
    {
      "epoch": 0.2989791666666667,
      "grad_norm": 0.7337696552276611,
      "learning_rate": 0.00023966836147945152,
      "loss": 3.9026,
      "step": 143510
    },
    {
      "epoch": 0.299,
      "grad_norm": 1.0054527521133423,
      "learning_rate": 0.00023966045814189133,
      "loss": 3.877,
      "step": 143520
    },
    {
      "epoch": 0.29902083333333335,
      "grad_norm": 0.7415539622306824,
      "learning_rate": 0.0002396525544170334,
      "loss": 3.8781,
      "step": 143530
    },
    {
      "epoch": 0.29904166666666665,
      "grad_norm": 0.8891953825950623,
      "learning_rate": 0.00023964465030491198,
      "loss": 3.9911,
      "step": 143540
    },
    {
      "epoch": 0.2990625,
      "grad_norm": 0.8283354043960571,
      "learning_rate": 0.00023963674580556116,
      "loss": 3.8546,
      "step": 143550
    },
    {
      "epoch": 0.2990833333333333,
      "grad_norm": 0.7903530597686768,
      "learning_rate": 0.00023962884091901503,
      "loss": 3.9196,
      "step": 143560
    },
    {
      "epoch": 0.29910416666666667,
      "grad_norm": 0.8839898705482483,
      "learning_rate": 0.00023962093564530785,
      "loss": 3.6342,
      "step": 143570
    },
    {
      "epoch": 0.299125,
      "grad_norm": 0.7028751969337463,
      "learning_rate": 0.00023961302998447366,
      "loss": 3.826,
      "step": 143580
    },
    {
      "epoch": 0.29914583333333333,
      "grad_norm": 0.738987922668457,
      "learning_rate": 0.00023960512393654667,
      "loss": 3.8847,
      "step": 143590
    },
    {
      "epoch": 0.2991666666666667,
      "grad_norm": 0.7846412658691406,
      "learning_rate": 0.00023959721750156098,
      "loss": 3.9436,
      "step": 143600
    },
    {
      "epoch": 0.2991875,
      "grad_norm": 0.8081308603286743,
      "learning_rate": 0.0002395893106795508,
      "loss": 3.851,
      "step": 143610
    },
    {
      "epoch": 0.29920833333333335,
      "grad_norm": 0.7400113344192505,
      "learning_rate": 0.0002395814034705503,
      "loss": 3.9926,
      "step": 143620
    },
    {
      "epoch": 0.29922916666666666,
      "grad_norm": 0.9014293551445007,
      "learning_rate": 0.0002395734958745935,
      "loss": 3.8128,
      "step": 143630
    },
    {
      "epoch": 0.29925,
      "grad_norm": 0.7789514660835266,
      "learning_rate": 0.0002395655878917147,
      "loss": 3.8254,
      "step": 143640
    },
    {
      "epoch": 0.2992708333333333,
      "grad_norm": 0.7082439661026001,
      "learning_rate": 0.00023955767952194807,
      "loss": 3.8111,
      "step": 143650
    },
    {
      "epoch": 0.2992916666666667,
      "grad_norm": 0.7504194378852844,
      "learning_rate": 0.00023954977076532765,
      "loss": 3.7283,
      "step": 143660
    },
    {
      "epoch": 0.2993125,
      "grad_norm": 0.757258951663971,
      "learning_rate": 0.00023954186162188768,
      "loss": 3.9295,
      "step": 143670
    },
    {
      "epoch": 0.29933333333333334,
      "grad_norm": 0.8250530958175659,
      "learning_rate": 0.00023953395209166232,
      "loss": 3.755,
      "step": 143680
    },
    {
      "epoch": 0.29935416666666664,
      "grad_norm": 0.7597730159759521,
      "learning_rate": 0.00023952604217468572,
      "loss": 3.715,
      "step": 143690
    },
    {
      "epoch": 0.299375,
      "grad_norm": 0.8059885501861572,
      "learning_rate": 0.00023951813187099202,
      "loss": 3.801,
      "step": 143700
    },
    {
      "epoch": 0.29939583333333336,
      "grad_norm": 0.8491482734680176,
      "learning_rate": 0.0002395102211806155,
      "loss": 3.7962,
      "step": 143710
    },
    {
      "epoch": 0.29941666666666666,
      "grad_norm": 0.7517129778862,
      "learning_rate": 0.0002395023101035902,
      "loss": 3.8547,
      "step": 143720
    },
    {
      "epoch": 0.2994375,
      "grad_norm": 0.7200613617897034,
      "learning_rate": 0.00023949439863995035,
      "loss": 3.9338,
      "step": 143730
    },
    {
      "epoch": 0.2994583333333333,
      "grad_norm": 0.8986267447471619,
      "learning_rate": 0.00023948648678973015,
      "loss": 3.7648,
      "step": 143740
    },
    {
      "epoch": 0.2994791666666667,
      "grad_norm": 0.8356074094772339,
      "learning_rate": 0.00023947857455296372,
      "loss": 3.8775,
      "step": 143750
    },
    {
      "epoch": 0.2995,
      "grad_norm": 0.9493493437767029,
      "learning_rate": 0.00023947066192968528,
      "loss": 3.6651,
      "step": 143760
    },
    {
      "epoch": 0.29952083333333335,
      "grad_norm": 0.69754958152771,
      "learning_rate": 0.000239462748919929,
      "loss": 3.8758,
      "step": 143770
    },
    {
      "epoch": 0.29954166666666665,
      "grad_norm": 0.717810869216919,
      "learning_rate": 0.00023945483552372906,
      "loss": 4.0206,
      "step": 143780
    },
    {
      "epoch": 0.2995625,
      "grad_norm": 0.8606691956520081,
      "learning_rate": 0.0002394469217411196,
      "loss": 3.8118,
      "step": 143790
    },
    {
      "epoch": 0.2995833333333333,
      "grad_norm": 0.7894060015678406,
      "learning_rate": 0.0002394390075721349,
      "loss": 3.8696,
      "step": 143800
    },
    {
      "epoch": 0.29960416666666667,
      "grad_norm": 0.7285727262496948,
      "learning_rate": 0.00023943109301680906,
      "loss": 3.9511,
      "step": 143810
    },
    {
      "epoch": 0.299625,
      "grad_norm": 0.8208957314491272,
      "learning_rate": 0.00023942317807517632,
      "loss": 3.8754,
      "step": 143820
    },
    {
      "epoch": 0.29964583333333333,
      "grad_norm": 0.7618768215179443,
      "learning_rate": 0.00023941526274727084,
      "loss": 3.7803,
      "step": 143830
    },
    {
      "epoch": 0.2996666666666667,
      "grad_norm": 1.1218352317810059,
      "learning_rate": 0.00023940734703312678,
      "loss": 3.8804,
      "step": 143840
    },
    {
      "epoch": 0.2996875,
      "grad_norm": 0.8502419590950012,
      "learning_rate": 0.00023939943093277837,
      "loss": 3.8202,
      "step": 143850
    },
    {
      "epoch": 0.29970833333333335,
      "grad_norm": 0.6353287100791931,
      "learning_rate": 0.00023939151444625986,
      "loss": 3.794,
      "step": 143860
    },
    {
      "epoch": 0.29972916666666666,
      "grad_norm": 0.845636785030365,
      "learning_rate": 0.00023938359757360534,
      "loss": 3.8411,
      "step": 143870
    },
    {
      "epoch": 0.29975,
      "grad_norm": 1.2195243835449219,
      "learning_rate": 0.00023937568031484908,
      "loss": 3.8249,
      "step": 143880
    },
    {
      "epoch": 0.2997708333333333,
      "grad_norm": 0.6827825307846069,
      "learning_rate": 0.00023936776267002527,
      "loss": 3.7319,
      "step": 143890
    },
    {
      "epoch": 0.2997916666666667,
      "grad_norm": 0.7157270312309265,
      "learning_rate": 0.00023935984463916807,
      "loss": 3.8859,
      "step": 143900
    },
    {
      "epoch": 0.2998125,
      "grad_norm": 0.7898781299591064,
      "learning_rate": 0.00023935192622231174,
      "loss": 3.9058,
      "step": 143910
    },
    {
      "epoch": 0.29983333333333334,
      "grad_norm": 0.837833821773529,
      "learning_rate": 0.00023934400741949045,
      "loss": 3.8408,
      "step": 143920
    },
    {
      "epoch": 0.29985416666666664,
      "grad_norm": 0.8024502396583557,
      "learning_rate": 0.00023933608823073843,
      "loss": 3.8672,
      "step": 143930
    },
    {
      "epoch": 0.299875,
      "grad_norm": 0.8315938711166382,
      "learning_rate": 0.00023932816865608985,
      "loss": 3.9214,
      "step": 143940
    },
    {
      "epoch": 0.2998958333333333,
      "grad_norm": 0.9916331768035889,
      "learning_rate": 0.00023932024869557892,
      "loss": 3.8075,
      "step": 143950
    },
    {
      "epoch": 0.29991666666666666,
      "grad_norm": 0.737503707408905,
      "learning_rate": 0.0002393123283492399,
      "loss": 3.9146,
      "step": 143960
    },
    {
      "epoch": 0.2999375,
      "grad_norm": 0.8438079357147217,
      "learning_rate": 0.00023930440761710698,
      "loss": 3.9427,
      "step": 143970
    },
    {
      "epoch": 0.2999583333333333,
      "grad_norm": 1.3569053411483765,
      "learning_rate": 0.00023929648649921435,
      "loss": 3.9017,
      "step": 143980
    },
    {
      "epoch": 0.2999791666666667,
      "grad_norm": 0.7439873218536377,
      "learning_rate": 0.00023928856499559622,
      "loss": 3.9444,
      "step": 143990
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8077776432037354,
      "learning_rate": 0.0002392806431062869,
      "loss": 3.9106,
      "step": 144000
    },
    {
      "epoch": 0.3,
      "eval_loss": 4.207973480224609,
      "eval_runtime": 9.8754,
      "eval_samples_per_second": 1.013,
      "eval_steps_per_second": 0.304,
      "step": 144000
    },
    {
      "epoch": 0.30002083333333335,
      "grad_norm": 0.6806378960609436,
      "learning_rate": 0.00023927272083132048,
      "loss": 3.8688,
      "step": 144010
    },
    {
      "epoch": 0.30004166666666665,
      "grad_norm": 0.7215505242347717,
      "learning_rate": 0.00023926479817073127,
      "loss": 3.8272,
      "step": 144020
    },
    {
      "epoch": 0.3000625,
      "grad_norm": 0.8021240234375,
      "learning_rate": 0.00023925687512455347,
      "loss": 3.8006,
      "step": 144030
    },
    {
      "epoch": 0.3000833333333333,
      "grad_norm": 0.8563167452812195,
      "learning_rate": 0.00023924895169282127,
      "loss": 3.8309,
      "step": 144040
    },
    {
      "epoch": 0.30010416666666667,
      "grad_norm": 0.8607861399650574,
      "learning_rate": 0.00023924102787556894,
      "loss": 3.9877,
      "step": 144050
    },
    {
      "epoch": 0.300125,
      "grad_norm": 1.009454607963562,
      "learning_rate": 0.00023923310367283073,
      "loss": 3.8869,
      "step": 144060
    },
    {
      "epoch": 0.30014583333333333,
      "grad_norm": 0.6760945320129395,
      "learning_rate": 0.00023922517908464075,
      "loss": 3.8771,
      "step": 144070
    },
    {
      "epoch": 0.3001666666666667,
      "grad_norm": 0.9272179007530212,
      "learning_rate": 0.00023921725411103341,
      "loss": 3.8672,
      "step": 144080
    },
    {
      "epoch": 0.3001875,
      "grad_norm": 0.7456073760986328,
      "learning_rate": 0.0002392093287520428,
      "loss": 3.9842,
      "step": 144090
    },
    {
      "epoch": 0.30020833333333335,
      "grad_norm": 0.9807628393173218,
      "learning_rate": 0.00023920140300770322,
      "loss": 3.8141,
      "step": 144100
    },
    {
      "epoch": 0.30022916666666666,
      "grad_norm": 0.7706500887870789,
      "learning_rate": 0.0002391934768780489,
      "loss": 3.8182,
      "step": 144110
    },
    {
      "epoch": 0.30025,
      "grad_norm": 0.7258104681968689,
      "learning_rate": 0.000239185550363114,
      "loss": 3.9141,
      "step": 144120
    },
    {
      "epoch": 0.3002708333333333,
      "grad_norm": 0.8803821206092834,
      "learning_rate": 0.00023917762346293287,
      "loss": 3.7459,
      "step": 144130
    },
    {
      "epoch": 0.3002916666666667,
      "grad_norm": 0.7058150172233582,
      "learning_rate": 0.0002391696961775397,
      "loss": 3.7574,
      "step": 144140
    },
    {
      "epoch": 0.3003125,
      "grad_norm": 1.1487452983856201,
      "learning_rate": 0.0002391617685069687,
      "loss": 3.9332,
      "step": 144150
    },
    {
      "epoch": 0.30033333333333334,
      "grad_norm": 0.734576404094696,
      "learning_rate": 0.0002391538404512542,
      "loss": 3.8756,
      "step": 144160
    },
    {
      "epoch": 0.30035416666666664,
      "grad_norm": 0.753862738609314,
      "learning_rate": 0.0002391459120104304,
      "loss": 3.651,
      "step": 144170
    },
    {
      "epoch": 0.300375,
      "grad_norm": 0.882390558719635,
      "learning_rate": 0.00023913798318453153,
      "loss": 3.9628,
      "step": 144180
    },
    {
      "epoch": 0.3003958333333333,
      "grad_norm": 0.6893458366394043,
      "learning_rate": 0.0002391300539735919,
      "loss": 3.7561,
      "step": 144190
    },
    {
      "epoch": 0.30041666666666667,
      "grad_norm": 0.7750949859619141,
      "learning_rate": 0.0002391221243776456,
      "loss": 3.7684,
      "step": 144200
    },
    {
      "epoch": 0.3004375,
      "grad_norm": 0.7092562913894653,
      "learning_rate": 0.0002391141943967271,
      "loss": 3.8474,
      "step": 144210
    },
    {
      "epoch": 0.3004583333333333,
      "grad_norm": 0.7367722988128662,
      "learning_rate": 0.00023910626403087057,
      "loss": 3.9434,
      "step": 144220
    },
    {
      "epoch": 0.3004791666666667,
      "grad_norm": 0.74408358335495,
      "learning_rate": 0.0002390983332801102,
      "loss": 3.8985,
      "step": 144230
    },
    {
      "epoch": 0.3005,
      "grad_norm": 0.7502219080924988,
      "learning_rate": 0.00023909040214448028,
      "loss": 3.8609,
      "step": 144240
    },
    {
      "epoch": 0.30052083333333335,
      "grad_norm": 0.6945114731788635,
      "learning_rate": 0.00023908247062401513,
      "loss": 3.9597,
      "step": 144250
    },
    {
      "epoch": 0.30054166666666665,
      "grad_norm": 0.8239765763282776,
      "learning_rate": 0.00023907453871874893,
      "loss": 3.7949,
      "step": 144260
    },
    {
      "epoch": 0.3005625,
      "grad_norm": 0.8167003393173218,
      "learning_rate": 0.00023906660642871605,
      "loss": 3.8673,
      "step": 144270
    },
    {
      "epoch": 0.3005833333333333,
      "grad_norm": 0.6605620980262756,
      "learning_rate": 0.00023905867375395058,
      "loss": 3.989,
      "step": 144280
    },
    {
      "epoch": 0.3006041666666667,
      "grad_norm": 0.7330933809280396,
      "learning_rate": 0.00023905074069448698,
      "loss": 3.9431,
      "step": 144290
    },
    {
      "epoch": 0.300625,
      "grad_norm": 0.775764524936676,
      "learning_rate": 0.0002390428072503594,
      "loss": 3.8536,
      "step": 144300
    },
    {
      "epoch": 0.30064583333333333,
      "grad_norm": 0.8837016820907593,
      "learning_rate": 0.00023903487342160214,
      "loss": 3.853,
      "step": 144310
    },
    {
      "epoch": 0.3006666666666667,
      "grad_norm": 0.6818842887878418,
      "learning_rate": 0.00023902693920824943,
      "loss": 3.7399,
      "step": 144320
    },
    {
      "epoch": 0.3006875,
      "grad_norm": 0.7746905088424683,
      "learning_rate": 0.00023901900461033567,
      "loss": 3.738,
      "step": 144330
    },
    {
      "epoch": 0.30070833333333336,
      "grad_norm": 0.8371122479438782,
      "learning_rate": 0.00023901106962789497,
      "loss": 3.7083,
      "step": 144340
    },
    {
      "epoch": 0.30072916666666666,
      "grad_norm": 0.8236258029937744,
      "learning_rate": 0.0002390031342609617,
      "loss": 3.937,
      "step": 144350
    },
    {
      "epoch": 0.30075,
      "grad_norm": 0.9318874478340149,
      "learning_rate": 0.00023899519850957015,
      "loss": 4.0338,
      "step": 144360
    },
    {
      "epoch": 0.3007708333333333,
      "grad_norm": 0.739285409450531,
      "learning_rate": 0.00023898726237375455,
      "loss": 3.9675,
      "step": 144370
    },
    {
      "epoch": 0.3007916666666667,
      "grad_norm": 0.8675568103790283,
      "learning_rate": 0.00023897932585354917,
      "loss": 3.8704,
      "step": 144380
    },
    {
      "epoch": 0.3008125,
      "grad_norm": 0.7479971647262573,
      "learning_rate": 0.00023897138894898837,
      "loss": 3.7963,
      "step": 144390
    },
    {
      "epoch": 0.30083333333333334,
      "grad_norm": 0.6939820647239685,
      "learning_rate": 0.00023896345166010636,
      "loss": 3.8451,
      "step": 144400
    },
    {
      "epoch": 0.30085416666666664,
      "grad_norm": 0.7528862357139587,
      "learning_rate": 0.0002389555139869375,
      "loss": 3.9501,
      "step": 144410
    },
    {
      "epoch": 0.300875,
      "grad_norm": 0.8270570635795593,
      "learning_rate": 0.00023894757592951598,
      "loss": 3.9371,
      "step": 144420
    },
    {
      "epoch": 0.3008958333333333,
      "grad_norm": 0.7658125162124634,
      "learning_rate": 0.00023893963748787612,
      "loss": 3.9017,
      "step": 144430
    },
    {
      "epoch": 0.30091666666666667,
      "grad_norm": 0.7172747254371643,
      "learning_rate": 0.00023893169866205226,
      "loss": 3.9452,
      "step": 144440
    },
    {
      "epoch": 0.3009375,
      "grad_norm": 0.6606281995773315,
      "learning_rate": 0.00023892375945207866,
      "loss": 3.5813,
      "step": 144450
    },
    {
      "epoch": 0.3009583333333333,
      "grad_norm": 0.8190031051635742,
      "learning_rate": 0.00023891581985798966,
      "loss": 3.9854,
      "step": 144460
    },
    {
      "epoch": 0.3009791666666667,
      "grad_norm": 0.8217292428016663,
      "learning_rate": 0.00023890787987981943,
      "loss": 3.969,
      "step": 144470
    },
    {
      "epoch": 0.301,
      "grad_norm": 0.7868209481239319,
      "learning_rate": 0.00023889993951760243,
      "loss": 4.0967,
      "step": 144480
    },
    {
      "epoch": 0.30102083333333335,
      "grad_norm": 0.6819100379943848,
      "learning_rate": 0.0002388919987713728,
      "loss": 3.8362,
      "step": 144490
    },
    {
      "epoch": 0.30104166666666665,
      "grad_norm": 0.7580822706222534,
      "learning_rate": 0.00023888405764116498,
      "loss": 3.8864,
      "step": 144500
    },
    {
      "epoch": 0.3010625,
      "grad_norm": 0.7104545831680298,
      "learning_rate": 0.00023887611612701323,
      "loss": 3.9249,
      "step": 144510
    },
    {
      "epoch": 0.3010833333333333,
      "grad_norm": 0.7777594327926636,
      "learning_rate": 0.00023886817422895176,
      "loss": 3.8978,
      "step": 144520
    },
    {
      "epoch": 0.3011041666666667,
      "grad_norm": 0.7855724692344666,
      "learning_rate": 0.00023886023194701503,
      "loss": 3.6771,
      "step": 144530
    },
    {
      "epoch": 0.301125,
      "grad_norm": 0.7070623636245728,
      "learning_rate": 0.00023885228928123724,
      "loss": 3.7605,
      "step": 144540
    },
    {
      "epoch": 0.30114583333333333,
      "grad_norm": 0.8694538474082947,
      "learning_rate": 0.00023884434623165277,
      "loss": 3.9132,
      "step": 144550
    },
    {
      "epoch": 0.3011666666666667,
      "grad_norm": 0.8471153378486633,
      "learning_rate": 0.00023883640279829583,
      "loss": 3.8734,
      "step": 144560
    },
    {
      "epoch": 0.3011875,
      "grad_norm": 1.522042155265808,
      "learning_rate": 0.00023882845898120082,
      "loss": 3.8732,
      "step": 144570
    },
    {
      "epoch": 0.30120833333333336,
      "grad_norm": 0.7706943154335022,
      "learning_rate": 0.00023882051478040203,
      "loss": 3.8847,
      "step": 144580
    },
    {
      "epoch": 0.30122916666666666,
      "grad_norm": 0.82469642162323,
      "learning_rate": 0.0002388125701959338,
      "loss": 3.8743,
      "step": 144590
    },
    {
      "epoch": 0.30125,
      "grad_norm": 0.824709415435791,
      "learning_rate": 0.00023880462522783035,
      "loss": 3.833,
      "step": 144600
    },
    {
      "epoch": 0.3012708333333333,
      "grad_norm": 0.6941375732421875,
      "learning_rate": 0.00023879667987612615,
      "loss": 3.8958,
      "step": 144610
    },
    {
      "epoch": 0.3012916666666667,
      "grad_norm": 0.7472121119499207,
      "learning_rate": 0.0002387887341408554,
      "loss": 3.9729,
      "step": 144620
    },
    {
      "epoch": 0.3013125,
      "grad_norm": 0.8350520730018616,
      "learning_rate": 0.00023878078802205247,
      "loss": 3.7717,
      "step": 144630
    },
    {
      "epoch": 0.30133333333333334,
      "grad_norm": 0.8087494373321533,
      "learning_rate": 0.0002387728415197517,
      "loss": 3.823,
      "step": 144640
    },
    {
      "epoch": 0.30135416666666665,
      "grad_norm": 0.7782270908355713,
      "learning_rate": 0.00023876489463398731,
      "loss": 3.6618,
      "step": 144650
    },
    {
      "epoch": 0.301375,
      "grad_norm": 0.7508445382118225,
      "learning_rate": 0.00023875694736479378,
      "loss": 3.7868,
      "step": 144660
    },
    {
      "epoch": 0.3013958333333333,
      "grad_norm": 0.8869382739067078,
      "learning_rate": 0.0002387489997122054,
      "loss": 3.7941,
      "step": 144670
    },
    {
      "epoch": 0.30141666666666667,
      "grad_norm": 0.7644484043121338,
      "learning_rate": 0.00023874105167625642,
      "loss": 3.8849,
      "step": 144680
    },
    {
      "epoch": 0.3014375,
      "grad_norm": 1.1368978023529053,
      "learning_rate": 0.00023873310325698126,
      "loss": 3.9126,
      "step": 144690
    },
    {
      "epoch": 0.30145833333333333,
      "grad_norm": 0.9974356293678284,
      "learning_rate": 0.00023872515445441415,
      "loss": 3.7922,
      "step": 144700
    },
    {
      "epoch": 0.3014791666666667,
      "grad_norm": 1.0709388256072998,
      "learning_rate": 0.0002387172052685895,
      "loss": 3.804,
      "step": 144710
    },
    {
      "epoch": 0.3015,
      "grad_norm": 0.8923956751823425,
      "learning_rate": 0.00023870925569954173,
      "loss": 3.9015,
      "step": 144720
    },
    {
      "epoch": 0.30152083333333335,
      "grad_norm": 0.7109980583190918,
      "learning_rate": 0.00023870130574730501,
      "loss": 3.9328,
      "step": 144730
    },
    {
      "epoch": 0.30154166666666665,
      "grad_norm": 0.7254295945167542,
      "learning_rate": 0.0002386933554119138,
      "loss": 3.8047,
      "step": 144740
    },
    {
      "epoch": 0.3015625,
      "grad_norm": 0.8026019930839539,
      "learning_rate": 0.00023868540469340236,
      "loss": 3.9334,
      "step": 144750
    },
    {
      "epoch": 0.3015833333333333,
      "grad_norm": 0.8063021302223206,
      "learning_rate": 0.0002386774535918051,
      "loss": 3.7075,
      "step": 144760
    },
    {
      "epoch": 0.3016041666666667,
      "grad_norm": 0.6624611616134644,
      "learning_rate": 0.0002386695021071563,
      "loss": 3.8675,
      "step": 144770
    },
    {
      "epoch": 0.301625,
      "grad_norm": 0.6828374862670898,
      "learning_rate": 0.00023866155023949046,
      "loss": 3.9175,
      "step": 144780
    },
    {
      "epoch": 0.30164583333333334,
      "grad_norm": 0.7393388152122498,
      "learning_rate": 0.00023865359798884173,
      "loss": 4.0119,
      "step": 144790
    },
    {
      "epoch": 0.3016666666666667,
      "grad_norm": 0.7230608463287354,
      "learning_rate": 0.00023864564535524456,
      "loss": 3.7687,
      "step": 144800
    },
    {
      "epoch": 0.3016875,
      "grad_norm": 0.7515804767608643,
      "learning_rate": 0.0002386376923387333,
      "loss": 3.8299,
      "step": 144810
    },
    {
      "epoch": 0.30170833333333336,
      "grad_norm": 0.7810375094413757,
      "learning_rate": 0.00023862973893934225,
      "loss": 3.8954,
      "step": 144820
    },
    {
      "epoch": 0.30172916666666666,
      "grad_norm": 0.765582263469696,
      "learning_rate": 0.0002386217851571059,
      "loss": 3.8744,
      "step": 144830
    },
    {
      "epoch": 0.30175,
      "grad_norm": 0.8854968547821045,
      "learning_rate": 0.00023861383099205846,
      "loss": 3.886,
      "step": 144840
    },
    {
      "epoch": 0.3017708333333333,
      "grad_norm": 0.7710736989974976,
      "learning_rate": 0.00023860587644423432,
      "loss": 3.9835,
      "step": 144850
    },
    {
      "epoch": 0.3017916666666667,
      "grad_norm": 0.7341399788856506,
      "learning_rate": 0.00023859792151366792,
      "loss": 3.9303,
      "step": 144860
    },
    {
      "epoch": 0.3018125,
      "grad_norm": 0.7687222361564636,
      "learning_rate": 0.00023858996620039358,
      "loss": 3.755,
      "step": 144870
    },
    {
      "epoch": 0.30183333333333334,
      "grad_norm": 0.8096523284912109,
      "learning_rate": 0.0002385820105044456,
      "loss": 3.79,
      "step": 144880
    },
    {
      "epoch": 0.30185416666666665,
      "grad_norm": 0.7443678975105286,
      "learning_rate": 0.0002385740544258584,
      "loss": 3.7896,
      "step": 144890
    },
    {
      "epoch": 0.301875,
      "grad_norm": 0.8121930956840515,
      "learning_rate": 0.00023856609796466636,
      "loss": 4.0531,
      "step": 144900
    },
    {
      "epoch": 0.3018958333333333,
      "grad_norm": 0.7064416408538818,
      "learning_rate": 0.00023855814112090382,
      "loss": 3.8112,
      "step": 144910
    },
    {
      "epoch": 0.30191666666666667,
      "grad_norm": 0.7315133810043335,
      "learning_rate": 0.00023855018389460522,
      "loss": 3.8741,
      "step": 144920
    },
    {
      "epoch": 0.3019375,
      "grad_norm": 0.7856366634368896,
      "learning_rate": 0.00023854222628580483,
      "loss": 3.8976,
      "step": 144930
    },
    {
      "epoch": 0.30195833333333333,
      "grad_norm": 0.7194135189056396,
      "learning_rate": 0.00023853426829453702,
      "loss": 3.7618,
      "step": 144940
    },
    {
      "epoch": 0.3019791666666667,
      "grad_norm": 0.8751430511474609,
      "learning_rate": 0.00023852630992083634,
      "loss": 3.88,
      "step": 144950
    },
    {
      "epoch": 0.302,
      "grad_norm": 0.7712580561637878,
      "learning_rate": 0.00023851835116473697,
      "loss": 3.8739,
      "step": 144960
    },
    {
      "epoch": 0.30202083333333335,
      "grad_norm": 0.8620997667312622,
      "learning_rate": 0.00023851039202627333,
      "loss": 3.8636,
      "step": 144970
    },
    {
      "epoch": 0.30204166666666665,
      "grad_norm": 0.7990202903747559,
      "learning_rate": 0.00023850243250547986,
      "loss": 3.8074,
      "step": 144980
    },
    {
      "epoch": 0.3020625,
      "grad_norm": 0.6923763155937195,
      "learning_rate": 0.00023849447260239093,
      "loss": 3.9186,
      "step": 144990
    },
    {
      "epoch": 0.3020833333333333,
      "grad_norm": 0.7353179454803467,
      "learning_rate": 0.00023848651231704092,
      "loss": 3.926,
      "step": 145000
    },
    {
      "epoch": 0.3020833333333333,
      "eval_loss": 4.194943428039551,
      "eval_runtime": 9.6372,
      "eval_samples_per_second": 1.038,
      "eval_steps_per_second": 0.311,
      "step": 145000
    },
    {
      "epoch": 0.3021041666666667,
      "grad_norm": 0.7132719159126282,
      "learning_rate": 0.00023847855164946418,
      "loss": 3.9202,
      "step": 145010
    },
    {
      "epoch": 0.302125,
      "grad_norm": 0.7339701056480408,
      "learning_rate": 0.0002384705905996951,
      "loss": 3.9969,
      "step": 145020
    },
    {
      "epoch": 0.30214583333333334,
      "grad_norm": 0.829753041267395,
      "learning_rate": 0.00023846262916776812,
      "loss": 3.723,
      "step": 145030
    },
    {
      "epoch": 0.30216666666666664,
      "grad_norm": 0.7376500964164734,
      "learning_rate": 0.00023845466735371757,
      "loss": 3.741,
      "step": 145040
    },
    {
      "epoch": 0.3021875,
      "grad_norm": 0.7616551518440247,
      "learning_rate": 0.00023844670515757788,
      "loss": 3.9115,
      "step": 145050
    },
    {
      "epoch": 0.30220833333333336,
      "grad_norm": 0.8796248435974121,
      "learning_rate": 0.00023843874257938348,
      "loss": 3.8438,
      "step": 145060
    },
    {
      "epoch": 0.30222916666666666,
      "grad_norm": 1.015673279762268,
      "learning_rate": 0.00023843077961916865,
      "loss": 3.9144,
      "step": 145070
    },
    {
      "epoch": 0.30225,
      "grad_norm": 0.8659214377403259,
      "learning_rate": 0.00023842281627696785,
      "loss": 3.982,
      "step": 145080
    },
    {
      "epoch": 0.3022708333333333,
      "grad_norm": 0.6880617141723633,
      "learning_rate": 0.00023841485255281553,
      "loss": 3.8402,
      "step": 145090
    },
    {
      "epoch": 0.3022916666666667,
      "grad_norm": 0.7831322550773621,
      "learning_rate": 0.00023840688844674606,
      "loss": 3.8561,
      "step": 145100
    },
    {
      "epoch": 0.3023125,
      "grad_norm": 0.7872735857963562,
      "learning_rate": 0.00023839892395879377,
      "loss": 3.7407,
      "step": 145110
    },
    {
      "epoch": 0.30233333333333334,
      "grad_norm": 0.6855437755584717,
      "learning_rate": 0.00023839095908899312,
      "loss": 3.9114,
      "step": 145120
    },
    {
      "epoch": 0.30235416666666665,
      "grad_norm": 0.9450392723083496,
      "learning_rate": 0.00023838299383737859,
      "loss": 3.9512,
      "step": 145130
    },
    {
      "epoch": 0.302375,
      "grad_norm": 0.9042472243309021,
      "learning_rate": 0.00023837502820398446,
      "loss": 3.9335,
      "step": 145140
    },
    {
      "epoch": 0.3023958333333333,
      "grad_norm": 0.7507637739181519,
      "learning_rate": 0.00023836706218884515,
      "loss": 3.7514,
      "step": 145150
    },
    {
      "epoch": 0.30241666666666667,
      "grad_norm": 0.7113288640975952,
      "learning_rate": 0.00023835909579199516,
      "loss": 3.896,
      "step": 145160
    },
    {
      "epoch": 0.3024375,
      "grad_norm": 0.9722683429718018,
      "learning_rate": 0.00023835112901346884,
      "loss": 3.8384,
      "step": 145170
    },
    {
      "epoch": 0.30245833333333333,
      "grad_norm": 1.0564848184585571,
      "learning_rate": 0.00023834316185330064,
      "loss": 3.6977,
      "step": 145180
    },
    {
      "epoch": 0.3024791666666667,
      "grad_norm": 0.9306841492652893,
      "learning_rate": 0.00023833519431152488,
      "loss": 3.834,
      "step": 145190
    },
    {
      "epoch": 0.3025,
      "grad_norm": 0.8280419111251831,
      "learning_rate": 0.0002383272263881761,
      "loss": 3.7265,
      "step": 145200
    },
    {
      "epoch": 0.30252083333333335,
      "grad_norm": 1.480007529258728,
      "learning_rate": 0.00023831925808328865,
      "loss": 3.8991,
      "step": 145210
    },
    {
      "epoch": 0.30254166666666665,
      "grad_norm": 0.789969801902771,
      "learning_rate": 0.00023831128939689697,
      "loss": 3.9174,
      "step": 145220
    },
    {
      "epoch": 0.3025625,
      "grad_norm": 0.7585822343826294,
      "learning_rate": 0.0002383033203290355,
      "loss": 3.9441,
      "step": 145230
    },
    {
      "epoch": 0.3025833333333333,
      "grad_norm": 0.821909487247467,
      "learning_rate": 0.00023829535087973862,
      "loss": 3.8961,
      "step": 145240
    },
    {
      "epoch": 0.3026041666666667,
      "grad_norm": 0.8092669248580933,
      "learning_rate": 0.00023828738104904074,
      "loss": 3.6996,
      "step": 145250
    },
    {
      "epoch": 0.302625,
      "grad_norm": 0.8446753025054932,
      "learning_rate": 0.00023827941083697635,
      "loss": 3.8314,
      "step": 145260
    },
    {
      "epoch": 0.30264583333333334,
      "grad_norm": 0.9000470042228699,
      "learning_rate": 0.00023827144024357984,
      "loss": 3.8092,
      "step": 145270
    },
    {
      "epoch": 0.30266666666666664,
      "grad_norm": 0.7461115121841431,
      "learning_rate": 0.00023826346926888566,
      "loss": 3.8471,
      "step": 145280
    },
    {
      "epoch": 0.3026875,
      "grad_norm": 0.8031692504882812,
      "learning_rate": 0.00023825549791292824,
      "loss": 3.8477,
      "step": 145290
    },
    {
      "epoch": 0.30270833333333336,
      "grad_norm": 0.7476813197135925,
      "learning_rate": 0.00023824752617574195,
      "loss": 3.879,
      "step": 145300
    },
    {
      "epoch": 0.30272916666666666,
      "grad_norm": 0.8686798810958862,
      "learning_rate": 0.00023823955405736133,
      "loss": 3.7811,
      "step": 145310
    },
    {
      "epoch": 0.30275,
      "grad_norm": 0.7194390296936035,
      "learning_rate": 0.00023823158155782077,
      "loss": 4.0595,
      "step": 145320
    },
    {
      "epoch": 0.3027708333333333,
      "grad_norm": 0.7294697761535645,
      "learning_rate": 0.00023822360867715466,
      "loss": 3.7858,
      "step": 145330
    },
    {
      "epoch": 0.3027916666666667,
      "grad_norm": 0.767808198928833,
      "learning_rate": 0.00023821563541539753,
      "loss": 3.8964,
      "step": 145340
    },
    {
      "epoch": 0.3028125,
      "grad_norm": 0.6958758234977722,
      "learning_rate": 0.0002382076617725837,
      "loss": 3.9511,
      "step": 145350
    },
    {
      "epoch": 0.30283333333333334,
      "grad_norm": 0.781335175037384,
      "learning_rate": 0.00023819968774874774,
      "loss": 3.8644,
      "step": 145360
    },
    {
      "epoch": 0.30285416666666665,
      "grad_norm": 0.8721707463264465,
      "learning_rate": 0.00023819171334392406,
      "loss": 3.8309,
      "step": 145370
    },
    {
      "epoch": 0.302875,
      "grad_norm": 0.8298215866088867,
      "learning_rate": 0.00023818373855814706,
      "loss": 3.8869,
      "step": 145380
    },
    {
      "epoch": 0.3028958333333333,
      "grad_norm": 0.721272349357605,
      "learning_rate": 0.00023817576339145118,
      "loss": 3.9934,
      "step": 145390
    },
    {
      "epoch": 0.30291666666666667,
      "grad_norm": 1.1052157878875732,
      "learning_rate": 0.00023816778784387094,
      "loss": 4.0931,
      "step": 145400
    },
    {
      "epoch": 0.3029375,
      "grad_norm": 0.9173746705055237,
      "learning_rate": 0.00023815981191544077,
      "loss": 3.7974,
      "step": 145410
    },
    {
      "epoch": 0.30295833333333333,
      "grad_norm": 0.766799807548523,
      "learning_rate": 0.0002381518356061951,
      "loss": 3.8671,
      "step": 145420
    },
    {
      "epoch": 0.3029791666666667,
      "grad_norm": 0.7615378499031067,
      "learning_rate": 0.0002381438589161684,
      "loss": 3.9822,
      "step": 145430
    },
    {
      "epoch": 0.303,
      "grad_norm": 0.8090512752532959,
      "learning_rate": 0.00023813588184539507,
      "loss": 3.8303,
      "step": 145440
    },
    {
      "epoch": 0.30302083333333335,
      "grad_norm": 0.7665280699729919,
      "learning_rate": 0.00023812790439390968,
      "loss": 3.7811,
      "step": 145450
    },
    {
      "epoch": 0.30304166666666665,
      "grad_norm": 0.7542485594749451,
      "learning_rate": 0.0002381199265617466,
      "loss": 3.822,
      "step": 145460
    },
    {
      "epoch": 0.3030625,
      "grad_norm": 0.7917741537094116,
      "learning_rate": 0.00023811194834894028,
      "loss": 3.7787,
      "step": 145470
    },
    {
      "epoch": 0.3030833333333333,
      "grad_norm": 0.7979975938796997,
      "learning_rate": 0.0002381039697555253,
      "loss": 3.998,
      "step": 145480
    },
    {
      "epoch": 0.3031041666666667,
      "grad_norm": 0.7825496196746826,
      "learning_rate": 0.000238095990781536,
      "loss": 3.8032,
      "step": 145490
    },
    {
      "epoch": 0.303125,
      "grad_norm": 0.8457150459289551,
      "learning_rate": 0.00023808801142700687,
      "loss": 3.8818,
      "step": 145500
    },
    {
      "epoch": 0.30314583333333334,
      "grad_norm": 0.7138910889625549,
      "learning_rate": 0.00023808003169197245,
      "loss": 4.1249,
      "step": 145510
    },
    {
      "epoch": 0.30316666666666664,
      "grad_norm": 0.7754994630813599,
      "learning_rate": 0.00023807205157646712,
      "loss": 3.8313,
      "step": 145520
    },
    {
      "epoch": 0.3031875,
      "grad_norm": 0.9729934334754944,
      "learning_rate": 0.00023806407108052535,
      "loss": 3.8261,
      "step": 145530
    },
    {
      "epoch": 0.30320833333333336,
      "grad_norm": 0.9809054732322693,
      "learning_rate": 0.00023805609020418174,
      "loss": 3.9042,
      "step": 145540
    },
    {
      "epoch": 0.30322916666666666,
      "grad_norm": 0.6893020868301392,
      "learning_rate": 0.0002380481089474706,
      "loss": 3.8545,
      "step": 145550
    },
    {
      "epoch": 0.30325,
      "grad_norm": 0.7618590593338013,
      "learning_rate": 0.00023804012731042654,
      "loss": 3.821,
      "step": 145560
    },
    {
      "epoch": 0.3032708333333333,
      "grad_norm": 0.8219773769378662,
      "learning_rate": 0.00023803214529308396,
      "loss": 3.7603,
      "step": 145570
    },
    {
      "epoch": 0.3032916666666667,
      "grad_norm": 0.7673689126968384,
      "learning_rate": 0.00023802416289547734,
      "loss": 3.9056,
      "step": 145580
    },
    {
      "epoch": 0.3033125,
      "grad_norm": 0.7814705967903137,
      "learning_rate": 0.0002380161801176412,
      "loss": 3.941,
      "step": 145590
    },
    {
      "epoch": 0.30333333333333334,
      "grad_norm": 0.7791249752044678,
      "learning_rate": 0.00023800819695960995,
      "loss": 3.9081,
      "step": 145600
    },
    {
      "epoch": 0.30335416666666665,
      "grad_norm": 0.763895571231842,
      "learning_rate": 0.00023800021342141822,
      "loss": 3.8139,
      "step": 145610
    },
    {
      "epoch": 0.303375,
      "grad_norm": 0.7966832518577576,
      "learning_rate": 0.00023799222950310036,
      "loss": 3.8443,
      "step": 145620
    },
    {
      "epoch": 0.3033958333333333,
      "grad_norm": 0.7024399638175964,
      "learning_rate": 0.00023798424520469087,
      "loss": 3.8642,
      "step": 145630
    },
    {
      "epoch": 0.30341666666666667,
      "grad_norm": 0.7514329552650452,
      "learning_rate": 0.00023797626052622425,
      "loss": 3.8958,
      "step": 145640
    },
    {
      "epoch": 0.3034375,
      "grad_norm": 0.7568515539169312,
      "learning_rate": 0.00023796827546773507,
      "loss": 3.9873,
      "step": 145650
    },
    {
      "epoch": 0.30345833333333333,
      "grad_norm": 0.9554162621498108,
      "learning_rate": 0.0002379602900292577,
      "loss": 3.7546,
      "step": 145660
    },
    {
      "epoch": 0.3034791666666667,
      "grad_norm": 0.7092667818069458,
      "learning_rate": 0.00023795230421082674,
      "loss": 3.7677,
      "step": 145670
    },
    {
      "epoch": 0.3035,
      "grad_norm": 0.7954487204551697,
      "learning_rate": 0.00023794431801247662,
      "loss": 3.9024,
      "step": 145680
    },
    {
      "epoch": 0.30352083333333335,
      "grad_norm": 0.6973913311958313,
      "learning_rate": 0.00023793633143424185,
      "loss": 4.0256,
      "step": 145690
    },
    {
      "epoch": 0.30354166666666665,
      "grad_norm": 0.7734307646751404,
      "learning_rate": 0.00023792834447615695,
      "loss": 4.0893,
      "step": 145700
    },
    {
      "epoch": 0.3035625,
      "grad_norm": 0.7930691838264465,
      "learning_rate": 0.0002379203571382564,
      "loss": 3.8484,
      "step": 145710
    },
    {
      "epoch": 0.3035833333333333,
      "grad_norm": 0.8949413299560547,
      "learning_rate": 0.0002379123694205747,
      "loss": 3.8947,
      "step": 145720
    },
    {
      "epoch": 0.3036041666666667,
      "grad_norm": 0.8239091634750366,
      "learning_rate": 0.00023790438132314642,
      "loss": 3.952,
      "step": 145730
    },
    {
      "epoch": 0.303625,
      "grad_norm": 0.8216238617897034,
      "learning_rate": 0.00023789639284600594,
      "loss": 3.9436,
      "step": 145740
    },
    {
      "epoch": 0.30364583333333334,
      "grad_norm": 0.8317955732345581,
      "learning_rate": 0.00023788840398918784,
      "loss": 3.9699,
      "step": 145750
    },
    {
      "epoch": 0.30366666666666664,
      "grad_norm": 0.7960470914840698,
      "learning_rate": 0.00023788041475272665,
      "loss": 3.9523,
      "step": 145760
    },
    {
      "epoch": 0.3036875,
      "grad_norm": 0.8228244781494141,
      "learning_rate": 0.00023787242513665686,
      "loss": 3.8149,
      "step": 145770
    },
    {
      "epoch": 0.30370833333333336,
      "grad_norm": 0.7506967186927795,
      "learning_rate": 0.00023786443514101294,
      "loss": 3.8622,
      "step": 145780
    },
    {
      "epoch": 0.30372916666666666,
      "grad_norm": 0.7309131026268005,
      "learning_rate": 0.0002378564447658295,
      "loss": 3.9126,
      "step": 145790
    },
    {
      "epoch": 0.30375,
      "grad_norm": 0.7873731851577759,
      "learning_rate": 0.0002378484540111409,
      "loss": 3.8658,
      "step": 145800
    },
    {
      "epoch": 0.3037708333333333,
      "grad_norm": 0.7642212510108948,
      "learning_rate": 0.00023784046287698185,
      "loss": 3.841,
      "step": 145810
    },
    {
      "epoch": 0.3037916666666667,
      "grad_norm": 0.8989098072052002,
      "learning_rate": 0.0002378324713633867,
      "loss": 3.9201,
      "step": 145820
    },
    {
      "epoch": 0.3038125,
      "grad_norm": 0.7195176482200623,
      "learning_rate": 0.00023782447947039007,
      "loss": 3.8692,
      "step": 145830
    },
    {
      "epoch": 0.30383333333333334,
      "grad_norm": 1.0409226417541504,
      "learning_rate": 0.00023781648719802646,
      "loss": 3.8021,
      "step": 145840
    },
    {
      "epoch": 0.30385416666666665,
      "grad_norm": 0.7544339299201965,
      "learning_rate": 0.00023780849454633037,
      "loss": 3.9476,
      "step": 145850
    },
    {
      "epoch": 0.303875,
      "grad_norm": 0.7585080862045288,
      "learning_rate": 0.00023780050151533637,
      "loss": 4.0394,
      "step": 145860
    },
    {
      "epoch": 0.3038958333333333,
      "grad_norm": 0.9763761758804321,
      "learning_rate": 0.00023779250810507892,
      "loss": 3.8892,
      "step": 145870
    },
    {
      "epoch": 0.30391666666666667,
      "grad_norm": 0.7358185052871704,
      "learning_rate": 0.00023778451431559258,
      "loss": 3.8684,
      "step": 145880
    },
    {
      "epoch": 0.3039375,
      "grad_norm": 0.7472379207611084,
      "learning_rate": 0.00023777652014691188,
      "loss": 3.917,
      "step": 145890
    },
    {
      "epoch": 0.30395833333333333,
      "grad_norm": 0.7997827529907227,
      "learning_rate": 0.00023776852559907142,
      "loss": 3.9657,
      "step": 145900
    },
    {
      "epoch": 0.3039791666666667,
      "grad_norm": 0.7514731884002686,
      "learning_rate": 0.00023776053067210562,
      "loss": 3.6327,
      "step": 145910
    },
    {
      "epoch": 0.304,
      "grad_norm": 0.9771389365196228,
      "learning_rate": 0.00023775253536604906,
      "loss": 3.967,
      "step": 145920
    },
    {
      "epoch": 0.30402083333333335,
      "grad_norm": 0.7748810052871704,
      "learning_rate": 0.00023774453968093635,
      "loss": 3.7169,
      "step": 145930
    },
    {
      "epoch": 0.30404166666666665,
      "grad_norm": 0.8467433452606201,
      "learning_rate": 0.00023773654361680186,
      "loss": 3.9592,
      "step": 145940
    },
    {
      "epoch": 0.3040625,
      "grad_norm": 0.7784207463264465,
      "learning_rate": 0.00023772854717368026,
      "loss": 4.0111,
      "step": 145950
    },
    {
      "epoch": 0.3040833333333333,
      "grad_norm": 0.6810412406921387,
      "learning_rate": 0.00023772055035160613,
      "loss": 3.6101,
      "step": 145960
    },
    {
      "epoch": 0.3041041666666667,
      "grad_norm": 0.794707715511322,
      "learning_rate": 0.00023771255315061383,
      "loss": 3.8686,
      "step": 145970
    },
    {
      "epoch": 0.304125,
      "grad_norm": 0.7588071823120117,
      "learning_rate": 0.00023770455557073808,
      "loss": 3.7307,
      "step": 145980
    },
    {
      "epoch": 0.30414583333333334,
      "grad_norm": 0.7558777332305908,
      "learning_rate": 0.00023769655761201342,
      "loss": 4.0171,
      "step": 145990
    },
    {
      "epoch": 0.30416666666666664,
      "grad_norm": 0.658135712146759,
      "learning_rate": 0.0002376885592744743,
      "loss": 3.731,
      "step": 146000
    },
    {
      "epoch": 0.30416666666666664,
      "eval_loss": 4.203877925872803,
      "eval_runtime": 9.1088,
      "eval_samples_per_second": 1.098,
      "eval_steps_per_second": 0.329,
      "step": 146000
    },
    {
      "epoch": 0.3041875,
      "grad_norm": 0.7093698978424072,
      "learning_rate": 0.0002376805605581553,
      "loss": 3.7373,
      "step": 146010
    },
    {
      "epoch": 0.30420833333333336,
      "grad_norm": 0.7444466352462769,
      "learning_rate": 0.00023767256146309097,
      "loss": 3.7672,
      "step": 146020
    },
    {
      "epoch": 0.30422916666666666,
      "grad_norm": 0.7669335007667542,
      "learning_rate": 0.0002376645619893159,
      "loss": 3.853,
      "step": 146030
    },
    {
      "epoch": 0.30425,
      "grad_norm": 0.8729991912841797,
      "learning_rate": 0.00023765656213686466,
      "loss": 3.9257,
      "step": 146040
    },
    {
      "epoch": 0.3042708333333333,
      "grad_norm": 0.8649126291275024,
      "learning_rate": 0.0002376485619057717,
      "loss": 4.0789,
      "step": 146050
    },
    {
      "epoch": 0.3042916666666667,
      "grad_norm": 0.6707345843315125,
      "learning_rate": 0.00023764056129607167,
      "loss": 3.9932,
      "step": 146060
    },
    {
      "epoch": 0.3043125,
      "grad_norm": 0.8929072022438049,
      "learning_rate": 0.00023763256030779912,
      "loss": 3.9476,
      "step": 146070
    },
    {
      "epoch": 0.30433333333333334,
      "grad_norm": 0.7620285749435425,
      "learning_rate": 0.00023762455894098857,
      "loss": 4.0071,
      "step": 146080
    },
    {
      "epoch": 0.30435416666666665,
      "grad_norm": 1.029357671737671,
      "learning_rate": 0.00023761655719567462,
      "loss": 3.671,
      "step": 146090
    },
    {
      "epoch": 0.304375,
      "grad_norm": 0.7855995893478394,
      "learning_rate": 0.00023760855507189187,
      "loss": 3.68,
      "step": 146100
    },
    {
      "epoch": 0.3043958333333333,
      "grad_norm": 0.7437074780464172,
      "learning_rate": 0.0002376005525696748,
      "loss": 3.94,
      "step": 146110
    },
    {
      "epoch": 0.30441666666666667,
      "grad_norm": 0.807034432888031,
      "learning_rate": 0.000237592549689058,
      "loss": 3.7362,
      "step": 146120
    },
    {
      "epoch": 0.3044375,
      "grad_norm": 0.6954174041748047,
      "learning_rate": 0.0002375845464300761,
      "loss": 3.9004,
      "step": 146130
    },
    {
      "epoch": 0.30445833333333333,
      "grad_norm": 0.7250836491584778,
      "learning_rate": 0.00023757654279276357,
      "loss": 3.7487,
      "step": 146140
    },
    {
      "epoch": 0.3044791666666667,
      "grad_norm": 0.8759089708328247,
      "learning_rate": 0.00023756853877715506,
      "loss": 3.9645,
      "step": 146150
    },
    {
      "epoch": 0.3045,
      "grad_norm": 0.7795436382293701,
      "learning_rate": 0.00023756053438328518,
      "loss": 3.7961,
      "step": 146160
    },
    {
      "epoch": 0.30452083333333335,
      "grad_norm": 0.858585000038147,
      "learning_rate": 0.00023755252961118838,
      "loss": 3.9288,
      "step": 146170
    },
    {
      "epoch": 0.30454166666666665,
      "grad_norm": 0.7543147802352905,
      "learning_rate": 0.0002375445244608994,
      "loss": 3.8506,
      "step": 146180
    },
    {
      "epoch": 0.3045625,
      "grad_norm": 0.8292945623397827,
      "learning_rate": 0.00023753651893245264,
      "loss": 4.0725,
      "step": 146190
    },
    {
      "epoch": 0.3045833333333333,
      "grad_norm": 0.7513867616653442,
      "learning_rate": 0.00023752851302588277,
      "loss": 3.8039,
      "step": 146200
    },
    {
      "epoch": 0.3046041666666667,
      "grad_norm": 0.7570915222167969,
      "learning_rate": 0.0002375205067412244,
      "loss": 3.9014,
      "step": 146210
    },
    {
      "epoch": 0.304625,
      "grad_norm": 0.7749675512313843,
      "learning_rate": 0.00023751250007851207,
      "loss": 3.9437,
      "step": 146220
    },
    {
      "epoch": 0.30464583333333334,
      "grad_norm": 0.694110631942749,
      "learning_rate": 0.0002375044930377804,
      "loss": 3.9478,
      "step": 146230
    },
    {
      "epoch": 0.30466666666666664,
      "grad_norm": 0.7726214528083801,
      "learning_rate": 0.00023749648561906394,
      "loss": 4.0961,
      "step": 146240
    },
    {
      "epoch": 0.3046875,
      "grad_norm": 0.7725178003311157,
      "learning_rate": 0.00023748847782239732,
      "loss": 3.8292,
      "step": 146250
    },
    {
      "epoch": 0.30470833333333336,
      "grad_norm": 1.0555508136749268,
      "learning_rate": 0.00023748046964781503,
      "loss": 3.67,
      "step": 146260
    },
    {
      "epoch": 0.30472916666666666,
      "grad_norm": 0.8537115454673767,
      "learning_rate": 0.00023747246109535186,
      "loss": 3.7217,
      "step": 146270
    },
    {
      "epoch": 0.30475,
      "grad_norm": 0.7361416816711426,
      "learning_rate": 0.00023746445216504217,
      "loss": 3.9445,
      "step": 146280
    },
    {
      "epoch": 0.3047708333333333,
      "grad_norm": 0.805757462978363,
      "learning_rate": 0.00023745644285692072,
      "loss": 3.7576,
      "step": 146290
    },
    {
      "epoch": 0.3047916666666667,
      "grad_norm": 0.7630473375320435,
      "learning_rate": 0.00023744843317102205,
      "loss": 3.9497,
      "step": 146300
    },
    {
      "epoch": 0.3048125,
      "grad_norm": 0.8429068922996521,
      "learning_rate": 0.00023744042310738073,
      "loss": 3.9731,
      "step": 146310
    },
    {
      "epoch": 0.30483333333333335,
      "grad_norm": 1.0734814405441284,
      "learning_rate": 0.00023743241266603143,
      "loss": 4.016,
      "step": 146320
    },
    {
      "epoch": 0.30485416666666665,
      "grad_norm": 0.8379833698272705,
      "learning_rate": 0.00023742440184700873,
      "loss": 3.9436,
      "step": 146330
    },
    {
      "epoch": 0.304875,
      "grad_norm": 0.9987636804580688,
      "learning_rate": 0.0002374163906503472,
      "loss": 4.0373,
      "step": 146340
    },
    {
      "epoch": 0.3048958333333333,
      "grad_norm": 0.8252369165420532,
      "learning_rate": 0.00023740837907608147,
      "loss": 3.878,
      "step": 146350
    },
    {
      "epoch": 0.30491666666666667,
      "grad_norm": 0.8181220293045044,
      "learning_rate": 0.00023740036712424612,
      "loss": 4.0181,
      "step": 146360
    },
    {
      "epoch": 0.3049375,
      "grad_norm": 0.734288215637207,
      "learning_rate": 0.00023739235479487578,
      "loss": 3.7916,
      "step": 146370
    },
    {
      "epoch": 0.30495833333333333,
      "grad_norm": 0.8540281653404236,
      "learning_rate": 0.0002373843420880051,
      "loss": 3.9146,
      "step": 146380
    },
    {
      "epoch": 0.3049791666666667,
      "grad_norm": 0.6605208516120911,
      "learning_rate": 0.0002373763290036686,
      "loss": 3.7097,
      "step": 146390
    },
    {
      "epoch": 0.305,
      "grad_norm": 0.7170944809913635,
      "learning_rate": 0.00023736831554190097,
      "loss": 3.7453,
      "step": 146400
    },
    {
      "epoch": 0.30502083333333335,
      "grad_norm": 1.1980286836624146,
      "learning_rate": 0.0002373603017027368,
      "loss": 3.7464,
      "step": 146410
    },
    {
      "epoch": 0.30504166666666666,
      "grad_norm": 0.7371343970298767,
      "learning_rate": 0.0002373522874862107,
      "loss": 3.7126,
      "step": 146420
    },
    {
      "epoch": 0.3050625,
      "grad_norm": 0.8457094430923462,
      "learning_rate": 0.0002373442728923573,
      "loss": 3.7627,
      "step": 146430
    },
    {
      "epoch": 0.3050833333333333,
      "grad_norm": 0.7171273231506348,
      "learning_rate": 0.0002373362579212112,
      "loss": 3.8536,
      "step": 146440
    },
    {
      "epoch": 0.3051041666666667,
      "grad_norm": 0.7221585512161255,
      "learning_rate": 0.00023732824257280706,
      "loss": 3.9475,
      "step": 146450
    },
    {
      "epoch": 0.305125,
      "grad_norm": 1.099829912185669,
      "learning_rate": 0.0002373202268471795,
      "loss": 3.7014,
      "step": 146460
    },
    {
      "epoch": 0.30514583333333334,
      "grad_norm": 0.6939398050308228,
      "learning_rate": 0.00023731221074436306,
      "loss": 3.9524,
      "step": 146470
    },
    {
      "epoch": 0.30516666666666664,
      "grad_norm": 0.8177820444107056,
      "learning_rate": 0.00023730419426439244,
      "loss": 3.8433,
      "step": 146480
    },
    {
      "epoch": 0.3051875,
      "grad_norm": 0.7138102054595947,
      "learning_rate": 0.00023729617740730232,
      "loss": 3.9675,
      "step": 146490
    },
    {
      "epoch": 0.30520833333333336,
      "grad_norm": 0.7249690890312195,
      "learning_rate": 0.00023728816017312725,
      "loss": 3.8109,
      "step": 146500
    },
    {
      "epoch": 0.30522916666666666,
      "grad_norm": 0.6483832001686096,
      "learning_rate": 0.0002372801425619018,
      "loss": 3.7413,
      "step": 146510
    },
    {
      "epoch": 0.30525,
      "grad_norm": 0.8889363408088684,
      "learning_rate": 0.00023727212457366075,
      "loss": 3.861,
      "step": 146520
    },
    {
      "epoch": 0.3052708333333333,
      "grad_norm": 0.9773115515708923,
      "learning_rate": 0.00023726410620843866,
      "loss": 3.8579,
      "step": 146530
    },
    {
      "epoch": 0.3052916666666667,
      "grad_norm": 0.8280059695243835,
      "learning_rate": 0.00023725608746627015,
      "loss": 3.6728,
      "step": 146540
    },
    {
      "epoch": 0.3053125,
      "grad_norm": 0.7845858335494995,
      "learning_rate": 0.00023724806834718993,
      "loss": 3.8357,
      "step": 146550
    },
    {
      "epoch": 0.30533333333333335,
      "grad_norm": 0.7972192764282227,
      "learning_rate": 0.00023724004885123255,
      "loss": 3.7732,
      "step": 146560
    },
    {
      "epoch": 0.30535416666666665,
      "grad_norm": 0.7456203699111938,
      "learning_rate": 0.0002372320289784327,
      "loss": 3.9454,
      "step": 146570
    },
    {
      "epoch": 0.305375,
      "grad_norm": 0.7026063203811646,
      "learning_rate": 0.00023722400872882503,
      "loss": 4.072,
      "step": 146580
    },
    {
      "epoch": 0.3053958333333333,
      "grad_norm": 0.6703851222991943,
      "learning_rate": 0.00023721598810244414,
      "loss": 3.7986,
      "step": 146590
    },
    {
      "epoch": 0.30541666666666667,
      "grad_norm": 0.7194440364837646,
      "learning_rate": 0.00023720796709932472,
      "loss": 3.8932,
      "step": 146600
    },
    {
      "epoch": 0.3054375,
      "grad_norm": 0.6981797218322754,
      "learning_rate": 0.0002371999457195014,
      "loss": 3.9236,
      "step": 146610
    },
    {
      "epoch": 0.30545833333333333,
      "grad_norm": 1.0410878658294678,
      "learning_rate": 0.00023719192396300882,
      "loss": 4.0548,
      "step": 146620
    },
    {
      "epoch": 0.3054791666666667,
      "grad_norm": 0.6855394840240479,
      "learning_rate": 0.00023718390182988163,
      "loss": 3.7228,
      "step": 146630
    },
    {
      "epoch": 0.3055,
      "grad_norm": 0.7406545877456665,
      "learning_rate": 0.00023717587932015448,
      "loss": 3.8578,
      "step": 146640
    },
    {
      "epoch": 0.30552083333333335,
      "grad_norm": 0.7424784302711487,
      "learning_rate": 0.0002371678564338621,
      "loss": 4.0094,
      "step": 146650
    },
    {
      "epoch": 0.30554166666666666,
      "grad_norm": 0.7036724090576172,
      "learning_rate": 0.00023715983317103905,
      "loss": 3.8531,
      "step": 146660
    },
    {
      "epoch": 0.3055625,
      "grad_norm": 0.7908938527107239,
      "learning_rate": 0.00023715180953172004,
      "loss": 4.0579,
      "step": 146670
    },
    {
      "epoch": 0.3055833333333333,
      "grad_norm": 0.7332785725593567,
      "learning_rate": 0.0002371437855159397,
      "loss": 3.8747,
      "step": 146680
    },
    {
      "epoch": 0.3056041666666667,
      "grad_norm": 0.9903410077095032,
      "learning_rate": 0.00023713576112373272,
      "loss": 3.9329,
      "step": 146690
    },
    {
      "epoch": 0.305625,
      "grad_norm": 0.7497871518135071,
      "learning_rate": 0.0002371277363551337,
      "loss": 3.8712,
      "step": 146700
    },
    {
      "epoch": 0.30564583333333334,
      "grad_norm": 0.6716696619987488,
      "learning_rate": 0.00023711971121017733,
      "loss": 3.9318,
      "step": 146710
    },
    {
      "epoch": 0.30566666666666664,
      "grad_norm": 0.7599642872810364,
      "learning_rate": 0.00023711168568889835,
      "loss": 3.8795,
      "step": 146720
    },
    {
      "epoch": 0.3056875,
      "grad_norm": 0.7396661639213562,
      "learning_rate": 0.00023710365979133133,
      "loss": 3.9044,
      "step": 146730
    },
    {
      "epoch": 0.30570833333333336,
      "grad_norm": 0.6856889128684998,
      "learning_rate": 0.00023709563351751099,
      "loss": 3.6752,
      "step": 146740
    },
    {
      "epoch": 0.30572916666666666,
      "grad_norm": 0.920871913433075,
      "learning_rate": 0.00023708760686747205,
      "loss": 3.9044,
      "step": 146750
    },
    {
      "epoch": 0.30575,
      "grad_norm": 0.7206063866615295,
      "learning_rate": 0.000237079579841249,
      "loss": 3.887,
      "step": 146760
    },
    {
      "epoch": 0.3057708333333333,
      "grad_norm": 0.8709102272987366,
      "learning_rate": 0.0002370715524388767,
      "loss": 3.8972,
      "step": 146770
    },
    {
      "epoch": 0.3057916666666667,
      "grad_norm": 0.9105335474014282,
      "learning_rate": 0.00023706352466038976,
      "loss": 3.8782,
      "step": 146780
    },
    {
      "epoch": 0.3058125,
      "grad_norm": 0.7146595120429993,
      "learning_rate": 0.00023705549650582285,
      "loss": 3.9447,
      "step": 146790
    },
    {
      "epoch": 0.30583333333333335,
      "grad_norm": 0.8480615615844727,
      "learning_rate": 0.0002370474679752107,
      "loss": 3.813,
      "step": 146800
    },
    {
      "epoch": 0.30585416666666665,
      "grad_norm": 0.7695775032043457,
      "learning_rate": 0.00023703943906858786,
      "loss": 3.9115,
      "step": 146810
    },
    {
      "epoch": 0.305875,
      "grad_norm": 0.8720338940620422,
      "learning_rate": 0.00023703140978598915,
      "loss": 3.8392,
      "step": 146820
    },
    {
      "epoch": 0.3058958333333333,
      "grad_norm": 0.7190201878547668,
      "learning_rate": 0.00023702338012744915,
      "loss": 3.8996,
      "step": 146830
    },
    {
      "epoch": 0.30591666666666667,
      "grad_norm": 0.8065264821052551,
      "learning_rate": 0.0002370153500930026,
      "loss": 3.6948,
      "step": 146840
    },
    {
      "epoch": 0.3059375,
      "grad_norm": 0.9224130511283875,
      "learning_rate": 0.00023700731968268423,
      "loss": 3.8637,
      "step": 146850
    },
    {
      "epoch": 0.30595833333333333,
      "grad_norm": 0.7642867565155029,
      "learning_rate": 0.0002369992888965287,
      "loss": 3.7398,
      "step": 146860
    },
    {
      "epoch": 0.3059791666666667,
      "grad_norm": 0.7604333162307739,
      "learning_rate": 0.00023699125773457062,
      "loss": 3.9561,
      "step": 146870
    },
    {
      "epoch": 0.306,
      "grad_norm": 0.9165272116661072,
      "learning_rate": 0.00023698322619684472,
      "loss": 3.7538,
      "step": 146880
    },
    {
      "epoch": 0.30602083333333335,
      "grad_norm": 0.7782411575317383,
      "learning_rate": 0.00023697519428338574,
      "loss": 3.8094,
      "step": 146890
    },
    {
      "epoch": 0.30604166666666666,
      "grad_norm": 0.87968909740448,
      "learning_rate": 0.00023696716199422837,
      "loss": 3.8006,
      "step": 146900
    },
    {
      "epoch": 0.3060625,
      "grad_norm": 0.8726801872253418,
      "learning_rate": 0.0002369591293294073,
      "loss": 3.8821,
      "step": 146910
    },
    {
      "epoch": 0.3060833333333333,
      "grad_norm": 0.7426633238792419,
      "learning_rate": 0.00023695109628895714,
      "loss": 3.9222,
      "step": 146920
    },
    {
      "epoch": 0.3061041666666667,
      "grad_norm": 0.9309849739074707,
      "learning_rate": 0.0002369430628729127,
      "loss": 3.9618,
      "step": 146930
    },
    {
      "epoch": 0.306125,
      "grad_norm": 0.7391186952590942,
      "learning_rate": 0.00023693502908130867,
      "loss": 3.8552,
      "step": 146940
    },
    {
      "epoch": 0.30614583333333334,
      "grad_norm": 0.8871476650238037,
      "learning_rate": 0.00023692699491417968,
      "loss": 3.8102,
      "step": 146950
    },
    {
      "epoch": 0.30616666666666664,
      "grad_norm": 0.769186794757843,
      "learning_rate": 0.00023691896037156054,
      "loss": 3.9194,
      "step": 146960
    },
    {
      "epoch": 0.3061875,
      "grad_norm": 0.8230776190757751,
      "learning_rate": 0.00023691092545348585,
      "loss": 3.9646,
      "step": 146970
    },
    {
      "epoch": 0.30620833333333336,
      "grad_norm": 0.9378825426101685,
      "learning_rate": 0.00023690289015999036,
      "loss": 3.9569,
      "step": 146980
    },
    {
      "epoch": 0.30622916666666666,
      "grad_norm": 0.766800582408905,
      "learning_rate": 0.00023689485449110876,
      "loss": 3.9713,
      "step": 146990
    },
    {
      "epoch": 0.30625,
      "grad_norm": 0.7520609498023987,
      "learning_rate": 0.00023688681844687585,
      "loss": 3.8684,
      "step": 147000
    },
    {
      "epoch": 0.30625,
      "eval_loss": 4.190521240234375,
      "eval_runtime": 11.9421,
      "eval_samples_per_second": 0.837,
      "eval_steps_per_second": 0.251,
      "step": 147000
    },
    {
      "epoch": 0.3062708333333333,
      "grad_norm": 0.7198500037193298,
      "learning_rate": 0.00023687878202732624,
      "loss": 3.7822,
      "step": 147010
    },
    {
      "epoch": 0.3062916666666667,
      "grad_norm": 0.7783270478248596,
      "learning_rate": 0.0002368707452324947,
      "loss": 3.8508,
      "step": 147020
    },
    {
      "epoch": 0.3063125,
      "grad_norm": 0.9086983799934387,
      "learning_rate": 0.00023686270806241592,
      "loss": 4.032,
      "step": 147030
    },
    {
      "epoch": 0.30633333333333335,
      "grad_norm": 1.3279772996902466,
      "learning_rate": 0.0002368546705171246,
      "loss": 4.0287,
      "step": 147040
    },
    {
      "epoch": 0.30635416666666665,
      "grad_norm": 0.8180417418479919,
      "learning_rate": 0.0002368466325966555,
      "loss": 3.7482,
      "step": 147050
    },
    {
      "epoch": 0.306375,
      "grad_norm": 0.7306908369064331,
      "learning_rate": 0.0002368385943010433,
      "loss": 3.7627,
      "step": 147060
    },
    {
      "epoch": 0.3063958333333333,
      "grad_norm": 0.7329029440879822,
      "learning_rate": 0.0002368305556303228,
      "loss": 3.93,
      "step": 147070
    },
    {
      "epoch": 0.30641666666666667,
      "grad_norm": 0.6979579925537109,
      "learning_rate": 0.00023682251658452866,
      "loss": 3.8215,
      "step": 147080
    },
    {
      "epoch": 0.3064375,
      "grad_norm": 0.722687840461731,
      "learning_rate": 0.00023681447716369556,
      "loss": 3.7699,
      "step": 147090
    },
    {
      "epoch": 0.30645833333333333,
      "grad_norm": 0.7271130084991455,
      "learning_rate": 0.00023680643736785832,
      "loss": 3.7912,
      "step": 147100
    },
    {
      "epoch": 0.3064791666666667,
      "grad_norm": 0.8155853748321533,
      "learning_rate": 0.00023679839719705165,
      "loss": 3.7238,
      "step": 147110
    },
    {
      "epoch": 0.3065,
      "grad_norm": 1.1400322914123535,
      "learning_rate": 0.00023679035665131022,
      "loss": 3.901,
      "step": 147120
    },
    {
      "epoch": 0.30652083333333335,
      "grad_norm": 0.8223910331726074,
      "learning_rate": 0.0002367823157306688,
      "loss": 3.7328,
      "step": 147130
    },
    {
      "epoch": 0.30654166666666666,
      "grad_norm": 0.7298850417137146,
      "learning_rate": 0.00023677427443516218,
      "loss": 3.7245,
      "step": 147140
    },
    {
      "epoch": 0.3065625,
      "grad_norm": 0.9859219789505005,
      "learning_rate": 0.000236766232764825,
      "loss": 3.9733,
      "step": 147150
    },
    {
      "epoch": 0.3065833333333333,
      "grad_norm": 0.7493774890899658,
      "learning_rate": 0.00023675819071969205,
      "loss": 3.8491,
      "step": 147160
    },
    {
      "epoch": 0.3066041666666667,
      "grad_norm": 0.7213714718818665,
      "learning_rate": 0.00023675014829979807,
      "loss": 3.79,
      "step": 147170
    },
    {
      "epoch": 0.306625,
      "grad_norm": 0.8249627351760864,
      "learning_rate": 0.00023674210550517775,
      "loss": 3.8907,
      "step": 147180
    },
    {
      "epoch": 0.30664583333333334,
      "grad_norm": 0.9624618887901306,
      "learning_rate": 0.0002367340623358659,
      "loss": 3.9244,
      "step": 147190
    },
    {
      "epoch": 0.30666666666666664,
      "grad_norm": 0.7160682082176208,
      "learning_rate": 0.00023672601879189722,
      "loss": 3.9026,
      "step": 147200
    },
    {
      "epoch": 0.3066875,
      "grad_norm": 0.7847981452941895,
      "learning_rate": 0.0002367179748733065,
      "loss": 3.8647,
      "step": 147210
    },
    {
      "epoch": 0.30670833333333336,
      "grad_norm": 0.8025715351104736,
      "learning_rate": 0.0002367099305801284,
      "loss": 3.8539,
      "step": 147220
    },
    {
      "epoch": 0.30672916666666666,
      "grad_norm": 0.842384397983551,
      "learning_rate": 0.00023670188591239774,
      "loss": 3.819,
      "step": 147230
    },
    {
      "epoch": 0.30675,
      "grad_norm": 0.8708718419075012,
      "learning_rate": 0.00023669384087014926,
      "loss": 3.8169,
      "step": 147240
    },
    {
      "epoch": 0.3067708333333333,
      "grad_norm": 0.7636668086051941,
      "learning_rate": 0.00023668579545341772,
      "loss": 3.9654,
      "step": 147250
    },
    {
      "epoch": 0.3067916666666667,
      "grad_norm": 0.7172880172729492,
      "learning_rate": 0.00023667774966223783,
      "loss": 3.6687,
      "step": 147260
    },
    {
      "epoch": 0.3068125,
      "grad_norm": 0.6791507601737976,
      "learning_rate": 0.00023666970349664435,
      "loss": 3.9577,
      "step": 147270
    },
    {
      "epoch": 0.30683333333333335,
      "grad_norm": 0.7296807169914246,
      "learning_rate": 0.00023666165695667213,
      "loss": 3.8314,
      "step": 147280
    },
    {
      "epoch": 0.30685416666666665,
      "grad_norm": 0.6853737831115723,
      "learning_rate": 0.00023665361004235582,
      "loss": 3.8661,
      "step": 147290
    },
    {
      "epoch": 0.306875,
      "grad_norm": 0.7926296591758728,
      "learning_rate": 0.00023664556275373018,
      "loss": 4.0708,
      "step": 147300
    },
    {
      "epoch": 0.3068958333333333,
      "grad_norm": 1.0388786792755127,
      "learning_rate": 0.00023663751509083006,
      "loss": 3.8681,
      "step": 147310
    },
    {
      "epoch": 0.30691666666666667,
      "grad_norm": 0.8910284638404846,
      "learning_rate": 0.0002366294670536901,
      "loss": 3.7494,
      "step": 147320
    },
    {
      "epoch": 0.3069375,
      "grad_norm": 1.4273972511291504,
      "learning_rate": 0.00023662141864234522,
      "loss": 3.8956,
      "step": 147330
    },
    {
      "epoch": 0.30695833333333333,
      "grad_norm": 0.7825724482536316,
      "learning_rate": 0.00023661336985683002,
      "loss": 3.851,
      "step": 147340
    },
    {
      "epoch": 0.3069791666666667,
      "grad_norm": 0.7656921148300171,
      "learning_rate": 0.00023660532069717937,
      "loss": 3.9355,
      "step": 147350
    },
    {
      "epoch": 0.307,
      "grad_norm": 0.8630780577659607,
      "learning_rate": 0.00023659727116342807,
      "loss": 3.9985,
      "step": 147360
    },
    {
      "epoch": 0.30702083333333335,
      "grad_norm": 0.7826002836227417,
      "learning_rate": 0.00023658922125561075,
      "loss": 3.8387,
      "step": 147370
    },
    {
      "epoch": 0.30704166666666666,
      "grad_norm": 0.744835615158081,
      "learning_rate": 0.00023658117097376233,
      "loss": 3.9437,
      "step": 147380
    },
    {
      "epoch": 0.3070625,
      "grad_norm": 1.1145100593566895,
      "learning_rate": 0.00023657312031791748,
      "loss": 3.9273,
      "step": 147390
    },
    {
      "epoch": 0.3070833333333333,
      "grad_norm": 0.8582687973976135,
      "learning_rate": 0.00023656506928811105,
      "loss": 3.9162,
      "step": 147400
    },
    {
      "epoch": 0.3071041666666667,
      "grad_norm": 1.0363463163375854,
      "learning_rate": 0.00023655701788437777,
      "loss": 3.6383,
      "step": 147410
    },
    {
      "epoch": 0.307125,
      "grad_norm": 1.048701524734497,
      "learning_rate": 0.00023654896610675243,
      "loss": 3.8496,
      "step": 147420
    },
    {
      "epoch": 0.30714583333333334,
      "grad_norm": 0.7919004559516907,
      "learning_rate": 0.00023654091395526985,
      "loss": 3.9562,
      "step": 147430
    },
    {
      "epoch": 0.30716666666666664,
      "grad_norm": 0.7274442911148071,
      "learning_rate": 0.00023653286142996476,
      "loss": 4.058,
      "step": 147440
    },
    {
      "epoch": 0.3071875,
      "grad_norm": 0.7391433119773865,
      "learning_rate": 0.00023652480853087192,
      "loss": 3.8438,
      "step": 147450
    },
    {
      "epoch": 0.30720833333333336,
      "grad_norm": 0.7041447758674622,
      "learning_rate": 0.00023651675525802621,
      "loss": 3.8975,
      "step": 147460
    },
    {
      "epoch": 0.30722916666666666,
      "grad_norm": 0.7353554368019104,
      "learning_rate": 0.00023650870161146233,
      "loss": 3.8574,
      "step": 147470
    },
    {
      "epoch": 0.30725,
      "grad_norm": 1.0210734605789185,
      "learning_rate": 0.00023650064759121508,
      "loss": 3.9126,
      "step": 147480
    },
    {
      "epoch": 0.3072708333333333,
      "grad_norm": 0.7986685633659363,
      "learning_rate": 0.00023649259319731932,
      "loss": 4.0415,
      "step": 147490
    },
    {
      "epoch": 0.3072916666666667,
      "grad_norm": 0.6663190722465515,
      "learning_rate": 0.00023648453842980982,
      "loss": 3.8245,
      "step": 147500
    },
    {
      "epoch": 0.3073125,
      "grad_norm": 0.7578383088111877,
      "learning_rate": 0.00023647648328872128,
      "loss": 3.9264,
      "step": 147510
    },
    {
      "epoch": 0.30733333333333335,
      "grad_norm": 0.712735652923584,
      "learning_rate": 0.0002364684277740886,
      "loss": 4.0241,
      "step": 147520
    },
    {
      "epoch": 0.30735416666666665,
      "grad_norm": 0.9109177589416504,
      "learning_rate": 0.0002364603718859465,
      "loss": 3.8951,
      "step": 147530
    },
    {
      "epoch": 0.307375,
      "grad_norm": 0.7773535251617432,
      "learning_rate": 0.00023645231562432987,
      "loss": 3.7872,
      "step": 147540
    },
    {
      "epoch": 0.3073958333333333,
      "grad_norm": 0.7479085326194763,
      "learning_rate": 0.0002364442589892734,
      "loss": 3.8512,
      "step": 147550
    },
    {
      "epoch": 0.30741666666666667,
      "grad_norm": 0.789775550365448,
      "learning_rate": 0.00023643620198081196,
      "loss": 3.9937,
      "step": 147560
    },
    {
      "epoch": 0.3074375,
      "grad_norm": 0.9188342690467834,
      "learning_rate": 0.0002364281445989804,
      "loss": 3.8356,
      "step": 147570
    },
    {
      "epoch": 0.30745833333333333,
      "grad_norm": 0.8512523174285889,
      "learning_rate": 0.0002364200868438134,
      "loss": 3.808,
      "step": 147580
    },
    {
      "epoch": 0.3074791666666667,
      "grad_norm": 0.7730846405029297,
      "learning_rate": 0.00023641202871534588,
      "loss": 3.7097,
      "step": 147590
    },
    {
      "epoch": 0.3075,
      "grad_norm": 0.7675027847290039,
      "learning_rate": 0.00023640397021361257,
      "loss": 4.0241,
      "step": 147600
    },
    {
      "epoch": 0.30752083333333335,
      "grad_norm": 0.8290091156959534,
      "learning_rate": 0.0002363959113386483,
      "loss": 3.8278,
      "step": 147610
    },
    {
      "epoch": 0.30754166666666666,
      "grad_norm": 0.7532251477241516,
      "learning_rate": 0.00023638785209048794,
      "loss": 4.0017,
      "step": 147620
    },
    {
      "epoch": 0.3075625,
      "grad_norm": 0.6470028162002563,
      "learning_rate": 0.0002363797924691662,
      "loss": 3.7567,
      "step": 147630
    },
    {
      "epoch": 0.3075833333333333,
      "grad_norm": 0.8728337287902832,
      "learning_rate": 0.00023637173247471798,
      "loss": 3.9599,
      "step": 147640
    },
    {
      "epoch": 0.3076041666666667,
      "grad_norm": 0.6435649991035461,
      "learning_rate": 0.00023636367210717806,
      "loss": 3.7629,
      "step": 147650
    },
    {
      "epoch": 0.307625,
      "grad_norm": 0.7571823000907898,
      "learning_rate": 0.00023635561136658122,
      "loss": 3.9034,
      "step": 147660
    },
    {
      "epoch": 0.30764583333333334,
      "grad_norm": 0.7613441348075867,
      "learning_rate": 0.00023634755025296237,
      "loss": 3.8768,
      "step": 147670
    },
    {
      "epoch": 0.30766666666666664,
      "grad_norm": 0.7622079849243164,
      "learning_rate": 0.00023633948876635623,
      "loss": 3.6811,
      "step": 147680
    },
    {
      "epoch": 0.3076875,
      "grad_norm": 0.8646845817565918,
      "learning_rate": 0.00023633142690679775,
      "loss": 3.8362,
      "step": 147690
    },
    {
      "epoch": 0.3077083333333333,
      "grad_norm": 0.8508139252662659,
      "learning_rate": 0.00023632336467432162,
      "loss": 3.9159,
      "step": 147700
    },
    {
      "epoch": 0.30772916666666666,
      "grad_norm": 0.8487205505371094,
      "learning_rate": 0.00023631530206896274,
      "loss": 3.9231,
      "step": 147710
    },
    {
      "epoch": 0.30775,
      "grad_norm": 0.750313401222229,
      "learning_rate": 0.00023630723909075593,
      "loss": 3.9704,
      "step": 147720
    },
    {
      "epoch": 0.3077708333333333,
      "grad_norm": 0.8345775008201599,
      "learning_rate": 0.00023629917573973603,
      "loss": 3.7375,
      "step": 147730
    },
    {
      "epoch": 0.3077916666666667,
      "grad_norm": 0.7548708319664001,
      "learning_rate": 0.0002362911120159378,
      "loss": 3.7458,
      "step": 147740
    },
    {
      "epoch": 0.3078125,
      "grad_norm": 0.6999832987785339,
      "learning_rate": 0.00023628304791939613,
      "loss": 3.9811,
      "step": 147750
    },
    {
      "epoch": 0.30783333333333335,
      "grad_norm": 0.7694923877716064,
      "learning_rate": 0.00023627498345014589,
      "loss": 3.9405,
      "step": 147760
    },
    {
      "epoch": 0.30785416666666665,
      "grad_norm": 0.8521038889884949,
      "learning_rate": 0.00023626691860822186,
      "loss": 3.8613,
      "step": 147770
    },
    {
      "epoch": 0.307875,
      "grad_norm": 0.6800606846809387,
      "learning_rate": 0.00023625885339365887,
      "loss": 3.7413,
      "step": 147780
    },
    {
      "epoch": 0.3078958333333333,
      "grad_norm": 0.8624712824821472,
      "learning_rate": 0.00023625078780649178,
      "loss": 3.7955,
      "step": 147790
    },
    {
      "epoch": 0.30791666666666667,
      "grad_norm": 0.7247698903083801,
      "learning_rate": 0.0002362427218467554,
      "loss": 3.8068,
      "step": 147800
    },
    {
      "epoch": 0.3079375,
      "grad_norm": 0.7757026553153992,
      "learning_rate": 0.00023623465551448467,
      "loss": 3.945,
      "step": 147810
    },
    {
      "epoch": 0.30795833333333333,
      "grad_norm": 0.8926354050636292,
      "learning_rate": 0.0002362265888097143,
      "loss": 3.8015,
      "step": 147820
    },
    {
      "epoch": 0.3079791666666667,
      "grad_norm": 0.8031293749809265,
      "learning_rate": 0.00023621852173247922,
      "loss": 3.9509,
      "step": 147830
    },
    {
      "epoch": 0.308,
      "grad_norm": 0.7321346998214722,
      "learning_rate": 0.00023621045428281424,
      "loss": 3.7994,
      "step": 147840
    },
    {
      "epoch": 0.30802083333333335,
      "grad_norm": 0.7682033181190491,
      "learning_rate": 0.0002362023864607542,
      "loss": 3.9382,
      "step": 147850
    },
    {
      "epoch": 0.30804166666666666,
      "grad_norm": 0.7321985960006714,
      "learning_rate": 0.000236194318266334,
      "loss": 3.8441,
      "step": 147860
    },
    {
      "epoch": 0.3080625,
      "grad_norm": 1.0059040784835815,
      "learning_rate": 0.00023618624969958853,
      "loss": 3.9388,
      "step": 147870
    },
    {
      "epoch": 0.3080833333333333,
      "grad_norm": 0.7104911208152771,
      "learning_rate": 0.00023617818076055247,
      "loss": 3.8601,
      "step": 147880
    },
    {
      "epoch": 0.3081041666666667,
      "grad_norm": 0.849183976650238,
      "learning_rate": 0.00023617011144926083,
      "loss": 3.8332,
      "step": 147890
    },
    {
      "epoch": 0.308125,
      "grad_norm": 0.8052178025245667,
      "learning_rate": 0.00023616204176574843,
      "loss": 3.818,
      "step": 147900
    },
    {
      "epoch": 0.30814583333333334,
      "grad_norm": 0.6981068253517151,
      "learning_rate": 0.00023615397171005006,
      "loss": 3.771,
      "step": 147910
    },
    {
      "epoch": 0.30816666666666664,
      "grad_norm": 0.7135525345802307,
      "learning_rate": 0.0002361459012822007,
      "loss": 3.9281,
      "step": 147920
    },
    {
      "epoch": 0.3081875,
      "grad_norm": 0.7654672861099243,
      "learning_rate": 0.00023613783048223512,
      "loss": 3.668,
      "step": 147930
    },
    {
      "epoch": 0.3082083333333333,
      "grad_norm": 0.8812724351882935,
      "learning_rate": 0.0002361297593101882,
      "loss": 3.9837,
      "step": 147940
    },
    {
      "epoch": 0.30822916666666667,
      "grad_norm": 0.782297670841217,
      "learning_rate": 0.0002361216877660948,
      "loss": 3.8941,
      "step": 147950
    },
    {
      "epoch": 0.30825,
      "grad_norm": 0.7563154697418213,
      "learning_rate": 0.0002361136158499898,
      "loss": 3.9235,
      "step": 147960
    },
    {
      "epoch": 0.3082708333333333,
      "grad_norm": 1.022866129875183,
      "learning_rate": 0.00023610554356190807,
      "loss": 3.8931,
      "step": 147970
    },
    {
      "epoch": 0.3082916666666667,
      "grad_norm": 0.8266940712928772,
      "learning_rate": 0.0002360974709018845,
      "loss": 3.8686,
      "step": 147980
    },
    {
      "epoch": 0.3083125,
      "grad_norm": 0.7949098944664001,
      "learning_rate": 0.00023608939786995392,
      "loss": 3.8296,
      "step": 147990
    },
    {
      "epoch": 0.30833333333333335,
      "grad_norm": 0.9426050782203674,
      "learning_rate": 0.0002360813244661512,
      "loss": 3.8938,
      "step": 148000
    },
    {
      "epoch": 0.30833333333333335,
      "eval_loss": 4.207257270812988,
      "eval_runtime": 10.4689,
      "eval_samples_per_second": 0.955,
      "eval_steps_per_second": 0.287,
      "step": 148000
    },
    {
      "epoch": 0.30835416666666665,
      "grad_norm": 0.7341536283493042,
      "learning_rate": 0.00023607325069051127,
      "loss": 3.9209,
      "step": 148010
    },
    {
      "epoch": 0.308375,
      "grad_norm": 0.766869306564331,
      "learning_rate": 0.00023606517654306897,
      "loss": 3.8833,
      "step": 148020
    },
    {
      "epoch": 0.3083958333333333,
      "grad_norm": 0.9756490588188171,
      "learning_rate": 0.0002360571020238591,
      "loss": 3.7247,
      "step": 148030
    },
    {
      "epoch": 0.3084166666666667,
      "grad_norm": 0.755780816078186,
      "learning_rate": 0.00023604902713291666,
      "loss": 3.7806,
      "step": 148040
    },
    {
      "epoch": 0.3084375,
      "grad_norm": 0.9452468156814575,
      "learning_rate": 0.0002360409518702765,
      "loss": 3.8924,
      "step": 148050
    },
    {
      "epoch": 0.30845833333333333,
      "grad_norm": 0.8175269365310669,
      "learning_rate": 0.0002360328762359735,
      "loss": 3.902,
      "step": 148060
    },
    {
      "epoch": 0.3084791666666667,
      "grad_norm": 0.749755322933197,
      "learning_rate": 0.00023602480023004248,
      "loss": 3.7763,
      "step": 148070
    },
    {
      "epoch": 0.3085,
      "grad_norm": 0.82233065366745,
      "learning_rate": 0.0002360167238525184,
      "loss": 3.9597,
      "step": 148080
    },
    {
      "epoch": 0.30852083333333336,
      "grad_norm": 1.0292596817016602,
      "learning_rate": 0.0002360086471034361,
      "loss": 3.8782,
      "step": 148090
    },
    {
      "epoch": 0.30854166666666666,
      "grad_norm": 0.9014490246772766,
      "learning_rate": 0.0002360005699828305,
      "loss": 3.7735,
      "step": 148100
    },
    {
      "epoch": 0.3085625,
      "grad_norm": 0.8383644223213196,
      "learning_rate": 0.0002359924924907365,
      "loss": 3.9011,
      "step": 148110
    },
    {
      "epoch": 0.3085833333333333,
      "grad_norm": 0.7569946646690369,
      "learning_rate": 0.00023598441462718898,
      "loss": 3.9531,
      "step": 148120
    },
    {
      "epoch": 0.3086041666666667,
      "grad_norm": 0.7897003889083862,
      "learning_rate": 0.00023597633639222274,
      "loss": 3.7942,
      "step": 148130
    },
    {
      "epoch": 0.308625,
      "grad_norm": 0.8313112854957581,
      "learning_rate": 0.00023596825778587284,
      "loss": 3.8597,
      "step": 148140
    },
    {
      "epoch": 0.30864583333333334,
      "grad_norm": 0.7466734647750854,
      "learning_rate": 0.00023596017880817412,
      "loss": 3.9002,
      "step": 148150
    },
    {
      "epoch": 0.30866666666666664,
      "grad_norm": 0.7720811367034912,
      "learning_rate": 0.00023595209945916136,
      "loss": 3.807,
      "step": 148160
    },
    {
      "epoch": 0.3086875,
      "grad_norm": 0.9609342217445374,
      "learning_rate": 0.0002359440197388696,
      "loss": 3.7612,
      "step": 148170
    },
    {
      "epoch": 0.3087083333333333,
      "grad_norm": 0.8341074585914612,
      "learning_rate": 0.00023593593964733368,
      "loss": 3.8833,
      "step": 148180
    },
    {
      "epoch": 0.30872916666666667,
      "grad_norm": 0.6949076652526855,
      "learning_rate": 0.00023592785918458855,
      "loss": 3.9034,
      "step": 148190
    },
    {
      "epoch": 0.30875,
      "grad_norm": 0.9843272566795349,
      "learning_rate": 0.000235919778350669,
      "loss": 3.8704,
      "step": 148200
    },
    {
      "epoch": 0.3087708333333333,
      "grad_norm": 0.8593311309814453,
      "learning_rate": 0.00023591169714561012,
      "loss": 3.9996,
      "step": 148210
    },
    {
      "epoch": 0.3087916666666667,
      "grad_norm": 0.873738169670105,
      "learning_rate": 0.0002359036155694467,
      "loss": 3.704,
      "step": 148220
    },
    {
      "epoch": 0.3088125,
      "grad_norm": 0.8430051803588867,
      "learning_rate": 0.00023589553362221363,
      "loss": 3.95,
      "step": 148230
    },
    {
      "epoch": 0.30883333333333335,
      "grad_norm": 0.7303117513656616,
      "learning_rate": 0.00023588745130394585,
      "loss": 3.8334,
      "step": 148240
    },
    {
      "epoch": 0.30885416666666665,
      "grad_norm": 0.7665563821792603,
      "learning_rate": 0.00023587936861467826,
      "loss": 4.131,
      "step": 148250
    },
    {
      "epoch": 0.308875,
      "grad_norm": 0.8172420263290405,
      "learning_rate": 0.0002358712855544458,
      "loss": 3.7938,
      "step": 148260
    },
    {
      "epoch": 0.3088958333333333,
      "grad_norm": 0.9174598455429077,
      "learning_rate": 0.00023586320212328342,
      "loss": 3.8567,
      "step": 148270
    },
    {
      "epoch": 0.3089166666666667,
      "grad_norm": 0.7554885745048523,
      "learning_rate": 0.00023585511832122596,
      "loss": 3.7719,
      "step": 148280
    },
    {
      "epoch": 0.3089375,
      "grad_norm": 0.7380260825157166,
      "learning_rate": 0.0002358470341483084,
      "loss": 3.9367,
      "step": 148290
    },
    {
      "epoch": 0.30895833333333333,
      "grad_norm": 0.7445772886276245,
      "learning_rate": 0.0002358389496045656,
      "loss": 3.8459,
      "step": 148300
    },
    {
      "epoch": 0.3089791666666667,
      "grad_norm": 0.8220552802085876,
      "learning_rate": 0.0002358308646900325,
      "loss": 3.8923,
      "step": 148310
    },
    {
      "epoch": 0.309,
      "grad_norm": 0.7028809189796448,
      "learning_rate": 0.00023582277940474407,
      "loss": 3.6258,
      "step": 148320
    },
    {
      "epoch": 0.30902083333333336,
      "grad_norm": 0.7007351517677307,
      "learning_rate": 0.0002358146937487352,
      "loss": 3.9672,
      "step": 148330
    },
    {
      "epoch": 0.30904166666666666,
      "grad_norm": 0.706938624382019,
      "learning_rate": 0.00023580660772204085,
      "loss": 3.9106,
      "step": 148340
    },
    {
      "epoch": 0.3090625,
      "grad_norm": 1.006561040878296,
      "learning_rate": 0.00023579852132469588,
      "loss": 3.9006,
      "step": 148350
    },
    {
      "epoch": 0.3090833333333333,
      "grad_norm": 0.728251576423645,
      "learning_rate": 0.00023579043455673526,
      "loss": 3.8202,
      "step": 148360
    },
    {
      "epoch": 0.3091041666666667,
      "grad_norm": 0.8322093486785889,
      "learning_rate": 0.00023578234741819396,
      "loss": 3.6938,
      "step": 148370
    },
    {
      "epoch": 0.309125,
      "grad_norm": 0.7795112729072571,
      "learning_rate": 0.00023577425990910683,
      "loss": 3.9345,
      "step": 148380
    },
    {
      "epoch": 0.30914583333333334,
      "grad_norm": 0.7506383657455444,
      "learning_rate": 0.00023576617202950888,
      "loss": 3.8837,
      "step": 148390
    },
    {
      "epoch": 0.30916666666666665,
      "grad_norm": 0.7040326595306396,
      "learning_rate": 0.00023575808377943497,
      "loss": 3.9751,
      "step": 148400
    },
    {
      "epoch": 0.3091875,
      "grad_norm": 0.7039561867713928,
      "learning_rate": 0.00023574999515892014,
      "loss": 3.8895,
      "step": 148410
    },
    {
      "epoch": 0.3092083333333333,
      "grad_norm": 0.7880781292915344,
      "learning_rate": 0.0002357419061679992,
      "loss": 3.8714,
      "step": 148420
    },
    {
      "epoch": 0.30922916666666667,
      "grad_norm": 0.7705137133598328,
      "learning_rate": 0.00023573381680670722,
      "loss": 3.7989,
      "step": 148430
    },
    {
      "epoch": 0.30925,
      "grad_norm": 0.8161779642105103,
      "learning_rate": 0.0002357257270750791,
      "loss": 3.8017,
      "step": 148440
    },
    {
      "epoch": 0.30927083333333333,
      "grad_norm": 0.7286084890365601,
      "learning_rate": 0.00023571763697314974,
      "loss": 3.9414,
      "step": 148450
    },
    {
      "epoch": 0.3092916666666667,
      "grad_norm": 0.7858800292015076,
      "learning_rate": 0.00023570954650095413,
      "loss": 3.7242,
      "step": 148460
    },
    {
      "epoch": 0.3093125,
      "grad_norm": 0.8050426840782166,
      "learning_rate": 0.00023570145565852718,
      "loss": 3.8572,
      "step": 148470
    },
    {
      "epoch": 0.30933333333333335,
      "grad_norm": 0.6988584399223328,
      "learning_rate": 0.00023569336444590388,
      "loss": 3.7809,
      "step": 148480
    },
    {
      "epoch": 0.30935416666666665,
      "grad_norm": 0.8128166794776917,
      "learning_rate": 0.0002356852728631192,
      "loss": 3.7764,
      "step": 148490
    },
    {
      "epoch": 0.309375,
      "grad_norm": 0.8338506817817688,
      "learning_rate": 0.00023567718091020798,
      "loss": 3.8963,
      "step": 148500
    },
    {
      "epoch": 0.3093958333333333,
      "grad_norm": 0.8726336359977722,
      "learning_rate": 0.00023566908858720537,
      "loss": 3.7502,
      "step": 148510
    },
    {
      "epoch": 0.3094166666666667,
      "grad_norm": 0.8954122066497803,
      "learning_rate": 0.00023566099589414612,
      "loss": 3.9393,
      "step": 148520
    },
    {
      "epoch": 0.3094375,
      "grad_norm": 0.6867149472236633,
      "learning_rate": 0.00023565290283106527,
      "loss": 3.8661,
      "step": 148530
    },
    {
      "epoch": 0.30945833333333334,
      "grad_norm": 0.7179962992668152,
      "learning_rate": 0.0002356448093979978,
      "loss": 3.799,
      "step": 148540
    },
    {
      "epoch": 0.3094791666666667,
      "grad_norm": 1.0538922548294067,
      "learning_rate": 0.00023563671559497868,
      "loss": 3.9468,
      "step": 148550
    },
    {
      "epoch": 0.3095,
      "grad_norm": 0.814246416091919,
      "learning_rate": 0.00023562862142204283,
      "loss": 3.7249,
      "step": 148560
    },
    {
      "epoch": 0.30952083333333336,
      "grad_norm": 0.8280114531517029,
      "learning_rate": 0.00023562052687922525,
      "loss": 3.8379,
      "step": 148570
    },
    {
      "epoch": 0.30954166666666666,
      "grad_norm": 0.7510501742362976,
      "learning_rate": 0.0002356124319665608,
      "loss": 3.8357,
      "step": 148580
    },
    {
      "epoch": 0.3095625,
      "grad_norm": 0.7967499494552612,
      "learning_rate": 0.00023560433668408463,
      "loss": 3.8317,
      "step": 148590
    },
    {
      "epoch": 0.3095833333333333,
      "grad_norm": 0.7575317025184631,
      "learning_rate": 0.0002355962410318316,
      "loss": 3.7675,
      "step": 148600
    },
    {
      "epoch": 0.3096041666666667,
      "grad_norm": 0.7807244658470154,
      "learning_rate": 0.0002355881450098366,
      "loss": 3.7196,
      "step": 148610
    },
    {
      "epoch": 0.309625,
      "grad_norm": 0.8266279697418213,
      "learning_rate": 0.0002355800486181348,
      "loss": 3.751,
      "step": 148620
    },
    {
      "epoch": 0.30964583333333334,
      "grad_norm": 0.7833642363548279,
      "learning_rate": 0.00023557195185676104,
      "loss": 4.0112,
      "step": 148630
    },
    {
      "epoch": 0.30966666666666665,
      "grad_norm": 0.744142472743988,
      "learning_rate": 0.00023556385472575027,
      "loss": 3.8194,
      "step": 148640
    },
    {
      "epoch": 0.3096875,
      "grad_norm": 0.756466269493103,
      "learning_rate": 0.0002355557572251375,
      "loss": 3.9064,
      "step": 148650
    },
    {
      "epoch": 0.3097083333333333,
      "grad_norm": 0.7661104798316956,
      "learning_rate": 0.00023554765935495783,
      "loss": 3.8311,
      "step": 148660
    },
    {
      "epoch": 0.30972916666666667,
      "grad_norm": 0.7248517274856567,
      "learning_rate": 0.00023553956111524603,
      "loss": 4.0595,
      "step": 148670
    },
    {
      "epoch": 0.30975,
      "grad_norm": 0.8092121481895447,
      "learning_rate": 0.00023553146250603727,
      "loss": 3.7588,
      "step": 148680
    },
    {
      "epoch": 0.30977083333333333,
      "grad_norm": 0.8492959141731262,
      "learning_rate": 0.00023552336352736637,
      "loss": 3.8879,
      "step": 148690
    },
    {
      "epoch": 0.3097916666666667,
      "grad_norm": 0.6656467318534851,
      "learning_rate": 0.00023551526417926844,
      "loss": 3.8592,
      "step": 148700
    },
    {
      "epoch": 0.3098125,
      "grad_norm": 0.7673473954200745,
      "learning_rate": 0.0002355071644617784,
      "loss": 3.8763,
      "step": 148710
    },
    {
      "epoch": 0.30983333333333335,
      "grad_norm": 0.8472395539283752,
      "learning_rate": 0.00023549906437493126,
      "loss": 3.5778,
      "step": 148720
    },
    {
      "epoch": 0.30985416666666665,
      "grad_norm": 0.8320297598838806,
      "learning_rate": 0.000235490963918762,
      "loss": 3.8774,
      "step": 148730
    },
    {
      "epoch": 0.309875,
      "grad_norm": 0.6928314566612244,
      "learning_rate": 0.00023548286309330567,
      "loss": 3.7498,
      "step": 148740
    },
    {
      "epoch": 0.3098958333333333,
      "grad_norm": 0.7816563844680786,
      "learning_rate": 0.00023547476189859714,
      "loss": 3.8441,
      "step": 148750
    },
    {
      "epoch": 0.3099166666666667,
      "grad_norm": 0.8611055612564087,
      "learning_rate": 0.00023546666033467148,
      "loss": 3.8241,
      "step": 148760
    },
    {
      "epoch": 0.3099375,
      "grad_norm": 0.8162978887557983,
      "learning_rate": 0.0002354585584015637,
      "loss": 3.8181,
      "step": 148770
    },
    {
      "epoch": 0.30995833333333334,
      "grad_norm": 0.7094116806983948,
      "learning_rate": 0.00023545045609930874,
      "loss": 3.7466,
      "step": 148780
    },
    {
      "epoch": 0.30997916666666664,
      "grad_norm": 0.8113015294075012,
      "learning_rate": 0.00023544235342794168,
      "loss": 3.7936,
      "step": 148790
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9135077595710754,
      "learning_rate": 0.00023543425038749746,
      "loss": 3.7712,
      "step": 148800
    },
    {
      "epoch": 0.31002083333333336,
      "grad_norm": 0.759608805179596,
      "learning_rate": 0.00023542614697801107,
      "loss": 3.8406,
      "step": 148810
    },
    {
      "epoch": 0.31004166666666666,
      "grad_norm": 0.7916034460067749,
      "learning_rate": 0.00023541804319951757,
      "loss": 3.6867,
      "step": 148820
    },
    {
      "epoch": 0.3100625,
      "grad_norm": 0.6871963739395142,
      "learning_rate": 0.00023540993905205192,
      "loss": 3.9326,
      "step": 148830
    },
    {
      "epoch": 0.3100833333333333,
      "grad_norm": 0.7105778455734253,
      "learning_rate": 0.00023540183453564913,
      "loss": 3.8846,
      "step": 148840
    },
    {
      "epoch": 0.3101041666666667,
      "grad_norm": 0.8227768540382385,
      "learning_rate": 0.00023539372965034424,
      "loss": 3.9761,
      "step": 148850
    },
    {
      "epoch": 0.310125,
      "grad_norm": 0.831312894821167,
      "learning_rate": 0.0002353856243961722,
      "loss": 3.736,
      "step": 148860
    },
    {
      "epoch": 0.31014583333333334,
      "grad_norm": 0.7564826607704163,
      "learning_rate": 0.0002353775187731681,
      "loss": 3.8161,
      "step": 148870
    },
    {
      "epoch": 0.31016666666666665,
      "grad_norm": 0.7455343008041382,
      "learning_rate": 0.00023536941278136692,
      "loss": 4.0404,
      "step": 148880
    },
    {
      "epoch": 0.3101875,
      "grad_norm": 0.8165285587310791,
      "learning_rate": 0.00023536130642080365,
      "loss": 3.9373,
      "step": 148890
    },
    {
      "epoch": 0.3102083333333333,
      "grad_norm": 0.7908169031143188,
      "learning_rate": 0.00023535319969151332,
      "loss": 3.8052,
      "step": 148900
    },
    {
      "epoch": 0.31022916666666667,
      "grad_norm": 0.8558760285377502,
      "learning_rate": 0.00023534509259353094,
      "loss": 3.6137,
      "step": 148910
    },
    {
      "epoch": 0.31025,
      "grad_norm": 0.9535863995552063,
      "learning_rate": 0.00023533698512689157,
      "loss": 4.0607,
      "step": 148920
    },
    {
      "epoch": 0.31027083333333333,
      "grad_norm": 0.6787382960319519,
      "learning_rate": 0.00023532887729163016,
      "loss": 3.7525,
      "step": 148930
    },
    {
      "epoch": 0.3102916666666667,
      "grad_norm": 0.7809671759605408,
      "learning_rate": 0.00023532076908778184,
      "loss": 3.8212,
      "step": 148940
    },
    {
      "epoch": 0.3103125,
      "grad_norm": 0.8263019323348999,
      "learning_rate": 0.0002353126605153815,
      "loss": 3.9215,
      "step": 148950
    },
    {
      "epoch": 0.31033333333333335,
      "grad_norm": 0.7585077881813049,
      "learning_rate": 0.0002353045515744643,
      "loss": 3.8608,
      "step": 148960
    },
    {
      "epoch": 0.31035416666666665,
      "grad_norm": 0.7656912207603455,
      "learning_rate": 0.0002352964422650652,
      "loss": 4.0039,
      "step": 148970
    },
    {
      "epoch": 0.310375,
      "grad_norm": 0.7157415747642517,
      "learning_rate": 0.0002352883325872192,
      "loss": 3.8877,
      "step": 148980
    },
    {
      "epoch": 0.3103958333333333,
      "grad_norm": 0.8016668558120728,
      "learning_rate": 0.00023528022254096136,
      "loss": 3.7284,
      "step": 148990
    },
    {
      "epoch": 0.3104166666666667,
      "grad_norm": 0.7740583419799805,
      "learning_rate": 0.00023527211212632674,
      "loss": 4.0697,
      "step": 149000
    },
    {
      "epoch": 0.3104166666666667,
      "eval_loss": 4.201578617095947,
      "eval_runtime": 10.2365,
      "eval_samples_per_second": 0.977,
      "eval_steps_per_second": 0.293,
      "step": 149000
    },
    {
      "epoch": 0.3104375,
      "grad_norm": 0.8321056962013245,
      "learning_rate": 0.00023526400134335035,
      "loss": 3.8088,
      "step": 149010
    },
    {
      "epoch": 0.31045833333333334,
      "grad_norm": 0.6839714646339417,
      "learning_rate": 0.00023525589019206722,
      "loss": 3.9453,
      "step": 149020
    },
    {
      "epoch": 0.31047916666666664,
      "grad_norm": 0.7635685801506042,
      "learning_rate": 0.00023524777867251235,
      "loss": 3.9154,
      "step": 149030
    },
    {
      "epoch": 0.3105,
      "grad_norm": 0.6910764575004578,
      "learning_rate": 0.00023523966678472085,
      "loss": 4.007,
      "step": 149040
    },
    {
      "epoch": 0.31052083333333336,
      "grad_norm": 0.7861680388450623,
      "learning_rate": 0.00023523155452872773,
      "loss": 3.9799,
      "step": 149050
    },
    {
      "epoch": 0.31054166666666666,
      "grad_norm": 0.8286615610122681,
      "learning_rate": 0.00023522344190456804,
      "loss": 3.9691,
      "step": 149060
    },
    {
      "epoch": 0.3105625,
      "grad_norm": 0.7605079412460327,
      "learning_rate": 0.00023521532891227677,
      "loss": 3.7217,
      "step": 149070
    },
    {
      "epoch": 0.3105833333333333,
      "grad_norm": 0.7576153874397278,
      "learning_rate": 0.00023520721555188908,
      "loss": 3.7823,
      "step": 149080
    },
    {
      "epoch": 0.3106041666666667,
      "grad_norm": 0.6908245086669922,
      "learning_rate": 0.00023519910182343993,
      "loss": 3.9525,
      "step": 149090
    },
    {
      "epoch": 0.310625,
      "grad_norm": 0.860221803188324,
      "learning_rate": 0.00023519098772696435,
      "loss": 3.7341,
      "step": 149100
    },
    {
      "epoch": 0.31064583333333334,
      "grad_norm": 0.8470463752746582,
      "learning_rate": 0.00023518287326249746,
      "loss": 3.8161,
      "step": 149110
    },
    {
      "epoch": 0.31066666666666665,
      "grad_norm": 0.7348676323890686,
      "learning_rate": 0.00023517475843007422,
      "loss": 3.7691,
      "step": 149120
    },
    {
      "epoch": 0.3106875,
      "grad_norm": 0.8482905030250549,
      "learning_rate": 0.00023516664322972977,
      "loss": 3.9944,
      "step": 149130
    },
    {
      "epoch": 0.3107083333333333,
      "grad_norm": 0.7754638195037842,
      "learning_rate": 0.00023515852766149914,
      "loss": 3.8807,
      "step": 149140
    },
    {
      "epoch": 0.31072916666666667,
      "grad_norm": 0.9429773092269897,
      "learning_rate": 0.00023515041172541735,
      "loss": 3.8578,
      "step": 149150
    },
    {
      "epoch": 0.31075,
      "grad_norm": 0.7802019715309143,
      "learning_rate": 0.00023514229542151956,
      "loss": 4.0433,
      "step": 149160
    },
    {
      "epoch": 0.31077083333333333,
      "grad_norm": 0.7548902630805969,
      "learning_rate": 0.00023513417874984068,
      "loss": 3.8868,
      "step": 149170
    },
    {
      "epoch": 0.3107916666666667,
      "grad_norm": 0.8527351021766663,
      "learning_rate": 0.00023512606171041588,
      "loss": 3.9426,
      "step": 149180
    },
    {
      "epoch": 0.3108125,
      "grad_norm": 0.7857971787452698,
      "learning_rate": 0.0002351179443032802,
      "loss": 3.8335,
      "step": 149190
    },
    {
      "epoch": 0.31083333333333335,
      "grad_norm": 0.8805367350578308,
      "learning_rate": 0.00023510982652846866,
      "loss": 3.6943,
      "step": 149200
    },
    {
      "epoch": 0.31085416666666665,
      "grad_norm": 0.7022283673286438,
      "learning_rate": 0.0002351017083860164,
      "loss": 3.8529,
      "step": 149210
    },
    {
      "epoch": 0.310875,
      "grad_norm": 0.8903633952140808,
      "learning_rate": 0.0002350935898759584,
      "loss": 3.8655,
      "step": 149220
    },
    {
      "epoch": 0.3108958333333333,
      "grad_norm": 0.7202417850494385,
      "learning_rate": 0.00023508547099832978,
      "loss": 3.9061,
      "step": 149230
    },
    {
      "epoch": 0.3109166666666667,
      "grad_norm": 0.8465707898139954,
      "learning_rate": 0.00023507735175316562,
      "loss": 3.8255,
      "step": 149240
    },
    {
      "epoch": 0.3109375,
      "grad_norm": 0.7075151801109314,
      "learning_rate": 0.00023506923214050096,
      "loss": 3.9825,
      "step": 149250
    },
    {
      "epoch": 0.31095833333333334,
      "grad_norm": 0.7255030274391174,
      "learning_rate": 0.00023506111216037095,
      "loss": 3.8556,
      "step": 149260
    },
    {
      "epoch": 0.31097916666666664,
      "grad_norm": 0.7427261471748352,
      "learning_rate": 0.00023505299181281054,
      "loss": 3.9561,
      "step": 149270
    },
    {
      "epoch": 0.311,
      "grad_norm": 0.7715480327606201,
      "learning_rate": 0.00023504487109785488,
      "loss": 3.6987,
      "step": 149280
    },
    {
      "epoch": 0.31102083333333336,
      "grad_norm": 0.7938768267631531,
      "learning_rate": 0.00023503675001553906,
      "loss": 3.6793,
      "step": 149290
    },
    {
      "epoch": 0.31104166666666666,
      "grad_norm": 0.7547907829284668,
      "learning_rate": 0.00023502862856589812,
      "loss": 3.8711,
      "step": 149300
    },
    {
      "epoch": 0.3110625,
      "grad_norm": 0.7566395998001099,
      "learning_rate": 0.00023502050674896715,
      "loss": 3.8651,
      "step": 149310
    },
    {
      "epoch": 0.3110833333333333,
      "grad_norm": 0.8750239014625549,
      "learning_rate": 0.00023501238456478124,
      "loss": 3.7891,
      "step": 149320
    },
    {
      "epoch": 0.3111041666666667,
      "grad_norm": 0.7096672654151917,
      "learning_rate": 0.00023500426201337554,
      "loss": 3.8353,
      "step": 149330
    },
    {
      "epoch": 0.311125,
      "grad_norm": 0.8511390089988708,
      "learning_rate": 0.00023499613909478504,
      "loss": 3.7897,
      "step": 149340
    },
    {
      "epoch": 0.31114583333333334,
      "grad_norm": 0.7579299807548523,
      "learning_rate": 0.00023498801580904485,
      "loss": 3.9311,
      "step": 149350
    },
    {
      "epoch": 0.31116666666666665,
      "grad_norm": 1.019452691078186,
      "learning_rate": 0.00023497989215619006,
      "loss": 4.0646,
      "step": 149360
    },
    {
      "epoch": 0.3111875,
      "grad_norm": 0.7063214182853699,
      "learning_rate": 0.00023497176813625583,
      "loss": 3.582,
      "step": 149370
    },
    {
      "epoch": 0.3112083333333333,
      "grad_norm": 0.7881917357444763,
      "learning_rate": 0.00023496364374927714,
      "loss": 3.9476,
      "step": 149380
    },
    {
      "epoch": 0.31122916666666667,
      "grad_norm": 0.6649103164672852,
      "learning_rate": 0.0002349555189952892,
      "loss": 3.8806,
      "step": 149390
    },
    {
      "epoch": 0.31125,
      "grad_norm": 0.8177562355995178,
      "learning_rate": 0.00023494739387432698,
      "loss": 3.9237,
      "step": 149400
    },
    {
      "epoch": 0.31127083333333333,
      "grad_norm": 0.7172955274581909,
      "learning_rate": 0.0002349392683864257,
      "loss": 3.957,
      "step": 149410
    },
    {
      "epoch": 0.3112916666666667,
      "grad_norm": 0.8409459590911865,
      "learning_rate": 0.00023493114253162034,
      "loss": 3.9091,
      "step": 149420
    },
    {
      "epoch": 0.3113125,
      "grad_norm": 0.8018367886543274,
      "learning_rate": 0.0002349230163099461,
      "loss": 3.786,
      "step": 149430
    },
    {
      "epoch": 0.31133333333333335,
      "grad_norm": 0.7449060678482056,
      "learning_rate": 0.00023491488972143804,
      "loss": 3.9754,
      "step": 149440
    },
    {
      "epoch": 0.31135416666666665,
      "grad_norm": 0.7210964560508728,
      "learning_rate": 0.00023490676276613124,
      "loss": 4.0012,
      "step": 149450
    },
    {
      "epoch": 0.311375,
      "grad_norm": 0.9360355138778687,
      "learning_rate": 0.0002348986354440609,
      "loss": 3.6509,
      "step": 149460
    },
    {
      "epoch": 0.3113958333333333,
      "grad_norm": 0.7252681255340576,
      "learning_rate": 0.000234890507755262,
      "loss": 3.947,
      "step": 149470
    },
    {
      "epoch": 0.3114166666666667,
      "grad_norm": 0.720306932926178,
      "learning_rate": 0.00023488237969976973,
      "loss": 3.6732,
      "step": 149480
    },
    {
      "epoch": 0.3114375,
      "grad_norm": 0.6817887425422668,
      "learning_rate": 0.00023487425127761917,
      "loss": 3.9169,
      "step": 149490
    },
    {
      "epoch": 0.31145833333333334,
      "grad_norm": 0.777643084526062,
      "learning_rate": 0.00023486612248884545,
      "loss": 3.8156,
      "step": 149500
    },
    {
      "epoch": 0.31147916666666664,
      "grad_norm": 1.4565786123275757,
      "learning_rate": 0.00023485799333348368,
      "loss": 3.9156,
      "step": 149510
    },
    {
      "epoch": 0.3115,
      "grad_norm": 0.7257287502288818,
      "learning_rate": 0.00023484986381156896,
      "loss": 3.776,
      "step": 149520
    },
    {
      "epoch": 0.31152083333333336,
      "grad_norm": 0.6884384155273438,
      "learning_rate": 0.00023484173392313644,
      "loss": 3.9426,
      "step": 149530
    },
    {
      "epoch": 0.31154166666666666,
      "grad_norm": 0.7069519758224487,
      "learning_rate": 0.0002348336036682212,
      "loss": 3.8694,
      "step": 149540
    },
    {
      "epoch": 0.3115625,
      "grad_norm": 1.1558600664138794,
      "learning_rate": 0.00023482547304685836,
      "loss": 3.8552,
      "step": 149550
    },
    {
      "epoch": 0.3115833333333333,
      "grad_norm": 0.7138083577156067,
      "learning_rate": 0.00023481734205908303,
      "loss": 3.7657,
      "step": 149560
    },
    {
      "epoch": 0.3116041666666667,
      "grad_norm": 0.7581455707550049,
      "learning_rate": 0.00023480921070493036,
      "loss": 3.8361,
      "step": 149570
    },
    {
      "epoch": 0.311625,
      "grad_norm": 0.8295230865478516,
      "learning_rate": 0.0002348010789844355,
      "loss": 3.8952,
      "step": 149580
    },
    {
      "epoch": 0.31164583333333334,
      "grad_norm": 0.7868367433547974,
      "learning_rate": 0.00023479294689763352,
      "loss": 4.0976,
      "step": 149590
    },
    {
      "epoch": 0.31166666666666665,
      "grad_norm": 0.8064396381378174,
      "learning_rate": 0.0002347848144445596,
      "loss": 3.9204,
      "step": 149600
    },
    {
      "epoch": 0.3116875,
      "grad_norm": 0.8082475066184998,
      "learning_rate": 0.00023477668162524877,
      "loss": 3.8457,
      "step": 149610
    },
    {
      "epoch": 0.3117083333333333,
      "grad_norm": 0.8306107521057129,
      "learning_rate": 0.0002347685484397363,
      "loss": 4.0155,
      "step": 149620
    },
    {
      "epoch": 0.31172916666666667,
      "grad_norm": 0.7173776030540466,
      "learning_rate": 0.00023476041488805727,
      "loss": 3.9655,
      "step": 149630
    },
    {
      "epoch": 0.31175,
      "grad_norm": 0.6878712177276611,
      "learning_rate": 0.0002347522809702468,
      "loss": 3.9094,
      "step": 149640
    },
    {
      "epoch": 0.31177083333333333,
      "grad_norm": 0.6985025405883789,
      "learning_rate": 0.00023474414668633994,
      "loss": 3.9201,
      "step": 149650
    },
    {
      "epoch": 0.3117916666666667,
      "grad_norm": 0.7829439043998718,
      "learning_rate": 0.000234736012036372,
      "loss": 3.8852,
      "step": 149660
    },
    {
      "epoch": 0.3118125,
      "grad_norm": 0.8119215369224548,
      "learning_rate": 0.00023472787702037798,
      "loss": 3.726,
      "step": 149670
    },
    {
      "epoch": 0.31183333333333335,
      "grad_norm": 0.8100839257240295,
      "learning_rate": 0.00023471974163839307,
      "loss": 3.8004,
      "step": 149680
    },
    {
      "epoch": 0.31185416666666665,
      "grad_norm": 0.8940759897232056,
      "learning_rate": 0.00023471160589045247,
      "loss": 3.8642,
      "step": 149690
    },
    {
      "epoch": 0.311875,
      "grad_norm": 0.7174542546272278,
      "learning_rate": 0.00023470346977659117,
      "loss": 3.7547,
      "step": 149700
    },
    {
      "epoch": 0.3118958333333333,
      "grad_norm": 0.6955791711807251,
      "learning_rate": 0.00023469533329684446,
      "loss": 4.0621,
      "step": 149710
    },
    {
      "epoch": 0.3119166666666667,
      "grad_norm": 0.9161574840545654,
      "learning_rate": 0.00023468719645124744,
      "loss": 3.8972,
      "step": 149720
    },
    {
      "epoch": 0.3119375,
      "grad_norm": 0.8533430695533752,
      "learning_rate": 0.0002346790592398352,
      "loss": 3.83,
      "step": 149730
    },
    {
      "epoch": 0.31195833333333334,
      "grad_norm": 0.79462069272995,
      "learning_rate": 0.000234670921662643,
      "loss": 3.9513,
      "step": 149740
    },
    {
      "epoch": 0.31197916666666664,
      "grad_norm": 0.7633882761001587,
      "learning_rate": 0.00023466278371970592,
      "loss": 3.8999,
      "step": 149750
    },
    {
      "epoch": 0.312,
      "grad_norm": 0.8135151267051697,
      "learning_rate": 0.00023465464541105914,
      "loss": 3.6513,
      "step": 149760
    },
    {
      "epoch": 0.31202083333333336,
      "grad_norm": 0.7338120937347412,
      "learning_rate": 0.0002346465067367378,
      "loss": 3.7528,
      "step": 149770
    },
    {
      "epoch": 0.31204166666666666,
      "grad_norm": 0.7814091444015503,
      "learning_rate": 0.00023463836769677704,
      "loss": 3.8081,
      "step": 149780
    },
    {
      "epoch": 0.3120625,
      "grad_norm": 0.7694616317749023,
      "learning_rate": 0.00023463022829121202,
      "loss": 3.8848,
      "step": 149790
    },
    {
      "epoch": 0.3120833333333333,
      "grad_norm": 0.7115181684494019,
      "learning_rate": 0.00023462208852007794,
      "loss": 3.7659,
      "step": 149800
    },
    {
      "epoch": 0.3121041666666667,
      "grad_norm": 1.1398409605026245,
      "learning_rate": 0.00023461394838340992,
      "loss": 3.9632,
      "step": 149810
    },
    {
      "epoch": 0.312125,
      "grad_norm": 0.7169707417488098,
      "learning_rate": 0.0002346058078812431,
      "loss": 3.7088,
      "step": 149820
    },
    {
      "epoch": 0.31214583333333334,
      "grad_norm": 0.9930000901222229,
      "learning_rate": 0.00023459766701361274,
      "loss": 3.7275,
      "step": 149830
    },
    {
      "epoch": 0.31216666666666665,
      "grad_norm": 0.7352747321128845,
      "learning_rate": 0.00023458952578055394,
      "loss": 3.8252,
      "step": 149840
    },
    {
      "epoch": 0.3121875,
      "grad_norm": 0.6530440449714661,
      "learning_rate": 0.0002345813841821018,
      "loss": 3.722,
      "step": 149850
    },
    {
      "epoch": 0.3122083333333333,
      "grad_norm": 0.9105616807937622,
      "learning_rate": 0.00023457324221829164,
      "loss": 4.0075,
      "step": 149860
    },
    {
      "epoch": 0.31222916666666667,
      "grad_norm": 0.8865585327148438,
      "learning_rate": 0.0002345650998891585,
      "loss": 3.9074,
      "step": 149870
    },
    {
      "epoch": 0.31225,
      "grad_norm": 0.704622209072113,
      "learning_rate": 0.00023455695719473764,
      "loss": 3.9968,
      "step": 149880
    },
    {
      "epoch": 0.31227083333333333,
      "grad_norm": 0.7930744290351868,
      "learning_rate": 0.00023454881413506422,
      "loss": 3.9743,
      "step": 149890
    },
    {
      "epoch": 0.3122916666666667,
      "grad_norm": 0.710952639579773,
      "learning_rate": 0.00023454067071017334,
      "loss": 3.8489,
      "step": 149900
    },
    {
      "epoch": 0.3123125,
      "grad_norm": 0.8279070258140564,
      "learning_rate": 0.0002345325269201002,
      "loss": 4.0267,
      "step": 149910
    },
    {
      "epoch": 0.31233333333333335,
      "grad_norm": 0.7468821406364441,
      "learning_rate": 0.00023452438276488005,
      "loss": 4.0269,
      "step": 149920
    },
    {
      "epoch": 0.31235416666666665,
      "grad_norm": 0.7944055795669556,
      "learning_rate": 0.000234516238244548,
      "loss": 3.8382,
      "step": 149930
    },
    {
      "epoch": 0.312375,
      "grad_norm": 0.8884439468383789,
      "learning_rate": 0.00023450809335913927,
      "loss": 3.7443,
      "step": 149940
    },
    {
      "epoch": 0.3123958333333333,
      "grad_norm": 0.9039425849914551,
      "learning_rate": 0.00023449994810868902,
      "loss": 3.9954,
      "step": 149950
    },
    {
      "epoch": 0.3124166666666667,
      "grad_norm": 0.8432046175003052,
      "learning_rate": 0.00023449180249323243,
      "loss": 3.7948,
      "step": 149960
    },
    {
      "epoch": 0.3124375,
      "grad_norm": 1.0496952533721924,
      "learning_rate": 0.00023448365651280472,
      "loss": 3.901,
      "step": 149970
    },
    {
      "epoch": 0.31245833333333334,
      "grad_norm": 0.7715217471122742,
      "learning_rate": 0.00023447551016744106,
      "loss": 3.803,
      "step": 149980
    },
    {
      "epoch": 0.31247916666666664,
      "grad_norm": 0.7916427850723267,
      "learning_rate": 0.0002344673634571766,
      "loss": 3.8095,
      "step": 149990
    },
    {
      "epoch": 0.3125,
      "grad_norm": 0.8263709545135498,
      "learning_rate": 0.0002344592163820466,
      "loss": 3.9828,
      "step": 150000
    },
    {
      "epoch": 0.3125,
      "eval_loss": 4.20870304107666,
      "eval_runtime": 11.0197,
      "eval_samples_per_second": 0.907,
      "eval_steps_per_second": 0.272,
      "step": 150000
    },
    {
      "epoch": 0.31252083333333336,
      "grad_norm": 0.7902944684028625,
      "learning_rate": 0.00023445106894208622,
      "loss": 3.8976,
      "step": 150010
    },
    {
      "epoch": 0.31254166666666666,
      "grad_norm": 0.7717652916908264,
      "learning_rate": 0.00023444292113733063,
      "loss": 3.9246,
      "step": 150020
    },
    {
      "epoch": 0.3125625,
      "grad_norm": 0.7132194638252258,
      "learning_rate": 0.00023443477296781505,
      "loss": 3.9778,
      "step": 150030
    },
    {
      "epoch": 0.3125833333333333,
      "grad_norm": 0.8409616351127625,
      "learning_rate": 0.00023442662443357465,
      "loss": 3.865,
      "step": 150040
    },
    {
      "epoch": 0.3126041666666667,
      "grad_norm": 0.8054368495941162,
      "learning_rate": 0.00023441847553464467,
      "loss": 3.7809,
      "step": 150050
    },
    {
      "epoch": 0.312625,
      "grad_norm": 1.2198190689086914,
      "learning_rate": 0.0002344103262710603,
      "loss": 3.842,
      "step": 150060
    },
    {
      "epoch": 0.31264583333333335,
      "grad_norm": 0.8407183885574341,
      "learning_rate": 0.0002344021766428567,
      "loss": 3.9108,
      "step": 150070
    },
    {
      "epoch": 0.31266666666666665,
      "grad_norm": 0.9057486057281494,
      "learning_rate": 0.00023439402665006913,
      "loss": 3.7524,
      "step": 150080
    },
    {
      "epoch": 0.3126875,
      "grad_norm": 0.7903375625610352,
      "learning_rate": 0.00023438587629273278,
      "loss": 3.852,
      "step": 150090
    },
    {
      "epoch": 0.3127083333333333,
      "grad_norm": 0.7914307713508606,
      "learning_rate": 0.00023437772557088283,
      "loss": 3.8981,
      "step": 150100
    },
    {
      "epoch": 0.31272916666666667,
      "grad_norm": 0.7460343241691589,
      "learning_rate": 0.00023436957448455452,
      "loss": 3.9612,
      "step": 150110
    },
    {
      "epoch": 0.31275,
      "grad_norm": 0.7286447286605835,
      "learning_rate": 0.000234361423033783,
      "loss": 3.9391,
      "step": 150120
    },
    {
      "epoch": 0.31277083333333333,
      "grad_norm": 0.8660678267478943,
      "learning_rate": 0.00023435327121860362,
      "loss": 3.8459,
      "step": 150130
    },
    {
      "epoch": 0.3127916666666667,
      "grad_norm": 0.7472611665725708,
      "learning_rate": 0.00023434511903905144,
      "loss": 3.7617,
      "step": 150140
    },
    {
      "epoch": 0.3128125,
      "grad_norm": 0.837967574596405,
      "learning_rate": 0.00023433696649516168,
      "loss": 3.765,
      "step": 150150
    },
    {
      "epoch": 0.31283333333333335,
      "grad_norm": 0.951878011226654,
      "learning_rate": 0.00023432881358696967,
      "loss": 3.8282,
      "step": 150160
    },
    {
      "epoch": 0.31285416666666666,
      "grad_norm": 0.8337476253509521,
      "learning_rate": 0.00023432066031451056,
      "loss": 3.8528,
      "step": 150170
    },
    {
      "epoch": 0.312875,
      "grad_norm": 0.8074238300323486,
      "learning_rate": 0.00023431250667781958,
      "loss": 3.8378,
      "step": 150180
    },
    {
      "epoch": 0.3128958333333333,
      "grad_norm": 0.7832789421081543,
      "learning_rate": 0.00023430435267693191,
      "loss": 3.9533,
      "step": 150190
    },
    {
      "epoch": 0.3129166666666667,
      "grad_norm": 0.7838262319564819,
      "learning_rate": 0.00023429619831188283,
      "loss": 3.9086,
      "step": 150200
    },
    {
      "epoch": 0.3129375,
      "grad_norm": 0.7804915904998779,
      "learning_rate": 0.00023428804358270754,
      "loss": 4.0208,
      "step": 150210
    },
    {
      "epoch": 0.31295833333333334,
      "grad_norm": 0.7998875379562378,
      "learning_rate": 0.00023427988848944122,
      "loss": 3.6752,
      "step": 150220
    },
    {
      "epoch": 0.31297916666666664,
      "grad_norm": 0.9584560990333557,
      "learning_rate": 0.00023427173303211922,
      "loss": 3.9403,
      "step": 150230
    },
    {
      "epoch": 0.313,
      "grad_norm": 0.8235063552856445,
      "learning_rate": 0.0002342635772107767,
      "loss": 3.8762,
      "step": 150240
    },
    {
      "epoch": 0.31302083333333336,
      "grad_norm": 0.7682621479034424,
      "learning_rate": 0.00023425542102544877,
      "loss": 3.8021,
      "step": 150250
    },
    {
      "epoch": 0.31304166666666666,
      "grad_norm": 0.7656262516975403,
      "learning_rate": 0.0002342472644761709,
      "loss": 3.88,
      "step": 150260
    },
    {
      "epoch": 0.3130625,
      "grad_norm": 0.8191246390342712,
      "learning_rate": 0.00023423910756297807,
      "loss": 4.1385,
      "step": 150270
    },
    {
      "epoch": 0.3130833333333333,
      "grad_norm": 0.786157488822937,
      "learning_rate": 0.00023423095028590572,
      "loss": 3.8109,
      "step": 150280
    },
    {
      "epoch": 0.3131041666666667,
      "grad_norm": 0.9636287093162537,
      "learning_rate": 0.00023422279264498903,
      "loss": 3.8392,
      "step": 150290
    },
    {
      "epoch": 0.313125,
      "grad_norm": 0.7230552434921265,
      "learning_rate": 0.00023421463464026314,
      "loss": 3.7636,
      "step": 150300
    },
    {
      "epoch": 0.31314583333333335,
      "grad_norm": 0.7739553451538086,
      "learning_rate": 0.00023420647627176344,
      "loss": 3.915,
      "step": 150310
    },
    {
      "epoch": 0.31316666666666665,
      "grad_norm": 0.7346723079681396,
      "learning_rate": 0.000234198317539525,
      "loss": 3.9225,
      "step": 150320
    },
    {
      "epoch": 0.3131875,
      "grad_norm": 0.8155130743980408,
      "learning_rate": 0.0002341901584435832,
      "loss": 3.838,
      "step": 150330
    },
    {
      "epoch": 0.3132083333333333,
      "grad_norm": 0.6821978688240051,
      "learning_rate": 0.00023418199898397326,
      "loss": 3.9032,
      "step": 150340
    },
    {
      "epoch": 0.31322916666666667,
      "grad_norm": 0.6989527344703674,
      "learning_rate": 0.00023417383916073036,
      "loss": 3.8883,
      "step": 150350
    },
    {
      "epoch": 0.31325,
      "grad_norm": 0.6972786784172058,
      "learning_rate": 0.00023416567897388985,
      "loss": 3.8305,
      "step": 150360
    },
    {
      "epoch": 0.31327083333333333,
      "grad_norm": 0.9383766055107117,
      "learning_rate": 0.0002341575184234869,
      "loss": 3.9844,
      "step": 150370
    },
    {
      "epoch": 0.3132916666666667,
      "grad_norm": 1.0584620237350464,
      "learning_rate": 0.0002341493575095568,
      "loss": 3.8204,
      "step": 150380
    },
    {
      "epoch": 0.3133125,
      "grad_norm": 0.7849805951118469,
      "learning_rate": 0.00023414119623213473,
      "loss": 3.8885,
      "step": 150390
    },
    {
      "epoch": 0.31333333333333335,
      "grad_norm": 0.6669514775276184,
      "learning_rate": 0.00023413303459125602,
      "loss": 3.8183,
      "step": 150400
    },
    {
      "epoch": 0.31335416666666666,
      "grad_norm": 0.9220631718635559,
      "learning_rate": 0.0002341248725869559,
      "loss": 3.7256,
      "step": 150410
    },
    {
      "epoch": 0.313375,
      "grad_norm": 0.7554983496665955,
      "learning_rate": 0.00023411671021926969,
      "loss": 3.8953,
      "step": 150420
    },
    {
      "epoch": 0.3133958333333333,
      "grad_norm": 0.7705110311508179,
      "learning_rate": 0.0002341085474882325,
      "loss": 3.9809,
      "step": 150430
    },
    {
      "epoch": 0.3134166666666667,
      "grad_norm": 0.7235067486763,
      "learning_rate": 0.0002341003843938797,
      "loss": 3.8796,
      "step": 150440
    },
    {
      "epoch": 0.3134375,
      "grad_norm": 0.7197960615158081,
      "learning_rate": 0.00023409222093624655,
      "loss": 3.8565,
      "step": 150450
    },
    {
      "epoch": 0.31345833333333334,
      "grad_norm": 0.7510572671890259,
      "learning_rate": 0.0002340840571153683,
      "loss": 3.9254,
      "step": 150460
    },
    {
      "epoch": 0.31347916666666664,
      "grad_norm": 0.7345244884490967,
      "learning_rate": 0.0002340758929312802,
      "loss": 3.6252,
      "step": 150470
    },
    {
      "epoch": 0.3135,
      "grad_norm": 0.7594490051269531,
      "learning_rate": 0.00023406772838401754,
      "loss": 3.9226,
      "step": 150480
    },
    {
      "epoch": 0.31352083333333336,
      "grad_norm": 0.7665515542030334,
      "learning_rate": 0.0002340595634736155,
      "loss": 3.9076,
      "step": 150490
    },
    {
      "epoch": 0.31354166666666666,
      "grad_norm": 0.7433122396469116,
      "learning_rate": 0.00023405139820010948,
      "loss": 3.7907,
      "step": 150500
    },
    {
      "epoch": 0.3135625,
      "grad_norm": 0.6759931445121765,
      "learning_rate": 0.00023404323256353467,
      "loss": 3.9287,
      "step": 150510
    },
    {
      "epoch": 0.3135833333333333,
      "grad_norm": 0.7139696478843689,
      "learning_rate": 0.00023403506656392636,
      "loss": 3.9665,
      "step": 150520
    },
    {
      "epoch": 0.3136041666666667,
      "grad_norm": 0.7955859899520874,
      "learning_rate": 0.00023402690020131982,
      "loss": 4.1217,
      "step": 150530
    },
    {
      "epoch": 0.313625,
      "grad_norm": 0.9111461639404297,
      "learning_rate": 0.00023401873347575033,
      "loss": 3.7041,
      "step": 150540
    },
    {
      "epoch": 0.31364583333333335,
      "grad_norm": 0.7722597718238831,
      "learning_rate": 0.0002340105663872532,
      "loss": 3.8502,
      "step": 150550
    },
    {
      "epoch": 0.31366666666666665,
      "grad_norm": 0.7175629138946533,
      "learning_rate": 0.00023400239893586365,
      "loss": 3.9579,
      "step": 150560
    },
    {
      "epoch": 0.3136875,
      "grad_norm": 0.745150089263916,
      "learning_rate": 0.000233994231121617,
      "loss": 3.8313,
      "step": 150570
    },
    {
      "epoch": 0.3137083333333333,
      "grad_norm": 0.8045585751533508,
      "learning_rate": 0.0002339860629445485,
      "loss": 3.8294,
      "step": 150580
    },
    {
      "epoch": 0.31372916666666667,
      "grad_norm": 0.678386390209198,
      "learning_rate": 0.00023397789440469347,
      "loss": 3.8322,
      "step": 150590
    },
    {
      "epoch": 0.31375,
      "grad_norm": 0.8445745706558228,
      "learning_rate": 0.0002339697255020872,
      "loss": 3.7841,
      "step": 150600
    },
    {
      "epoch": 0.31377083333333333,
      "grad_norm": 0.8154638409614563,
      "learning_rate": 0.0002339615562367649,
      "loss": 3.8536,
      "step": 150610
    },
    {
      "epoch": 0.3137916666666667,
      "grad_norm": 0.7746121287345886,
      "learning_rate": 0.00023395338660876195,
      "loss": 3.9898,
      "step": 150620
    },
    {
      "epoch": 0.3138125,
      "grad_norm": 0.9071253538131714,
      "learning_rate": 0.00023394521661811358,
      "loss": 3.8381,
      "step": 150630
    },
    {
      "epoch": 0.31383333333333335,
      "grad_norm": 0.9453405141830444,
      "learning_rate": 0.0002339370462648551,
      "loss": 3.799,
      "step": 150640
    },
    {
      "epoch": 0.31385416666666666,
      "grad_norm": 0.8983124494552612,
      "learning_rate": 0.0002339288755490218,
      "loss": 3.6653,
      "step": 150650
    },
    {
      "epoch": 0.313875,
      "grad_norm": 0.7719236016273499,
      "learning_rate": 0.000233920704470649,
      "loss": 3.892,
      "step": 150660
    },
    {
      "epoch": 0.3138958333333333,
      "grad_norm": 0.842664897441864,
      "learning_rate": 0.00023391253302977192,
      "loss": 3.8142,
      "step": 150670
    },
    {
      "epoch": 0.3139166666666667,
      "grad_norm": 0.816099226474762,
      "learning_rate": 0.000233904361226426,
      "loss": 3.8996,
      "step": 150680
    },
    {
      "epoch": 0.3139375,
      "grad_norm": 0.9059946537017822,
      "learning_rate": 0.0002338961890606464,
      "loss": 3.841,
      "step": 150690
    },
    {
      "epoch": 0.31395833333333334,
      "grad_norm": 0.6891095042228699,
      "learning_rate": 0.0002338880165324685,
      "loss": 3.7029,
      "step": 150700
    },
    {
      "epoch": 0.31397916666666664,
      "grad_norm": 0.7129541039466858,
      "learning_rate": 0.00023387984364192757,
      "loss": 3.9402,
      "step": 150710
    },
    {
      "epoch": 0.314,
      "grad_norm": 0.8540549874305725,
      "learning_rate": 0.00023387167038905888,
      "loss": 4.0575,
      "step": 150720
    },
    {
      "epoch": 0.31402083333333336,
      "grad_norm": 0.9445596933364868,
      "learning_rate": 0.0002338634967738978,
      "loss": 3.8259,
      "step": 150730
    },
    {
      "epoch": 0.31404166666666666,
      "grad_norm": 0.8094345331192017,
      "learning_rate": 0.0002338553227964796,
      "loss": 3.8423,
      "step": 150740
    },
    {
      "epoch": 0.3140625,
      "grad_norm": 0.7339176535606384,
      "learning_rate": 0.0002338471484568396,
      "loss": 3.9803,
      "step": 150750
    },
    {
      "epoch": 0.3140833333333333,
      "grad_norm": 1.0422704219818115,
      "learning_rate": 0.00023383897375501314,
      "loss": 3.6711,
      "step": 150760
    },
    {
      "epoch": 0.3141041666666667,
      "grad_norm": 0.7605181336402893,
      "learning_rate": 0.00023383079869103546,
      "loss": 3.8635,
      "step": 150770
    },
    {
      "epoch": 0.314125,
      "grad_norm": 0.8287238478660583,
      "learning_rate": 0.00023382262326494192,
      "loss": 3.7781,
      "step": 150780
    },
    {
      "epoch": 0.31414583333333335,
      "grad_norm": 0.7087110877037048,
      "learning_rate": 0.00023381444747676785,
      "loss": 3.8319,
      "step": 150790
    },
    {
      "epoch": 0.31416666666666665,
      "grad_norm": 0.8143080472946167,
      "learning_rate": 0.00023380627132654847,
      "loss": 3.9559,
      "step": 150800
    },
    {
      "epoch": 0.3141875,
      "grad_norm": 0.8767675757408142,
      "learning_rate": 0.00023379809481431925,
      "loss": 3.9052,
      "step": 150810
    },
    {
      "epoch": 0.3142083333333333,
      "grad_norm": 1.0529382228851318,
      "learning_rate": 0.0002337899179401154,
      "loss": 3.7735,
      "step": 150820
    },
    {
      "epoch": 0.31422916666666667,
      "grad_norm": 1.3954741954803467,
      "learning_rate": 0.00023378174070397227,
      "loss": 3.838,
      "step": 150830
    },
    {
      "epoch": 0.31425,
      "grad_norm": 0.7341136932373047,
      "learning_rate": 0.0002337735631059252,
      "loss": 3.6858,
      "step": 150840
    },
    {
      "epoch": 0.31427083333333333,
      "grad_norm": 0.8148643374443054,
      "learning_rate": 0.00023376538514600947,
      "loss": 3.7475,
      "step": 150850
    },
    {
      "epoch": 0.3142916666666667,
      "grad_norm": 0.7123426198959351,
      "learning_rate": 0.00023375720682426045,
      "loss": 3.8564,
      "step": 150860
    },
    {
      "epoch": 0.3143125,
      "grad_norm": 0.7712666392326355,
      "learning_rate": 0.00023374902814071347,
      "loss": 4.0115,
      "step": 150870
    },
    {
      "epoch": 0.31433333333333335,
      "grad_norm": 0.7535183429718018,
      "learning_rate": 0.0002337408490954038,
      "loss": 3.8261,
      "step": 150880
    },
    {
      "epoch": 0.31435416666666666,
      "grad_norm": 0.7282854914665222,
      "learning_rate": 0.00023373266968836683,
      "loss": 3.7931,
      "step": 150890
    },
    {
      "epoch": 0.314375,
      "grad_norm": 0.8204723596572876,
      "learning_rate": 0.00023372448991963786,
      "loss": 3.961,
      "step": 150900
    },
    {
      "epoch": 0.3143958333333333,
      "grad_norm": 1.1477798223495483,
      "learning_rate": 0.00023371630978925224,
      "loss": 3.8656,
      "step": 150910
    },
    {
      "epoch": 0.3144166666666667,
      "grad_norm": 0.8337600827217102,
      "learning_rate": 0.00023370812929724528,
      "loss": 3.8099,
      "step": 150920
    },
    {
      "epoch": 0.3144375,
      "grad_norm": 0.8454759120941162,
      "learning_rate": 0.00023369994844365236,
      "loss": 3.8685,
      "step": 150930
    },
    {
      "epoch": 0.31445833333333334,
      "grad_norm": 0.6578409075737,
      "learning_rate": 0.00023369176722850882,
      "loss": 3.7595,
      "step": 150940
    },
    {
      "epoch": 0.31447916666666664,
      "grad_norm": 0.7084928750991821,
      "learning_rate": 0.00023368358565184992,
      "loss": 3.8249,
      "step": 150950
    },
    {
      "epoch": 0.3145,
      "grad_norm": 0.7387771010398865,
      "learning_rate": 0.0002336754037137111,
      "loss": 3.6965,
      "step": 150960
    },
    {
      "epoch": 0.31452083333333336,
      "grad_norm": 0.8136919140815735,
      "learning_rate": 0.00023366722141412758,
      "loss": 3.7705,
      "step": 150970
    },
    {
      "epoch": 0.31454166666666666,
      "grad_norm": 0.7011526823043823,
      "learning_rate": 0.00023365903875313486,
      "loss": 3.834,
      "step": 150980
    },
    {
      "epoch": 0.3145625,
      "grad_norm": 0.6859911680221558,
      "learning_rate": 0.00023365085573076816,
      "loss": 3.7082,
      "step": 150990
    },
    {
      "epoch": 0.3145833333333333,
      "grad_norm": 0.7424619197845459,
      "learning_rate": 0.0002336426723470629,
      "loss": 3.8982,
      "step": 151000
    },
    {
      "epoch": 0.3145833333333333,
      "eval_loss": 4.1982855796813965,
      "eval_runtime": 9.5154,
      "eval_samples_per_second": 1.051,
      "eval_steps_per_second": 0.315,
      "step": 151000
    },
    {
      "epoch": 0.3146041666666667,
      "grad_norm": 0.7024324536323547,
      "learning_rate": 0.0002336344886020544,
      "loss": 3.9224,
      "step": 151010
    },
    {
      "epoch": 0.314625,
      "grad_norm": 0.7646450996398926,
      "learning_rate": 0.000233626304495778,
      "loss": 3.9265,
      "step": 151020
    },
    {
      "epoch": 0.31464583333333335,
      "grad_norm": 0.7489520311355591,
      "learning_rate": 0.00023361812002826906,
      "loss": 3.7393,
      "step": 151030
    },
    {
      "epoch": 0.31466666666666665,
      "grad_norm": 0.8670371174812317,
      "learning_rate": 0.00023360993519956302,
      "loss": 3.8303,
      "step": 151040
    },
    {
      "epoch": 0.3146875,
      "grad_norm": 0.7913562059402466,
      "learning_rate": 0.00023360175000969506,
      "loss": 3.9296,
      "step": 151050
    },
    {
      "epoch": 0.3147083333333333,
      "grad_norm": 0.704959511756897,
      "learning_rate": 0.00023359356445870066,
      "loss": 3.843,
      "step": 151060
    },
    {
      "epoch": 0.31472916666666667,
      "grad_norm": 0.8719009160995483,
      "learning_rate": 0.0002335853785466152,
      "loss": 3.8739,
      "step": 151070
    },
    {
      "epoch": 0.31475,
      "grad_norm": 0.8624561429023743,
      "learning_rate": 0.0002335771922734739,
      "loss": 3.9322,
      "step": 151080
    },
    {
      "epoch": 0.31477083333333333,
      "grad_norm": 0.7128013968467712,
      "learning_rate": 0.00023356900563931225,
      "loss": 4.0919,
      "step": 151090
    },
    {
      "epoch": 0.3147916666666667,
      "grad_norm": 0.8827458024024963,
      "learning_rate": 0.0002335608186441656,
      "loss": 3.9295,
      "step": 151100
    },
    {
      "epoch": 0.3148125,
      "grad_norm": 0.7974872589111328,
      "learning_rate": 0.00023355263128806928,
      "loss": 3.9604,
      "step": 151110
    },
    {
      "epoch": 0.31483333333333335,
      "grad_norm": 0.8588837385177612,
      "learning_rate": 0.00023354444357105863,
      "loss": 3.8367,
      "step": 151120
    },
    {
      "epoch": 0.31485416666666666,
      "grad_norm": 0.7566356658935547,
      "learning_rate": 0.0002335362554931691,
      "loss": 3.8973,
      "step": 151130
    },
    {
      "epoch": 0.314875,
      "grad_norm": 0.7943249940872192,
      "learning_rate": 0.00023352806705443597,
      "loss": 3.8747,
      "step": 151140
    },
    {
      "epoch": 0.3148958333333333,
      "grad_norm": 0.7710323333740234,
      "learning_rate": 0.00023351987825489468,
      "loss": 3.8395,
      "step": 151150
    },
    {
      "epoch": 0.3149166666666667,
      "grad_norm": 0.7983974814414978,
      "learning_rate": 0.00023351168909458057,
      "loss": 3.9213,
      "step": 151160
    },
    {
      "epoch": 0.3149375,
      "grad_norm": 0.6463222503662109,
      "learning_rate": 0.000233503499573529,
      "loss": 3.7507,
      "step": 151170
    },
    {
      "epoch": 0.31495833333333334,
      "grad_norm": 0.8657107353210449,
      "learning_rate": 0.0002334953096917754,
      "loss": 3.9802,
      "step": 151180
    },
    {
      "epoch": 0.31497916666666664,
      "grad_norm": 0.723785400390625,
      "learning_rate": 0.0002334871194493551,
      "loss": 3.7112,
      "step": 151190
    },
    {
      "epoch": 0.315,
      "grad_norm": 0.7940256595611572,
      "learning_rate": 0.0002334789288463035,
      "loss": 3.9523,
      "step": 151200
    },
    {
      "epoch": 0.31502083333333336,
      "grad_norm": 0.7147349119186401,
      "learning_rate": 0.00023347073788265596,
      "loss": 3.7966,
      "step": 151210
    },
    {
      "epoch": 0.31504166666666666,
      "grad_norm": 0.7837753891944885,
      "learning_rate": 0.00023346254655844781,
      "loss": 3.8653,
      "step": 151220
    },
    {
      "epoch": 0.3150625,
      "grad_norm": 0.7441526651382446,
      "learning_rate": 0.00023345435487371458,
      "loss": 3.7798,
      "step": 151230
    },
    {
      "epoch": 0.3150833333333333,
      "grad_norm": 0.8230660557746887,
      "learning_rate": 0.00023344616282849158,
      "loss": 3.9432,
      "step": 151240
    },
    {
      "epoch": 0.3151041666666667,
      "grad_norm": 0.7735162973403931,
      "learning_rate": 0.00023343797042281412,
      "loss": 3.9844,
      "step": 151250
    },
    {
      "epoch": 0.315125,
      "grad_norm": 0.7037950158119202,
      "learning_rate": 0.00023342977765671767,
      "loss": 3.9649,
      "step": 151260
    },
    {
      "epoch": 0.31514583333333335,
      "grad_norm": 0.873993992805481,
      "learning_rate": 0.00023342158453023765,
      "loss": 3.8266,
      "step": 151270
    },
    {
      "epoch": 0.31516666666666665,
      "grad_norm": 0.8835626840591431,
      "learning_rate": 0.0002334133910434094,
      "loss": 3.8713,
      "step": 151280
    },
    {
      "epoch": 0.3151875,
      "grad_norm": 0.7457172870635986,
      "learning_rate": 0.00023340519719626827,
      "loss": 3.8019,
      "step": 151290
    },
    {
      "epoch": 0.3152083333333333,
      "grad_norm": 0.6892435550689697,
      "learning_rate": 0.00023339700298884974,
      "loss": 3.8082,
      "step": 151300
    },
    {
      "epoch": 0.31522916666666667,
      "grad_norm": 0.7663757801055908,
      "learning_rate": 0.00023338880842118913,
      "loss": 3.9558,
      "step": 151310
    },
    {
      "epoch": 0.31525,
      "grad_norm": 0.9891905188560486,
      "learning_rate": 0.00023338061349332194,
      "loss": 3.9757,
      "step": 151320
    },
    {
      "epoch": 0.31527083333333333,
      "grad_norm": 0.7543525099754333,
      "learning_rate": 0.00023337241820528342,
      "loss": 3.7756,
      "step": 151330
    },
    {
      "epoch": 0.3152916666666667,
      "grad_norm": 0.72469162940979,
      "learning_rate": 0.0002333642225571091,
      "loss": 3.6469,
      "step": 151340
    },
    {
      "epoch": 0.3153125,
      "grad_norm": 0.7579711079597473,
      "learning_rate": 0.00023335602654883436,
      "loss": 3.8522,
      "step": 151350
    },
    {
      "epoch": 0.31533333333333335,
      "grad_norm": 0.8387093544006348,
      "learning_rate": 0.0002333478301804945,
      "loss": 3.7865,
      "step": 151360
    },
    {
      "epoch": 0.31535416666666666,
      "grad_norm": 0.9158128499984741,
      "learning_rate": 0.0002333396334521251,
      "loss": 3.875,
      "step": 151370
    },
    {
      "epoch": 0.315375,
      "grad_norm": 0.8171905875205994,
      "learning_rate": 0.00023333143636376143,
      "loss": 3.9804,
      "step": 151380
    },
    {
      "epoch": 0.3153958333333333,
      "grad_norm": 0.664546549320221,
      "learning_rate": 0.0002333232389154389,
      "loss": 3.9558,
      "step": 151390
    },
    {
      "epoch": 0.3154166666666667,
      "grad_norm": 0.7992625832557678,
      "learning_rate": 0.000233315041107193,
      "loss": 3.7929,
      "step": 151400
    },
    {
      "epoch": 0.3154375,
      "grad_norm": 0.8358998894691467,
      "learning_rate": 0.00023330684293905912,
      "loss": 3.9356,
      "step": 151410
    },
    {
      "epoch": 0.31545833333333334,
      "grad_norm": 0.7349628806114197,
      "learning_rate": 0.00023329864441107263,
      "loss": 3.8082,
      "step": 151420
    },
    {
      "epoch": 0.31547916666666664,
      "grad_norm": 0.7704955339431763,
      "learning_rate": 0.00023329044552326898,
      "loss": 3.761,
      "step": 151430
    },
    {
      "epoch": 0.3155,
      "grad_norm": 0.6980483531951904,
      "learning_rate": 0.0002332822462756836,
      "loss": 3.8368,
      "step": 151440
    },
    {
      "epoch": 0.3155208333333333,
      "grad_norm": 0.7969517111778259,
      "learning_rate": 0.0002332740466683518,
      "loss": 3.953,
      "step": 151450
    },
    {
      "epoch": 0.31554166666666666,
      "grad_norm": 0.7456811666488647,
      "learning_rate": 0.00023326584670130916,
      "loss": 3.7516,
      "step": 151460
    },
    {
      "epoch": 0.3155625,
      "grad_norm": 0.749900221824646,
      "learning_rate": 0.00023325764637459096,
      "loss": 3.9289,
      "step": 151470
    },
    {
      "epoch": 0.3155833333333333,
      "grad_norm": 0.7648156881332397,
      "learning_rate": 0.00023324944568823273,
      "loss": 3.7897,
      "step": 151480
    },
    {
      "epoch": 0.3156041666666667,
      "grad_norm": 0.7494857311248779,
      "learning_rate": 0.00023324124464226985,
      "loss": 3.7166,
      "step": 151490
    },
    {
      "epoch": 0.315625,
      "grad_norm": 0.758321225643158,
      "learning_rate": 0.0002332330432367377,
      "loss": 3.7329,
      "step": 151500
    },
    {
      "epoch": 0.31564583333333335,
      "grad_norm": 0.8307160139083862,
      "learning_rate": 0.00023322484147167178,
      "loss": 4.0275,
      "step": 151510
    },
    {
      "epoch": 0.31566666666666665,
      "grad_norm": 0.6970913410186768,
      "learning_rate": 0.00023321663934710747,
      "loss": 3.5621,
      "step": 151520
    },
    {
      "epoch": 0.3156875,
      "grad_norm": 0.79633629322052,
      "learning_rate": 0.00023320843686308024,
      "loss": 3.8965,
      "step": 151530
    },
    {
      "epoch": 0.3157083333333333,
      "grad_norm": 0.8782520890235901,
      "learning_rate": 0.00023320023401962546,
      "loss": 4.0307,
      "step": 151540
    },
    {
      "epoch": 0.31572916666666667,
      "grad_norm": 0.7688580751419067,
      "learning_rate": 0.0002331920308167786,
      "loss": 3.8222,
      "step": 151550
    },
    {
      "epoch": 0.31575,
      "grad_norm": 0.820559024810791,
      "learning_rate": 0.00023318382725457515,
      "loss": 3.9214,
      "step": 151560
    },
    {
      "epoch": 0.31577083333333333,
      "grad_norm": 0.9367815256118774,
      "learning_rate": 0.00023317562333305048,
      "loss": 3.9761,
      "step": 151570
    },
    {
      "epoch": 0.3157916666666667,
      "grad_norm": 0.7321906089782715,
      "learning_rate": 0.00023316741905224004,
      "loss": 3.7805,
      "step": 151580
    },
    {
      "epoch": 0.3158125,
      "grad_norm": 0.7270877957344055,
      "learning_rate": 0.0002331592144121792,
      "loss": 4.0159,
      "step": 151590
    },
    {
      "epoch": 0.31583333333333335,
      "grad_norm": 0.7482393980026245,
      "learning_rate": 0.00023315100941290358,
      "loss": 3.7186,
      "step": 151600
    },
    {
      "epoch": 0.31585416666666666,
      "grad_norm": 0.8527817726135254,
      "learning_rate": 0.00023314280405444844,
      "loss": 3.7993,
      "step": 151610
    },
    {
      "epoch": 0.315875,
      "grad_norm": 0.789283275604248,
      "learning_rate": 0.0002331345983368493,
      "loss": 3.7945,
      "step": 151620
    },
    {
      "epoch": 0.3158958333333333,
      "grad_norm": 0.7456440925598145,
      "learning_rate": 0.00023312639226014166,
      "loss": 3.8788,
      "step": 151630
    },
    {
      "epoch": 0.3159166666666667,
      "grad_norm": 0.7145617008209229,
      "learning_rate": 0.00023311818582436085,
      "loss": 3.837,
      "step": 151640
    },
    {
      "epoch": 0.3159375,
      "grad_norm": 0.7676244974136353,
      "learning_rate": 0.0002331099790295424,
      "loss": 3.8259,
      "step": 151650
    },
    {
      "epoch": 0.31595833333333334,
      "grad_norm": 0.6747973561286926,
      "learning_rate": 0.00023310177187572178,
      "loss": 3.8595,
      "step": 151660
    },
    {
      "epoch": 0.31597916666666664,
      "grad_norm": 0.8647820949554443,
      "learning_rate": 0.0002330935643629343,
      "loss": 3.7583,
      "step": 151670
    },
    {
      "epoch": 0.316,
      "grad_norm": 0.7635725140571594,
      "learning_rate": 0.00023308535649121557,
      "loss": 3.8563,
      "step": 151680
    },
    {
      "epoch": 0.3160208333333333,
      "grad_norm": 0.7846499085426331,
      "learning_rate": 0.000233077148260601,
      "loss": 3.8028,
      "step": 151690
    },
    {
      "epoch": 0.31604166666666667,
      "grad_norm": 0.8289790749549866,
      "learning_rate": 0.000233068939671126,
      "loss": 3.8462,
      "step": 151700
    },
    {
      "epoch": 0.3160625,
      "grad_norm": 0.693728506565094,
      "learning_rate": 0.00023306073072282607,
      "loss": 3.8452,
      "step": 151710
    },
    {
      "epoch": 0.3160833333333333,
      "grad_norm": 0.7703974843025208,
      "learning_rate": 0.00023305252141573668,
      "loss": 3.9783,
      "step": 151720
    },
    {
      "epoch": 0.3161041666666667,
      "grad_norm": 0.7855525612831116,
      "learning_rate": 0.00023304431174989325,
      "loss": 3.9999,
      "step": 151730
    },
    {
      "epoch": 0.316125,
      "grad_norm": 0.7647960782051086,
      "learning_rate": 0.00023303610172533125,
      "loss": 3.8659,
      "step": 151740
    },
    {
      "epoch": 0.31614583333333335,
      "grad_norm": 0.9936515092849731,
      "learning_rate": 0.0002330278913420862,
      "loss": 3.7382,
      "step": 151750
    },
    {
      "epoch": 0.31616666666666665,
      "grad_norm": 0.8294306993484497,
      "learning_rate": 0.00023301968060019353,
      "loss": 3.8039,
      "step": 151760
    },
    {
      "epoch": 0.3161875,
      "grad_norm": 0.7103832960128784,
      "learning_rate": 0.0002330114694996887,
      "loss": 4.0614,
      "step": 151770
    },
    {
      "epoch": 0.3162083333333333,
      "grad_norm": 0.734477162361145,
      "learning_rate": 0.00023300325804060713,
      "loss": 3.7574,
      "step": 151780
    },
    {
      "epoch": 0.3162291666666667,
      "grad_norm": 0.6796813011169434,
      "learning_rate": 0.00023299504622298437,
      "loss": 3.805,
      "step": 151790
    },
    {
      "epoch": 0.31625,
      "grad_norm": 0.7599644064903259,
      "learning_rate": 0.00023298683404685585,
      "loss": 3.8507,
      "step": 151800
    },
    {
      "epoch": 0.31627083333333333,
      "grad_norm": 0.6889173984527588,
      "learning_rate": 0.00023297862151225708,
      "loss": 3.8518,
      "step": 151810
    },
    {
      "epoch": 0.3162916666666667,
      "grad_norm": 0.7411337494850159,
      "learning_rate": 0.0002329704086192235,
      "loss": 3.8175,
      "step": 151820
    },
    {
      "epoch": 0.3163125,
      "grad_norm": 0.7311769723892212,
      "learning_rate": 0.0002329621953677906,
      "loss": 3.8809,
      "step": 151830
    },
    {
      "epoch": 0.31633333333333336,
      "grad_norm": 0.9456633925437927,
      "learning_rate": 0.00023295398175799382,
      "loss": 3.7896,
      "step": 151840
    },
    {
      "epoch": 0.31635416666666666,
      "grad_norm": 0.829797625541687,
      "learning_rate": 0.0002329457677898687,
      "loss": 4.0437,
      "step": 151850
    },
    {
      "epoch": 0.316375,
      "grad_norm": 0.726518452167511,
      "learning_rate": 0.00023293755346345072,
      "loss": 3.6944,
      "step": 151860
    },
    {
      "epoch": 0.3163958333333333,
      "grad_norm": 0.7466214895248413,
      "learning_rate": 0.00023292933877877534,
      "loss": 3.8812,
      "step": 151870
    },
    {
      "epoch": 0.3164166666666667,
      "grad_norm": 0.7555304169654846,
      "learning_rate": 0.000232921123735878,
      "loss": 3.9751,
      "step": 151880
    },
    {
      "epoch": 0.3164375,
      "grad_norm": 0.6799297332763672,
      "learning_rate": 0.00023291290833479423,
      "loss": 3.9246,
      "step": 151890
    },
    {
      "epoch": 0.31645833333333334,
      "grad_norm": 0.7447550296783447,
      "learning_rate": 0.00023290469257555957,
      "loss": 3.6058,
      "step": 151900
    },
    {
      "epoch": 0.31647916666666664,
      "grad_norm": 0.787900447845459,
      "learning_rate": 0.0002328964764582094,
      "loss": 3.8842,
      "step": 151910
    },
    {
      "epoch": 0.3165,
      "grad_norm": 0.7767718434333801,
      "learning_rate": 0.00023288825998277928,
      "loss": 3.8952,
      "step": 151920
    },
    {
      "epoch": 0.3165208333333333,
      "grad_norm": 0.8005468249320984,
      "learning_rate": 0.00023288004314930467,
      "loss": 3.8078,
      "step": 151930
    },
    {
      "epoch": 0.31654166666666667,
      "grad_norm": 0.8148780465126038,
      "learning_rate": 0.00023287182595782113,
      "loss": 3.7226,
      "step": 151940
    },
    {
      "epoch": 0.3165625,
      "grad_norm": 0.7264312505722046,
      "learning_rate": 0.00023286360840836406,
      "loss": 3.8354,
      "step": 151950
    },
    {
      "epoch": 0.3165833333333333,
      "grad_norm": 0.8257478475570679,
      "learning_rate": 0.00023285539050096898,
      "loss": 3.7681,
      "step": 151960
    },
    {
      "epoch": 0.3166041666666667,
      "grad_norm": 1.106675148010254,
      "learning_rate": 0.00023284717223567147,
      "loss": 3.6706,
      "step": 151970
    },
    {
      "epoch": 0.316625,
      "grad_norm": 0.754867434501648,
      "learning_rate": 0.00023283895361250694,
      "loss": 3.9488,
      "step": 151980
    },
    {
      "epoch": 0.31664583333333335,
      "grad_norm": 0.7331335544586182,
      "learning_rate": 0.0002328307346315109,
      "loss": 3.8048,
      "step": 151990
    },
    {
      "epoch": 0.31666666666666665,
      "grad_norm": 0.8594196438789368,
      "learning_rate": 0.00023282251529271894,
      "loss": 3.8948,
      "step": 152000
    },
    {
      "epoch": 0.31666666666666665,
      "eval_loss": 4.2069878578186035,
      "eval_runtime": 10.0873,
      "eval_samples_per_second": 0.991,
      "eval_steps_per_second": 0.297,
      "step": 152000
    },
    {
      "epoch": 0.3166875,
      "grad_norm": 1.2467982769012451,
      "learning_rate": 0.0002328142955961664,
      "loss": 4.0505,
      "step": 152010
    },
    {
      "epoch": 0.3167083333333333,
      "grad_norm": 0.7637702226638794,
      "learning_rate": 0.00023280607554188897,
      "loss": 4.0975,
      "step": 152020
    },
    {
      "epoch": 0.3167291666666667,
      "grad_norm": 0.8185112476348877,
      "learning_rate": 0.00023279785512992203,
      "loss": 3.9331,
      "step": 152030
    },
    {
      "epoch": 0.31675,
      "grad_norm": 0.7777849435806274,
      "learning_rate": 0.00023278963436030114,
      "loss": 3.7323,
      "step": 152040
    },
    {
      "epoch": 0.31677083333333333,
      "grad_norm": 0.724851667881012,
      "learning_rate": 0.00023278141323306178,
      "loss": 3.7804,
      "step": 152050
    },
    {
      "epoch": 0.3167916666666667,
      "grad_norm": 0.8482555747032166,
      "learning_rate": 0.0002327731917482395,
      "loss": 3.9217,
      "step": 152060
    },
    {
      "epoch": 0.3168125,
      "grad_norm": 0.7185048460960388,
      "learning_rate": 0.00023276496990586978,
      "loss": 3.8578,
      "step": 152070
    },
    {
      "epoch": 0.31683333333333336,
      "grad_norm": 0.7371682524681091,
      "learning_rate": 0.0002327567477059882,
      "loss": 3.7656,
      "step": 152080
    },
    {
      "epoch": 0.31685416666666666,
      "grad_norm": 0.8220227360725403,
      "learning_rate": 0.00023274852514863016,
      "loss": 3.8834,
      "step": 152090
    },
    {
      "epoch": 0.316875,
      "grad_norm": 0.8782500624656677,
      "learning_rate": 0.00023274030223383128,
      "loss": 3.8132,
      "step": 152100
    },
    {
      "epoch": 0.3168958333333333,
      "grad_norm": 0.747117280960083,
      "learning_rate": 0.00023273207896162704,
      "loss": 3.914,
      "step": 152110
    },
    {
      "epoch": 0.3169166666666667,
      "grad_norm": 0.7064355611801147,
      "learning_rate": 0.00023272385533205296,
      "loss": 3.9091,
      "step": 152120
    },
    {
      "epoch": 0.3169375,
      "grad_norm": 0.8402114510536194,
      "learning_rate": 0.0002327156313451446,
      "loss": 3.7035,
      "step": 152130
    },
    {
      "epoch": 0.31695833333333334,
      "grad_norm": 0.7256265878677368,
      "learning_rate": 0.00023270740700093742,
      "loss": 3.8452,
      "step": 152140
    },
    {
      "epoch": 0.31697916666666665,
      "grad_norm": 0.854674220085144,
      "learning_rate": 0.00023269918229946697,
      "loss": 3.9411,
      "step": 152150
    },
    {
      "epoch": 0.317,
      "grad_norm": 0.6776253581047058,
      "learning_rate": 0.00023269095724076882,
      "loss": 3.9162,
      "step": 152160
    },
    {
      "epoch": 0.3170208333333333,
      "grad_norm": 0.9236322045326233,
      "learning_rate": 0.00023268273182487845,
      "loss": 3.886,
      "step": 152170
    },
    {
      "epoch": 0.31704166666666667,
      "grad_norm": 0.7684481739997864,
      "learning_rate": 0.0002326745060518314,
      "loss": 3.7793,
      "step": 152180
    },
    {
      "epoch": 0.3170625,
      "grad_norm": 0.851041316986084,
      "learning_rate": 0.0002326662799216632,
      "loss": 3.7657,
      "step": 152190
    },
    {
      "epoch": 0.31708333333333333,
      "grad_norm": 0.8492724895477295,
      "learning_rate": 0.00023265805343440947,
      "loss": 3.939,
      "step": 152200
    },
    {
      "epoch": 0.3171041666666667,
      "grad_norm": 0.7307162880897522,
      "learning_rate": 0.00023264982659010555,
      "loss": 3.8299,
      "step": 152210
    },
    {
      "epoch": 0.317125,
      "grad_norm": 0.7926234006881714,
      "learning_rate": 0.0002326415993887872,
      "loss": 4.0176,
      "step": 152220
    },
    {
      "epoch": 0.31714583333333335,
      "grad_norm": 0.8303039073944092,
      "learning_rate": 0.0002326333718304898,
      "loss": 3.9185,
      "step": 152230
    },
    {
      "epoch": 0.31716666666666665,
      "grad_norm": 0.7410264611244202,
      "learning_rate": 0.00023262514391524897,
      "loss": 3.801,
      "step": 152240
    },
    {
      "epoch": 0.3171875,
      "grad_norm": 0.7599391937255859,
      "learning_rate": 0.00023261691564310018,
      "loss": 3.705,
      "step": 152250
    },
    {
      "epoch": 0.3172083333333333,
      "grad_norm": 0.8570228815078735,
      "learning_rate": 0.00023260868701407901,
      "loss": 3.9619,
      "step": 152260
    },
    {
      "epoch": 0.3172291666666667,
      "grad_norm": 0.7669985294342041,
      "learning_rate": 0.00023260045802822105,
      "loss": 3.9201,
      "step": 152270
    },
    {
      "epoch": 0.31725,
      "grad_norm": 0.730521023273468,
      "learning_rate": 0.0002325922286855618,
      "loss": 3.686,
      "step": 152280
    },
    {
      "epoch": 0.31727083333333334,
      "grad_norm": 0.6571686863899231,
      "learning_rate": 0.0002325839989861368,
      "loss": 3.8462,
      "step": 152290
    },
    {
      "epoch": 0.3172916666666667,
      "grad_norm": 0.9025302529335022,
      "learning_rate": 0.00023257576892998162,
      "loss": 3.9971,
      "step": 152300
    },
    {
      "epoch": 0.3173125,
      "grad_norm": 0.6693122982978821,
      "learning_rate": 0.0002325675385171318,
      "loss": 3.8388,
      "step": 152310
    },
    {
      "epoch": 0.31733333333333336,
      "grad_norm": 0.998725414276123,
      "learning_rate": 0.00023255930774762292,
      "loss": 3.9305,
      "step": 152320
    },
    {
      "epoch": 0.31735416666666666,
      "grad_norm": 1.030573844909668,
      "learning_rate": 0.00023255107662149051,
      "loss": 3.8101,
      "step": 152330
    },
    {
      "epoch": 0.317375,
      "grad_norm": 0.8756263256072998,
      "learning_rate": 0.0002325428451387701,
      "loss": 3.9094,
      "step": 152340
    },
    {
      "epoch": 0.3173958333333333,
      "grad_norm": 0.6481781005859375,
      "learning_rate": 0.0002325346132994973,
      "loss": 3.7139,
      "step": 152350
    },
    {
      "epoch": 0.3174166666666667,
      "grad_norm": 0.9117478132247925,
      "learning_rate": 0.0002325263811037076,
      "loss": 3.9855,
      "step": 152360
    },
    {
      "epoch": 0.3174375,
      "grad_norm": 0.7920994758605957,
      "learning_rate": 0.0002325181485514366,
      "loss": 3.6833,
      "step": 152370
    },
    {
      "epoch": 0.31745833333333334,
      "grad_norm": 0.7833698987960815,
      "learning_rate": 0.0002325099156427199,
      "loss": 3.7656,
      "step": 152380
    },
    {
      "epoch": 0.31747916666666665,
      "grad_norm": 0.7671855092048645,
      "learning_rate": 0.000232501682377593,
      "loss": 3.7416,
      "step": 152390
    },
    {
      "epoch": 0.3175,
      "grad_norm": 0.8067406415939331,
      "learning_rate": 0.00023249344875609152,
      "loss": 3.8207,
      "step": 152400
    },
    {
      "epoch": 0.3175208333333333,
      "grad_norm": 0.7057296633720398,
      "learning_rate": 0.00023248521477825095,
      "loss": 4.0468,
      "step": 152410
    },
    {
      "epoch": 0.31754166666666667,
      "grad_norm": 0.8462598323822021,
      "learning_rate": 0.00023247698044410688,
      "loss": 4.0326,
      "step": 152420
    },
    {
      "epoch": 0.3175625,
      "grad_norm": 0.7799827456474304,
      "learning_rate": 0.00023246874575369496,
      "loss": 3.8765,
      "step": 152430
    },
    {
      "epoch": 0.31758333333333333,
      "grad_norm": 0.9535436034202576,
      "learning_rate": 0.00023246051070705069,
      "loss": 3.77,
      "step": 152440
    },
    {
      "epoch": 0.3176041666666667,
      "grad_norm": 0.8123494386672974,
      "learning_rate": 0.00023245227530420968,
      "loss": 3.9122,
      "step": 152450
    },
    {
      "epoch": 0.317625,
      "grad_norm": 0.7011725306510925,
      "learning_rate": 0.00023244403954520744,
      "loss": 3.659,
      "step": 152460
    },
    {
      "epoch": 0.31764583333333335,
      "grad_norm": 0.7760283946990967,
      "learning_rate": 0.00023243580343007957,
      "loss": 3.7377,
      "step": 152470
    },
    {
      "epoch": 0.31766666666666665,
      "grad_norm": 0.8513492345809937,
      "learning_rate": 0.00023242756695886167,
      "loss": 3.8196,
      "step": 152480
    },
    {
      "epoch": 0.3176875,
      "grad_norm": 0.7398154139518738,
      "learning_rate": 0.00023241933013158931,
      "loss": 3.757,
      "step": 152490
    },
    {
      "epoch": 0.3177083333333333,
      "grad_norm": 0.759492039680481,
      "learning_rate": 0.0002324110929482981,
      "loss": 3.7363,
      "step": 152500
    },
    {
      "epoch": 0.3177291666666667,
      "grad_norm": 0.8535280227661133,
      "learning_rate": 0.00023240285540902352,
      "loss": 3.7564,
      "step": 152510
    },
    {
      "epoch": 0.31775,
      "grad_norm": 0.8507699966430664,
      "learning_rate": 0.0002323946175138013,
      "loss": 3.934,
      "step": 152520
    },
    {
      "epoch": 0.31777083333333334,
      "grad_norm": 0.9735710620880127,
      "learning_rate": 0.0002323863792626669,
      "loss": 3.831,
      "step": 152530
    },
    {
      "epoch": 0.31779166666666664,
      "grad_norm": 0.7126137614250183,
      "learning_rate": 0.00023237814065565595,
      "loss": 3.837,
      "step": 152540
    },
    {
      "epoch": 0.3178125,
      "grad_norm": 0.7686307430267334,
      "learning_rate": 0.00023236990169280404,
      "loss": 3.9119,
      "step": 152550
    },
    {
      "epoch": 0.31783333333333336,
      "grad_norm": 0.7019957900047302,
      "learning_rate": 0.00023236166237414682,
      "loss": 3.9276,
      "step": 152560
    },
    {
      "epoch": 0.31785416666666666,
      "grad_norm": 0.7135709524154663,
      "learning_rate": 0.00023235342269971974,
      "loss": 3.9488,
      "step": 152570
    },
    {
      "epoch": 0.317875,
      "grad_norm": 0.724097490310669,
      "learning_rate": 0.00023234518266955847,
      "loss": 3.8218,
      "step": 152580
    },
    {
      "epoch": 0.3178958333333333,
      "grad_norm": 0.8006632924079895,
      "learning_rate": 0.0002323369422836987,
      "loss": 3.8307,
      "step": 152590
    },
    {
      "epoch": 0.3179166666666667,
      "grad_norm": 0.7551007270812988,
      "learning_rate": 0.00023232870154217585,
      "loss": 3.8751,
      "step": 152600
    },
    {
      "epoch": 0.3179375,
      "grad_norm": 0.9315972924232483,
      "learning_rate": 0.0002323204604450256,
      "loss": 3.8007,
      "step": 152610
    },
    {
      "epoch": 0.31795833333333334,
      "grad_norm": 0.8289197683334351,
      "learning_rate": 0.00023231221899228357,
      "loss": 3.611,
      "step": 152620
    },
    {
      "epoch": 0.31797916666666665,
      "grad_norm": 0.97056645154953,
      "learning_rate": 0.00023230397718398531,
      "loss": 3.6678,
      "step": 152630
    },
    {
      "epoch": 0.318,
      "grad_norm": 0.7865894436836243,
      "learning_rate": 0.00023229573502016646,
      "loss": 3.9138,
      "step": 152640
    },
    {
      "epoch": 0.3180208333333333,
      "grad_norm": 0.6588075757026672,
      "learning_rate": 0.00023228749250086265,
      "loss": 3.8221,
      "step": 152650
    },
    {
      "epoch": 0.31804166666666667,
      "grad_norm": 0.7986778020858765,
      "learning_rate": 0.0002322792496261094,
      "loss": 3.9081,
      "step": 152660
    },
    {
      "epoch": 0.3180625,
      "grad_norm": 0.9574781060218811,
      "learning_rate": 0.00023227100639594236,
      "loss": 3.7735,
      "step": 152670
    },
    {
      "epoch": 0.31808333333333333,
      "grad_norm": 0.8105590343475342,
      "learning_rate": 0.00023226276281039713,
      "loss": 3.8727,
      "step": 152680
    },
    {
      "epoch": 0.3181041666666667,
      "grad_norm": 0.743361234664917,
      "learning_rate": 0.00023225451886950933,
      "loss": 3.6962,
      "step": 152690
    },
    {
      "epoch": 0.318125,
      "grad_norm": 0.9937542676925659,
      "learning_rate": 0.0002322462745733146,
      "loss": 3.8936,
      "step": 152700
    },
    {
      "epoch": 0.31814583333333335,
      "grad_norm": 1.0186142921447754,
      "learning_rate": 0.0002322380299218485,
      "loss": 3.8342,
      "step": 152710
    },
    {
      "epoch": 0.31816666666666665,
      "grad_norm": 0.7512672543525696,
      "learning_rate": 0.00023222978491514666,
      "loss": 3.9588,
      "step": 152720
    },
    {
      "epoch": 0.3181875,
      "grad_norm": 0.6972907185554504,
      "learning_rate": 0.0002322215395532447,
      "loss": 3.8642,
      "step": 152730
    },
    {
      "epoch": 0.3182083333333333,
      "grad_norm": 0.7276983857154846,
      "learning_rate": 0.00023221329383617823,
      "loss": 3.8109,
      "step": 152740
    },
    {
      "epoch": 0.3182291666666667,
      "grad_norm": 0.8779779076576233,
      "learning_rate": 0.00023220504776398285,
      "loss": 4.0906,
      "step": 152750
    },
    {
      "epoch": 0.31825,
      "grad_norm": 0.7228793501853943,
      "learning_rate": 0.00023219680133669426,
      "loss": 3.8264,
      "step": 152760
    },
    {
      "epoch": 0.31827083333333334,
      "grad_norm": 0.7947472333908081,
      "learning_rate": 0.00023218855455434798,
      "loss": 3.6877,
      "step": 152770
    },
    {
      "epoch": 0.31829166666666664,
      "grad_norm": 0.7600554823875427,
      "learning_rate": 0.00023218030741697972,
      "loss": 3.943,
      "step": 152780
    },
    {
      "epoch": 0.3183125,
      "grad_norm": 0.8243163824081421,
      "learning_rate": 0.000232172059924625,
      "loss": 3.8091,
      "step": 152790
    },
    {
      "epoch": 0.31833333333333336,
      "grad_norm": 0.8211700916290283,
      "learning_rate": 0.00023216381207731953,
      "loss": 3.7239,
      "step": 152800
    },
    {
      "epoch": 0.31835416666666666,
      "grad_norm": 0.7929577827453613,
      "learning_rate": 0.00023215556387509893,
      "loss": 3.915,
      "step": 152810
    },
    {
      "epoch": 0.318375,
      "grad_norm": 0.7088143825531006,
      "learning_rate": 0.00023214731531799883,
      "loss": 3.7092,
      "step": 152820
    },
    {
      "epoch": 0.3183958333333333,
      "grad_norm": 0.742936372756958,
      "learning_rate": 0.00023213906640605478,
      "loss": 3.8477,
      "step": 152830
    },
    {
      "epoch": 0.3184166666666667,
      "grad_norm": 0.8452008962631226,
      "learning_rate": 0.00023213081713930255,
      "loss": 3.9902,
      "step": 152840
    },
    {
      "epoch": 0.3184375,
      "grad_norm": 0.8890305757522583,
      "learning_rate": 0.00023212256751777764,
      "loss": 3.9811,
      "step": 152850
    },
    {
      "epoch": 0.31845833333333334,
      "grad_norm": 0.6218227744102478,
      "learning_rate": 0.00023211431754151577,
      "loss": 3.7984,
      "step": 152860
    },
    {
      "epoch": 0.31847916666666665,
      "grad_norm": 0.7028873562812805,
      "learning_rate": 0.00023210606721055257,
      "loss": 3.7931,
      "step": 152870
    },
    {
      "epoch": 0.3185,
      "grad_norm": 0.8684747219085693,
      "learning_rate": 0.0002320978165249236,
      "loss": 3.8347,
      "step": 152880
    },
    {
      "epoch": 0.3185208333333333,
      "grad_norm": 0.7231370210647583,
      "learning_rate": 0.00023208956548466462,
      "loss": 3.7601,
      "step": 152890
    },
    {
      "epoch": 0.31854166666666667,
      "grad_norm": 0.822630763053894,
      "learning_rate": 0.0002320813140898112,
      "loss": 3.8159,
      "step": 152900
    },
    {
      "epoch": 0.3185625,
      "grad_norm": 0.8696355223655701,
      "learning_rate": 0.00023207306234039897,
      "loss": 3.8408,
      "step": 152910
    },
    {
      "epoch": 0.31858333333333333,
      "grad_norm": 0.7410659790039062,
      "learning_rate": 0.00023206481023646362,
      "loss": 4.0499,
      "step": 152920
    },
    {
      "epoch": 0.3186041666666667,
      "grad_norm": 0.7841929197311401,
      "learning_rate": 0.00023205655777804076,
      "loss": 3.9488,
      "step": 152930
    },
    {
      "epoch": 0.318625,
      "grad_norm": 0.7457680106163025,
      "learning_rate": 0.00023204830496516605,
      "loss": 3.7414,
      "step": 152940
    },
    {
      "epoch": 0.31864583333333335,
      "grad_norm": 0.6637429594993591,
      "learning_rate": 0.00023204005179787516,
      "loss": 3.9069,
      "step": 152950
    },
    {
      "epoch": 0.31866666666666665,
      "grad_norm": 0.8713077902793884,
      "learning_rate": 0.00023203179827620369,
      "loss": 3.9516,
      "step": 152960
    },
    {
      "epoch": 0.3186875,
      "grad_norm": 0.6804805994033813,
      "learning_rate": 0.00023202354440018735,
      "loss": 3.7888,
      "step": 152970
    },
    {
      "epoch": 0.3187083333333333,
      "grad_norm": 0.6813881397247314,
      "learning_rate": 0.00023201529016986174,
      "loss": 3.6945,
      "step": 152980
    },
    {
      "epoch": 0.3187291666666667,
      "grad_norm": 0.7834118008613586,
      "learning_rate": 0.00023200703558526252,
      "loss": 3.9464,
      "step": 152990
    },
    {
      "epoch": 0.31875,
      "grad_norm": 0.7684893608093262,
      "learning_rate": 0.00023199878064642543,
      "loss": 3.7433,
      "step": 153000
    },
    {
      "epoch": 0.31875,
      "eval_loss": 4.1970953941345215,
      "eval_runtime": 9.252,
      "eval_samples_per_second": 1.081,
      "eval_steps_per_second": 0.324,
      "step": 153000
    },
    {
      "epoch": 0.31877083333333334,
      "grad_norm": 0.8729820251464844,
      "learning_rate": 0.00023199052535338604,
      "loss": 3.8429,
      "step": 153010
    },
    {
      "epoch": 0.31879166666666664,
      "grad_norm": 0.8282814621925354,
      "learning_rate": 0.00023198226970618,
      "loss": 3.8527,
      "step": 153020
    },
    {
      "epoch": 0.3188125,
      "grad_norm": 0.7432697415351868,
      "learning_rate": 0.00023197401370484303,
      "loss": 3.8249,
      "step": 153030
    },
    {
      "epoch": 0.31883333333333336,
      "grad_norm": 0.8334677815437317,
      "learning_rate": 0.0002319657573494108,
      "loss": 3.8666,
      "step": 153040
    },
    {
      "epoch": 0.31885416666666666,
      "grad_norm": 0.7624298930168152,
      "learning_rate": 0.00023195750063991893,
      "loss": 3.8126,
      "step": 153050
    },
    {
      "epoch": 0.318875,
      "grad_norm": 0.7897423505783081,
      "learning_rate": 0.00023194924357640306,
      "loss": 3.8962,
      "step": 153060
    },
    {
      "epoch": 0.3188958333333333,
      "grad_norm": 0.7763317823410034,
      "learning_rate": 0.00023194098615889896,
      "loss": 3.8963,
      "step": 153070
    },
    {
      "epoch": 0.3189166666666667,
      "grad_norm": 0.8852490782737732,
      "learning_rate": 0.00023193272838744215,
      "loss": 3.8736,
      "step": 153080
    },
    {
      "epoch": 0.3189375,
      "grad_norm": 0.7822652459144592,
      "learning_rate": 0.00023192447026206846,
      "loss": 3.8457,
      "step": 153090
    },
    {
      "epoch": 0.31895833333333334,
      "grad_norm": 0.7304105162620544,
      "learning_rate": 0.0002319162117828134,
      "loss": 3.6805,
      "step": 153100
    },
    {
      "epoch": 0.31897916666666665,
      "grad_norm": 1.0210812091827393,
      "learning_rate": 0.0002319079529497128,
      "loss": 3.8006,
      "step": 153110
    },
    {
      "epoch": 0.319,
      "grad_norm": 0.7035405039787292,
      "learning_rate": 0.0002318996937628023,
      "loss": 4.0909,
      "step": 153120
    },
    {
      "epoch": 0.3190208333333333,
      "grad_norm": 0.8032400012016296,
      "learning_rate": 0.00023189143422211746,
      "loss": 3.8527,
      "step": 153130
    },
    {
      "epoch": 0.31904166666666667,
      "grad_norm": 0.7344068288803101,
      "learning_rate": 0.00023188317432769405,
      "loss": 3.8736,
      "step": 153140
    },
    {
      "epoch": 0.3190625,
      "grad_norm": 0.7231011390686035,
      "learning_rate": 0.00023187491407956776,
      "loss": 3.676,
      "step": 153150
    },
    {
      "epoch": 0.31908333333333333,
      "grad_norm": 0.7393110394477844,
      "learning_rate": 0.00023186665347777423,
      "loss": 3.9101,
      "step": 153160
    },
    {
      "epoch": 0.3191041666666667,
      "grad_norm": 0.7804484367370605,
      "learning_rate": 0.00023185839252234917,
      "loss": 3.8556,
      "step": 153170
    },
    {
      "epoch": 0.319125,
      "grad_norm": 0.8311053514480591,
      "learning_rate": 0.00023185013121332829,
      "loss": 3.8871,
      "step": 153180
    },
    {
      "epoch": 0.31914583333333335,
      "grad_norm": 0.7134312987327576,
      "learning_rate": 0.0002318418695507472,
      "loss": 3.734,
      "step": 153190
    },
    {
      "epoch": 0.31916666666666665,
      "grad_norm": 0.6745779514312744,
      "learning_rate": 0.00023183360753464163,
      "loss": 3.6874,
      "step": 153200
    },
    {
      "epoch": 0.3191875,
      "grad_norm": 0.7118538022041321,
      "learning_rate": 0.00023182534516504733,
      "loss": 4.0558,
      "step": 153210
    },
    {
      "epoch": 0.3192083333333333,
      "grad_norm": 0.7635205388069153,
      "learning_rate": 0.00023181708244199986,
      "loss": 3.732,
      "step": 153220
    },
    {
      "epoch": 0.3192291666666667,
      "grad_norm": 0.7799244523048401,
      "learning_rate": 0.00023180881936553504,
      "loss": 4.0155,
      "step": 153230
    },
    {
      "epoch": 0.31925,
      "grad_norm": 0.7685560584068298,
      "learning_rate": 0.00023180055593568846,
      "loss": 4.0158,
      "step": 153240
    },
    {
      "epoch": 0.31927083333333334,
      "grad_norm": 0.7890692353248596,
      "learning_rate": 0.00023179229215249583,
      "loss": 3.9205,
      "step": 153250
    },
    {
      "epoch": 0.31929166666666664,
      "grad_norm": 0.6962746977806091,
      "learning_rate": 0.00023178402801599292,
      "loss": 3.9636,
      "step": 153260
    },
    {
      "epoch": 0.3193125,
      "grad_norm": 0.8441423177719116,
      "learning_rate": 0.00023177576352621535,
      "loss": 3.6858,
      "step": 153270
    },
    {
      "epoch": 0.31933333333333336,
      "grad_norm": 0.7528898119926453,
      "learning_rate": 0.00023176749868319884,
      "loss": 3.8889,
      "step": 153280
    },
    {
      "epoch": 0.31935416666666666,
      "grad_norm": 0.794983983039856,
      "learning_rate": 0.00023175923348697916,
      "loss": 3.8196,
      "step": 153290
    },
    {
      "epoch": 0.319375,
      "grad_norm": 0.7930054664611816,
      "learning_rate": 0.00023175096793759192,
      "loss": 3.7052,
      "step": 153300
    },
    {
      "epoch": 0.3193958333333333,
      "grad_norm": 0.7453523874282837,
      "learning_rate": 0.00023174270203507282,
      "loss": 3.6601,
      "step": 153310
    },
    {
      "epoch": 0.3194166666666667,
      "grad_norm": 0.826949954032898,
      "learning_rate": 0.00023173443577945765,
      "loss": 3.721,
      "step": 153320
    },
    {
      "epoch": 0.3194375,
      "grad_norm": 0.762692391872406,
      "learning_rate": 0.00023172616917078206,
      "loss": 3.845,
      "step": 153330
    },
    {
      "epoch": 0.31945833333333334,
      "grad_norm": 0.8101476430892944,
      "learning_rate": 0.0002317179022090818,
      "loss": 3.9062,
      "step": 153340
    },
    {
      "epoch": 0.31947916666666665,
      "grad_norm": 0.7913668155670166,
      "learning_rate": 0.00023170963489439249,
      "loss": 3.8735,
      "step": 153350
    },
    {
      "epoch": 0.3195,
      "grad_norm": 0.7783119678497314,
      "learning_rate": 0.00023170136722674991,
      "loss": 3.8745,
      "step": 153360
    },
    {
      "epoch": 0.3195208333333333,
      "grad_norm": 0.6421667337417603,
      "learning_rate": 0.0002316930992061898,
      "loss": 3.7283,
      "step": 153370
    },
    {
      "epoch": 0.31954166666666667,
      "grad_norm": 0.853538990020752,
      "learning_rate": 0.00023168483083274783,
      "loss": 3.6734,
      "step": 153380
    },
    {
      "epoch": 0.3195625,
      "grad_norm": 0.8038004636764526,
      "learning_rate": 0.00023167656210645974,
      "loss": 3.9517,
      "step": 153390
    },
    {
      "epoch": 0.31958333333333333,
      "grad_norm": 0.7190841436386108,
      "learning_rate": 0.0002316682930273612,
      "loss": 3.8233,
      "step": 153400
    },
    {
      "epoch": 0.3196041666666667,
      "grad_norm": 0.7888268828392029,
      "learning_rate": 0.00023166002359548794,
      "loss": 3.8327,
      "step": 153410
    },
    {
      "epoch": 0.319625,
      "grad_norm": 0.75459223985672,
      "learning_rate": 0.0002316517538108757,
      "loss": 3.9061,
      "step": 153420
    },
    {
      "epoch": 0.31964583333333335,
      "grad_norm": 0.7879202961921692,
      "learning_rate": 0.00023164348367356026,
      "loss": 3.8622,
      "step": 153430
    },
    {
      "epoch": 0.31966666666666665,
      "grad_norm": 0.7245069742202759,
      "learning_rate": 0.00023163521318357726,
      "loss": 3.7438,
      "step": 153440
    },
    {
      "epoch": 0.3196875,
      "grad_norm": 0.7867947220802307,
      "learning_rate": 0.00023162694234096245,
      "loss": 3.7878,
      "step": 153450
    },
    {
      "epoch": 0.3197083333333333,
      "grad_norm": 0.7881966233253479,
      "learning_rate": 0.00023161867114575155,
      "loss": 3.8302,
      "step": 153460
    },
    {
      "epoch": 0.3197291666666667,
      "grad_norm": 0.7006414532661438,
      "learning_rate": 0.00023161039959798032,
      "loss": 3.8591,
      "step": 153470
    },
    {
      "epoch": 0.31975,
      "grad_norm": 0.7678000330924988,
      "learning_rate": 0.00023160212769768443,
      "loss": 3.9093,
      "step": 153480
    },
    {
      "epoch": 0.31977083333333334,
      "grad_norm": 0.8223839402198792,
      "learning_rate": 0.0002315938554448997,
      "loss": 3.8437,
      "step": 153490
    },
    {
      "epoch": 0.31979166666666664,
      "grad_norm": 0.7300174236297607,
      "learning_rate": 0.0002315855828396618,
      "loss": 3.6284,
      "step": 153500
    },
    {
      "epoch": 0.3198125,
      "grad_norm": 0.7371437549591064,
      "learning_rate": 0.00023157730988200646,
      "loss": 3.763,
      "step": 153510
    },
    {
      "epoch": 0.31983333333333336,
      "grad_norm": 0.7168568968772888,
      "learning_rate": 0.00023156903657196943,
      "loss": 3.8366,
      "step": 153520
    },
    {
      "epoch": 0.31985416666666666,
      "grad_norm": 0.7588127255439758,
      "learning_rate": 0.00023156076290958643,
      "loss": 3.9787,
      "step": 153530
    },
    {
      "epoch": 0.319875,
      "grad_norm": 0.8494169116020203,
      "learning_rate": 0.00023155248889489323,
      "loss": 3.817,
      "step": 153540
    },
    {
      "epoch": 0.3198958333333333,
      "grad_norm": 0.7420646548271179,
      "learning_rate": 0.00023154421452792557,
      "loss": 3.9635,
      "step": 153550
    },
    {
      "epoch": 0.3199166666666667,
      "grad_norm": 0.8707613348960876,
      "learning_rate": 0.0002315359398087192,
      "loss": 3.9453,
      "step": 153560
    },
    {
      "epoch": 0.3199375,
      "grad_norm": 0.7786762714385986,
      "learning_rate": 0.00023152766473730983,
      "loss": 3.8509,
      "step": 153570
    },
    {
      "epoch": 0.31995833333333334,
      "grad_norm": 0.9248204231262207,
      "learning_rate": 0.0002315193893137332,
      "loss": 3.8529,
      "step": 153580
    },
    {
      "epoch": 0.31997916666666665,
      "grad_norm": 0.9403221607208252,
      "learning_rate": 0.0002315111135380251,
      "loss": 3.9563,
      "step": 153590
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8422710299491882,
      "learning_rate": 0.00023150283741022124,
      "loss": 3.8728,
      "step": 153600
    },
    {
      "epoch": 0.3200208333333333,
      "grad_norm": 0.7212035655975342,
      "learning_rate": 0.0002314945609303574,
      "loss": 3.9273,
      "step": 153610
    },
    {
      "epoch": 0.32004166666666667,
      "grad_norm": 0.9215808510780334,
      "learning_rate": 0.00023148628409846926,
      "loss": 3.993,
      "step": 153620
    },
    {
      "epoch": 0.3200625,
      "grad_norm": 0.8518983125686646,
      "learning_rate": 0.00023147800691459267,
      "loss": 3.6684,
      "step": 153630
    },
    {
      "epoch": 0.32008333333333333,
      "grad_norm": 0.7534785270690918,
      "learning_rate": 0.00023146972937876338,
      "loss": 3.9066,
      "step": 153640
    },
    {
      "epoch": 0.3201041666666667,
      "grad_norm": 0.9349606037139893,
      "learning_rate": 0.00023146145149101704,
      "loss": 3.851,
      "step": 153650
    },
    {
      "epoch": 0.320125,
      "grad_norm": 0.876132071018219,
      "learning_rate": 0.00023145317325138953,
      "loss": 3.9054,
      "step": 153660
    },
    {
      "epoch": 0.32014583333333335,
      "grad_norm": 0.7238659858703613,
      "learning_rate": 0.00023144489465991652,
      "loss": 3.9544,
      "step": 153670
    },
    {
      "epoch": 0.32016666666666665,
      "grad_norm": 0.7356593608856201,
      "learning_rate": 0.00023143661571663378,
      "loss": 3.8339,
      "step": 153680
    },
    {
      "epoch": 0.3201875,
      "grad_norm": 0.7830705642700195,
      "learning_rate": 0.00023142833642157711,
      "loss": 3.8089,
      "step": 153690
    },
    {
      "epoch": 0.3202083333333333,
      "grad_norm": 0.7104277610778809,
      "learning_rate": 0.00023142005677478228,
      "loss": 3.9046,
      "step": 153700
    },
    {
      "epoch": 0.3202291666666667,
      "grad_norm": 0.7172903418540955,
      "learning_rate": 0.00023141177677628503,
      "loss": 3.7542,
      "step": 153710
    },
    {
      "epoch": 0.32025,
      "grad_norm": 0.6937995553016663,
      "learning_rate": 0.0002314034964261211,
      "loss": 3.7928,
      "step": 153720
    },
    {
      "epoch": 0.32027083333333334,
      "grad_norm": 0.6336227655410767,
      "learning_rate": 0.0002313952157243263,
      "loss": 3.8346,
      "step": 153730
    },
    {
      "epoch": 0.32029166666666664,
      "grad_norm": 0.7880694270133972,
      "learning_rate": 0.00023138693467093644,
      "loss": 3.8384,
      "step": 153740
    },
    {
      "epoch": 0.3203125,
      "grad_norm": 0.7690852284431458,
      "learning_rate": 0.00023137865326598717,
      "loss": 3.9114,
      "step": 153750
    },
    {
      "epoch": 0.32033333333333336,
      "grad_norm": 0.8542155623435974,
      "learning_rate": 0.00023137037150951437,
      "loss": 3.8508,
      "step": 153760
    },
    {
      "epoch": 0.32035416666666666,
      "grad_norm": 0.6937045454978943,
      "learning_rate": 0.00023136208940155377,
      "loss": 3.7739,
      "step": 153770
    },
    {
      "epoch": 0.320375,
      "grad_norm": 0.8156905174255371,
      "learning_rate": 0.0002313538069421411,
      "loss": 3.8795,
      "step": 153780
    },
    {
      "epoch": 0.3203958333333333,
      "grad_norm": 0.9437600374221802,
      "learning_rate": 0.00023134552413131223,
      "loss": 3.7336,
      "step": 153790
    },
    {
      "epoch": 0.3204166666666667,
      "grad_norm": 0.7018610835075378,
      "learning_rate": 0.0002313372409691029,
      "loss": 3.9827,
      "step": 153800
    },
    {
      "epoch": 0.3204375,
      "grad_norm": 0.8115174770355225,
      "learning_rate": 0.00023132895745554884,
      "loss": 3.8661,
      "step": 153810
    },
    {
      "epoch": 0.32045833333333335,
      "grad_norm": 0.9746975898742676,
      "learning_rate": 0.00023132067359068594,
      "loss": 4.0403,
      "step": 153820
    },
    {
      "epoch": 0.32047916666666665,
      "grad_norm": 0.8093881011009216,
      "learning_rate": 0.0002313123893745499,
      "loss": 3.9029,
      "step": 153830
    },
    {
      "epoch": 0.3205,
      "grad_norm": 0.7671213746070862,
      "learning_rate": 0.00023130410480717652,
      "loss": 3.8133,
      "step": 153840
    },
    {
      "epoch": 0.3205208333333333,
      "grad_norm": 0.7258974313735962,
      "learning_rate": 0.00023129581988860155,
      "loss": 3.8919,
      "step": 153850
    },
    {
      "epoch": 0.32054166666666667,
      "grad_norm": 0.75145024061203,
      "learning_rate": 0.00023128753461886084,
      "loss": 3.9267,
      "step": 153860
    },
    {
      "epoch": 0.3205625,
      "grad_norm": 0.7354534864425659,
      "learning_rate": 0.00023127924899799017,
      "loss": 3.9032,
      "step": 153870
    },
    {
      "epoch": 0.32058333333333333,
      "grad_norm": 0.6826053857803345,
      "learning_rate": 0.00023127096302602533,
      "loss": 4.0721,
      "step": 153880
    },
    {
      "epoch": 0.3206041666666667,
      "grad_norm": 0.8228940963745117,
      "learning_rate": 0.00023126267670300207,
      "loss": 3.8402,
      "step": 153890
    },
    {
      "epoch": 0.320625,
      "grad_norm": 0.7704678773880005,
      "learning_rate": 0.00023125439002895617,
      "loss": 3.8552,
      "step": 153900
    },
    {
      "epoch": 0.32064583333333335,
      "grad_norm": 0.7660999894142151,
      "learning_rate": 0.0002312461030039236,
      "loss": 3.8431,
      "step": 153910
    },
    {
      "epoch": 0.32066666666666666,
      "grad_norm": 0.776005208492279,
      "learning_rate": 0.00023123781562793994,
      "loss": 3.8152,
      "step": 153920
    },
    {
      "epoch": 0.3206875,
      "grad_norm": 0.7982462644577026,
      "learning_rate": 0.00023122952790104103,
      "loss": 3.7248,
      "step": 153930
    },
    {
      "epoch": 0.3207083333333333,
      "grad_norm": 0.7288185954093933,
      "learning_rate": 0.00023122123982326274,
      "loss": 3.9111,
      "step": 153940
    },
    {
      "epoch": 0.3207291666666667,
      "grad_norm": 0.7330758571624756,
      "learning_rate": 0.00023121295139464092,
      "loss": 4.0229,
      "step": 153950
    },
    {
      "epoch": 0.32075,
      "grad_norm": 0.8981575965881348,
      "learning_rate": 0.00023120466261521123,
      "loss": 3.7896,
      "step": 153960
    },
    {
      "epoch": 0.32077083333333334,
      "grad_norm": 0.6900730729103088,
      "learning_rate": 0.00023119637348500952,
      "loss": 3.803,
      "step": 153970
    },
    {
      "epoch": 0.32079166666666664,
      "grad_norm": 0.7557768225669861,
      "learning_rate": 0.00023118808400407164,
      "loss": 3.7498,
      "step": 153980
    },
    {
      "epoch": 0.3208125,
      "grad_norm": 0.8678268790245056,
      "learning_rate": 0.00023117979417243339,
      "loss": 3.8139,
      "step": 153990
    },
    {
      "epoch": 0.32083333333333336,
      "grad_norm": 0.8371400833129883,
      "learning_rate": 0.00023117150399013054,
      "loss": 3.9262,
      "step": 154000
    },
    {
      "epoch": 0.32083333333333336,
      "eval_loss": 4.202296257019043,
      "eval_runtime": 12.2873,
      "eval_samples_per_second": 0.814,
      "eval_steps_per_second": 0.244,
      "step": 154000
    },
    {
      "epoch": 0.32085416666666666,
      "grad_norm": 0.7001991868019104,
      "learning_rate": 0.00023116321345719896,
      "loss": 3.7328,
      "step": 154010
    },
    {
      "epoch": 0.320875,
      "grad_norm": 0.8992820978164673,
      "learning_rate": 0.00023115492257367437,
      "loss": 3.9433,
      "step": 154020
    },
    {
      "epoch": 0.3208958333333333,
      "grad_norm": 0.7242739200592041,
      "learning_rate": 0.0002311466313395927,
      "loss": 3.6136,
      "step": 154030
    },
    {
      "epoch": 0.3209166666666667,
      "grad_norm": 0.7060720920562744,
      "learning_rate": 0.00023113833975498964,
      "loss": 3.8398,
      "step": 154040
    },
    {
      "epoch": 0.3209375,
      "grad_norm": 0.7113367915153503,
      "learning_rate": 0.00023113004781990113,
      "loss": 3.9492,
      "step": 154050
    },
    {
      "epoch": 0.32095833333333335,
      "grad_norm": 0.7464639544487,
      "learning_rate": 0.00023112175553436284,
      "loss": 3.8046,
      "step": 154060
    },
    {
      "epoch": 0.32097916666666665,
      "grad_norm": 0.9268916845321655,
      "learning_rate": 0.00023111346289841076,
      "loss": 3.9651,
      "step": 154070
    },
    {
      "epoch": 0.321,
      "grad_norm": 0.8794302940368652,
      "learning_rate": 0.0002311051699120806,
      "loss": 3.8778,
      "step": 154080
    },
    {
      "epoch": 0.3210208333333333,
      "grad_norm": 0.8598648309707642,
      "learning_rate": 0.0002310968765754082,
      "loss": 3.8306,
      "step": 154090
    },
    {
      "epoch": 0.32104166666666667,
      "grad_norm": 0.7396261692047119,
      "learning_rate": 0.00023108858288842943,
      "loss": 3.8118,
      "step": 154100
    },
    {
      "epoch": 0.3210625,
      "grad_norm": 0.7719778418540955,
      "learning_rate": 0.00023108028885118003,
      "loss": 3.9121,
      "step": 154110
    },
    {
      "epoch": 0.32108333333333333,
      "grad_norm": 0.7962385416030884,
      "learning_rate": 0.00023107199446369592,
      "loss": 3.8166,
      "step": 154120
    },
    {
      "epoch": 0.3211041666666667,
      "grad_norm": 0.8556819558143616,
      "learning_rate": 0.00023106369972601286,
      "loss": 3.786,
      "step": 154130
    },
    {
      "epoch": 0.321125,
      "grad_norm": 0.743748664855957,
      "learning_rate": 0.00023105540463816673,
      "loss": 3.9814,
      "step": 154140
    },
    {
      "epoch": 0.32114583333333335,
      "grad_norm": 0.7294877171516418,
      "learning_rate": 0.00023104710920019325,
      "loss": 3.8816,
      "step": 154150
    },
    {
      "epoch": 0.32116666666666666,
      "grad_norm": 0.8249985575675964,
      "learning_rate": 0.00023103881341212843,
      "loss": 3.8912,
      "step": 154160
    },
    {
      "epoch": 0.3211875,
      "grad_norm": 0.748569905757904,
      "learning_rate": 0.00023103051727400799,
      "loss": 3.8534,
      "step": 154170
    },
    {
      "epoch": 0.3212083333333333,
      "grad_norm": 0.783600389957428,
      "learning_rate": 0.00023102222078586778,
      "loss": 3.7401,
      "step": 154180
    },
    {
      "epoch": 0.3212291666666667,
      "grad_norm": 0.6825047731399536,
      "learning_rate": 0.00023101392394774366,
      "loss": 3.9183,
      "step": 154190
    },
    {
      "epoch": 0.32125,
      "grad_norm": 0.7665307521820068,
      "learning_rate": 0.00023100562675967145,
      "loss": 3.7675,
      "step": 154200
    },
    {
      "epoch": 0.32127083333333334,
      "grad_norm": 0.7442527413368225,
      "learning_rate": 0.00023099732922168695,
      "loss": 3.7153,
      "step": 154210
    },
    {
      "epoch": 0.32129166666666664,
      "grad_norm": 0.9026127457618713,
      "learning_rate": 0.00023098903133382613,
      "loss": 3.8553,
      "step": 154220
    },
    {
      "epoch": 0.3213125,
      "grad_norm": 0.9258597493171692,
      "learning_rate": 0.0002309807330961247,
      "loss": 3.7976,
      "step": 154230
    },
    {
      "epoch": 0.32133333333333336,
      "grad_norm": 0.7581011652946472,
      "learning_rate": 0.00023097243450861856,
      "loss": 3.7723,
      "step": 154240
    },
    {
      "epoch": 0.32135416666666666,
      "grad_norm": 0.7141950130462646,
      "learning_rate": 0.00023096413557134357,
      "loss": 3.8429,
      "step": 154250
    },
    {
      "epoch": 0.321375,
      "grad_norm": 0.849009096622467,
      "learning_rate": 0.00023095583628433554,
      "loss": 3.8633,
      "step": 154260
    },
    {
      "epoch": 0.3213958333333333,
      "grad_norm": 0.7837465405464172,
      "learning_rate": 0.0002309475366476304,
      "loss": 3.7609,
      "step": 154270
    },
    {
      "epoch": 0.3214166666666667,
      "grad_norm": 0.8116361498832703,
      "learning_rate": 0.0002309392366612639,
      "loss": 3.8439,
      "step": 154280
    },
    {
      "epoch": 0.3214375,
      "grad_norm": 0.8309770822525024,
      "learning_rate": 0.00023093093632527191,
      "loss": 3.8915,
      "step": 154290
    },
    {
      "epoch": 0.32145833333333335,
      "grad_norm": 0.7029276490211487,
      "learning_rate": 0.00023092263563969035,
      "loss": 3.8814,
      "step": 154300
    },
    {
      "epoch": 0.32147916666666665,
      "grad_norm": 1.6523908376693726,
      "learning_rate": 0.000230914334604555,
      "loss": 4.0435,
      "step": 154310
    },
    {
      "epoch": 0.3215,
      "grad_norm": 0.7270710468292236,
      "learning_rate": 0.0002309060332199018,
      "loss": 3.9182,
      "step": 154320
    },
    {
      "epoch": 0.3215208333333333,
      "grad_norm": 0.8012025356292725,
      "learning_rate": 0.00023089773148576653,
      "loss": 3.7862,
      "step": 154330
    },
    {
      "epoch": 0.32154166666666667,
      "grad_norm": 0.8496716618537903,
      "learning_rate": 0.0002308894294021851,
      "loss": 3.9807,
      "step": 154340
    },
    {
      "epoch": 0.3215625,
      "grad_norm": 0.7851206660270691,
      "learning_rate": 0.00023088112696919335,
      "loss": 3.7157,
      "step": 154350
    },
    {
      "epoch": 0.32158333333333333,
      "grad_norm": 1.224629521369934,
      "learning_rate": 0.00023087282418682713,
      "loss": 3.8197,
      "step": 154360
    },
    {
      "epoch": 0.3216041666666667,
      "grad_norm": 0.8327422142028809,
      "learning_rate": 0.00023086452105512234,
      "loss": 3.9287,
      "step": 154370
    },
    {
      "epoch": 0.321625,
      "grad_norm": 0.7875216007232666,
      "learning_rate": 0.0002308562175741148,
      "loss": 3.9145,
      "step": 154380
    },
    {
      "epoch": 0.32164583333333335,
      "grad_norm": 0.6998911499977112,
      "learning_rate": 0.00023084791374384045,
      "loss": 3.8137,
      "step": 154390
    },
    {
      "epoch": 0.32166666666666666,
      "grad_norm": 0.6686747670173645,
      "learning_rate": 0.00023083960956433506,
      "loss": 3.8721,
      "step": 154400
    },
    {
      "epoch": 0.3216875,
      "grad_norm": 0.7468841671943665,
      "learning_rate": 0.00023083130503563464,
      "loss": 3.8132,
      "step": 154410
    },
    {
      "epoch": 0.3217083333333333,
      "grad_norm": 0.7111924290657043,
      "learning_rate": 0.00023082300015777484,
      "loss": 3.9315,
      "step": 154420
    },
    {
      "epoch": 0.3217291666666667,
      "grad_norm": 1.1409577131271362,
      "learning_rate": 0.00023081469493079173,
      "loss": 3.784,
      "step": 154430
    },
    {
      "epoch": 0.32175,
      "grad_norm": 0.727071225643158,
      "learning_rate": 0.00023080638935472122,
      "loss": 3.8351,
      "step": 154440
    },
    {
      "epoch": 0.32177083333333334,
      "grad_norm": 0.7424230575561523,
      "learning_rate": 0.00023079808342959903,
      "loss": 3.7341,
      "step": 154450
    },
    {
      "epoch": 0.32179166666666664,
      "grad_norm": 0.7331480979919434,
      "learning_rate": 0.00023078977715546104,
      "loss": 3.7823,
      "step": 154460
    },
    {
      "epoch": 0.3218125,
      "grad_norm": 0.8618324398994446,
      "learning_rate": 0.00023078147053234328,
      "loss": 3.926,
      "step": 154470
    },
    {
      "epoch": 0.32183333333333336,
      "grad_norm": 0.7477438449859619,
      "learning_rate": 0.00023077316356028148,
      "loss": 3.6955,
      "step": 154480
    },
    {
      "epoch": 0.32185416666666666,
      "grad_norm": 0.7708790898323059,
      "learning_rate": 0.00023076485623931163,
      "loss": 3.745,
      "step": 154490
    },
    {
      "epoch": 0.321875,
      "grad_norm": 0.803095817565918,
      "learning_rate": 0.00023075654856946956,
      "loss": 3.8152,
      "step": 154500
    },
    {
      "epoch": 0.3218958333333333,
      "grad_norm": 0.7667455673217773,
      "learning_rate": 0.00023074824055079114,
      "loss": 3.7551,
      "step": 154510
    },
    {
      "epoch": 0.3219166666666667,
      "grad_norm": 0.7158496379852295,
      "learning_rate": 0.00023073993218331227,
      "loss": 3.7993,
      "step": 154520
    },
    {
      "epoch": 0.3219375,
      "grad_norm": 0.7452413439750671,
      "learning_rate": 0.00023073162346706893,
      "loss": 3.8967,
      "step": 154530
    },
    {
      "epoch": 0.32195833333333335,
      "grad_norm": 0.705858051776886,
      "learning_rate": 0.00023072331440209687,
      "loss": 3.7719,
      "step": 154540
    },
    {
      "epoch": 0.32197916666666665,
      "grad_norm": 0.820517897605896,
      "learning_rate": 0.00023071500498843205,
      "loss": 4.0467,
      "step": 154550
    },
    {
      "epoch": 0.322,
      "grad_norm": 0.8470239639282227,
      "learning_rate": 0.00023070669522611036,
      "loss": 3.8323,
      "step": 154560
    },
    {
      "epoch": 0.3220208333333333,
      "grad_norm": 0.7829691767692566,
      "learning_rate": 0.0002306983851151677,
      "loss": 3.6398,
      "step": 154570
    },
    {
      "epoch": 0.32204166666666667,
      "grad_norm": 0.857552707195282,
      "learning_rate": 0.00023069007465564002,
      "loss": 3.8444,
      "step": 154580
    },
    {
      "epoch": 0.3220625,
      "grad_norm": 0.7339721322059631,
      "learning_rate": 0.00023068176384756302,
      "loss": 3.8224,
      "step": 154590
    },
    {
      "epoch": 0.32208333333333333,
      "grad_norm": 0.6871898770332336,
      "learning_rate": 0.00023067345269097282,
      "loss": 3.8072,
      "step": 154600
    },
    {
      "epoch": 0.3221041666666667,
      "grad_norm": 0.8087634444236755,
      "learning_rate": 0.0002306651411859053,
      "loss": 3.7951,
      "step": 154610
    },
    {
      "epoch": 0.322125,
      "grad_norm": 0.7056026458740234,
      "learning_rate": 0.00023065682933239614,
      "loss": 3.7475,
      "step": 154620
    },
    {
      "epoch": 0.32214583333333335,
      "grad_norm": 0.8553313612937927,
      "learning_rate": 0.00023064851713048152,
      "loss": 3.8179,
      "step": 154630
    },
    {
      "epoch": 0.32216666666666666,
      "grad_norm": 0.8976519703865051,
      "learning_rate": 0.00023064020458019724,
      "loss": 3.9321,
      "step": 154640
    },
    {
      "epoch": 0.3221875,
      "grad_norm": 0.7886064052581787,
      "learning_rate": 0.00023063189168157913,
      "loss": 3.9098,
      "step": 154650
    },
    {
      "epoch": 0.3222083333333333,
      "grad_norm": 0.7434669733047485,
      "learning_rate": 0.00023062357843466318,
      "loss": 3.7534,
      "step": 154660
    },
    {
      "epoch": 0.3222291666666667,
      "grad_norm": 0.7121542096138,
      "learning_rate": 0.00023061526483948534,
      "loss": 3.8925,
      "step": 154670
    },
    {
      "epoch": 0.32225,
      "grad_norm": 0.6588770747184753,
      "learning_rate": 0.00023060695089608142,
      "loss": 3.7969,
      "step": 154680
    },
    {
      "epoch": 0.32227083333333334,
      "grad_norm": 0.7642781734466553,
      "learning_rate": 0.00023059863660448735,
      "loss": 3.6896,
      "step": 154690
    },
    {
      "epoch": 0.32229166666666664,
      "grad_norm": 0.7642799615859985,
      "learning_rate": 0.0002305903219647391,
      "loss": 3.7407,
      "step": 154700
    },
    {
      "epoch": 0.3223125,
      "grad_norm": 0.8270300626754761,
      "learning_rate": 0.0002305820069768726,
      "loss": 3.8379,
      "step": 154710
    },
    {
      "epoch": 0.32233333333333336,
      "grad_norm": 0.7305610775947571,
      "learning_rate": 0.00023057369164092365,
      "loss": 3.981,
      "step": 154720
    },
    {
      "epoch": 0.32235416666666666,
      "grad_norm": 0.7860446572303772,
      "learning_rate": 0.00023056537595692828,
      "loss": 3.7495,
      "step": 154730
    },
    {
      "epoch": 0.322375,
      "grad_norm": 0.9314789175987244,
      "learning_rate": 0.00023055705992492236,
      "loss": 3.8939,
      "step": 154740
    },
    {
      "epoch": 0.3223958333333333,
      "grad_norm": 0.7728352546691895,
      "learning_rate": 0.00023054874354494186,
      "loss": 3.8121,
      "step": 154750
    },
    {
      "epoch": 0.3224166666666667,
      "grad_norm": 0.7778765559196472,
      "learning_rate": 0.0002305404268170227,
      "loss": 3.825,
      "step": 154760
    },
    {
      "epoch": 0.3224375,
      "grad_norm": 0.7328681945800781,
      "learning_rate": 0.0002305321097412007,
      "loss": 3.7387,
      "step": 154770
    },
    {
      "epoch": 0.32245833333333335,
      "grad_norm": 0.8738206028938293,
      "learning_rate": 0.00023052379231751192,
      "loss": 3.619,
      "step": 154780
    },
    {
      "epoch": 0.32247916666666665,
      "grad_norm": 0.7567570209503174,
      "learning_rate": 0.00023051547454599217,
      "loss": 3.9817,
      "step": 154790
    },
    {
      "epoch": 0.3225,
      "grad_norm": 0.9878218173980713,
      "learning_rate": 0.00023050715642667749,
      "loss": 3.7604,
      "step": 154800
    },
    {
      "epoch": 0.3225208333333333,
      "grad_norm": 0.7444084882736206,
      "learning_rate": 0.0002304988379596038,
      "loss": 3.7998,
      "step": 154810
    },
    {
      "epoch": 0.32254166666666667,
      "grad_norm": 0.7416655421257019,
      "learning_rate": 0.00023049051914480692,
      "loss": 3.6975,
      "step": 154820
    },
    {
      "epoch": 0.3225625,
      "grad_norm": 0.7240210175514221,
      "learning_rate": 0.00023048219998232286,
      "loss": 3.809,
      "step": 154830
    },
    {
      "epoch": 0.32258333333333333,
      "grad_norm": 0.7988502979278564,
      "learning_rate": 0.00023047388047218762,
      "loss": 3.7833,
      "step": 154840
    },
    {
      "epoch": 0.3226041666666667,
      "grad_norm": 0.7801516652107239,
      "learning_rate": 0.00023046556061443702,
      "loss": 3.7203,
      "step": 154850
    },
    {
      "epoch": 0.322625,
      "grad_norm": 0.7329413294792175,
      "learning_rate": 0.00023045724040910706,
      "loss": 3.805,
      "step": 154860
    },
    {
      "epoch": 0.32264583333333335,
      "grad_norm": 0.750150740146637,
      "learning_rate": 0.00023044891985623362,
      "loss": 3.863,
      "step": 154870
    },
    {
      "epoch": 0.32266666666666666,
      "grad_norm": 0.9437929391860962,
      "learning_rate": 0.00023044059895585277,
      "loss": 3.7944,
      "step": 154880
    },
    {
      "epoch": 0.3226875,
      "grad_norm": 0.9009469151496887,
      "learning_rate": 0.00023043227770800032,
      "loss": 3.8735,
      "step": 154890
    },
    {
      "epoch": 0.3227083333333333,
      "grad_norm": 0.7679034471511841,
      "learning_rate": 0.00023042395611271228,
      "loss": 3.8391,
      "step": 154900
    },
    {
      "epoch": 0.3227291666666667,
      "grad_norm": 0.8323872089385986,
      "learning_rate": 0.00023041563417002458,
      "loss": 3.6913,
      "step": 154910
    },
    {
      "epoch": 0.32275,
      "grad_norm": 0.8955743312835693,
      "learning_rate": 0.00023040731187997317,
      "loss": 3.8067,
      "step": 154920
    },
    {
      "epoch": 0.32277083333333334,
      "grad_norm": 0.778679609298706,
      "learning_rate": 0.00023039898924259402,
      "loss": 3.734,
      "step": 154930
    },
    {
      "epoch": 0.32279166666666664,
      "grad_norm": 0.838668167591095,
      "learning_rate": 0.000230390666257923,
      "loss": 3.932,
      "step": 154940
    },
    {
      "epoch": 0.3228125,
      "grad_norm": 0.7775641679763794,
      "learning_rate": 0.00023038234292599622,
      "loss": 3.8582,
      "step": 154950
    },
    {
      "epoch": 0.32283333333333336,
      "grad_norm": 0.8068355917930603,
      "learning_rate": 0.00023037401924684946,
      "loss": 3.7549,
      "step": 154960
    },
    {
      "epoch": 0.32285416666666666,
      "grad_norm": 0.7083050608634949,
      "learning_rate": 0.00023036569522051878,
      "loss": 3.9116,
      "step": 154970
    },
    {
      "epoch": 0.322875,
      "grad_norm": 0.638461172580719,
      "learning_rate": 0.0002303573708470401,
      "loss": 3.7128,
      "step": 154980
    },
    {
      "epoch": 0.3228958333333333,
      "grad_norm": 0.7556342482566833,
      "learning_rate": 0.00023034904612644937,
      "loss": 3.84,
      "step": 154990
    },
    {
      "epoch": 0.3229166666666667,
      "grad_norm": 0.7972189784049988,
      "learning_rate": 0.00023034072105878264,
      "loss": 3.8333,
      "step": 155000
    },
    {
      "epoch": 0.3229166666666667,
      "eval_loss": 4.190110683441162,
      "eval_runtime": 11.0455,
      "eval_samples_per_second": 0.905,
      "eval_steps_per_second": 0.272,
      "step": 155000
    },
    {
      "epoch": 0.3229375,
      "grad_norm": 0.6833038926124573,
      "learning_rate": 0.00023033239564407575,
      "loss": 3.9534,
      "step": 155010
    },
    {
      "epoch": 0.32295833333333335,
      "grad_norm": 0.7659375071525574,
      "learning_rate": 0.0002303240698823647,
      "loss": 3.7743,
      "step": 155020
    },
    {
      "epoch": 0.32297916666666665,
      "grad_norm": 0.8977503180503845,
      "learning_rate": 0.00023031574377368547,
      "loss": 3.778,
      "step": 155030
    },
    {
      "epoch": 0.323,
      "grad_norm": 0.7023462653160095,
      "learning_rate": 0.000230307417318074,
      "loss": 3.6775,
      "step": 155040
    },
    {
      "epoch": 0.3230208333333333,
      "grad_norm": 0.8406599760055542,
      "learning_rate": 0.00023029909051556629,
      "loss": 3.8548,
      "step": 155050
    },
    {
      "epoch": 0.32304166666666667,
      "grad_norm": 1.0286040306091309,
      "learning_rate": 0.00023029076336619826,
      "loss": 3.9632,
      "step": 155060
    },
    {
      "epoch": 0.3230625,
      "grad_norm": 0.8869988322257996,
      "learning_rate": 0.00023028243587000597,
      "loss": 3.7918,
      "step": 155070
    },
    {
      "epoch": 0.32308333333333333,
      "grad_norm": 0.7367129921913147,
      "learning_rate": 0.00023027410802702527,
      "loss": 3.7282,
      "step": 155080
    },
    {
      "epoch": 0.3231041666666667,
      "grad_norm": 0.7807878255844116,
      "learning_rate": 0.00023026577983729224,
      "loss": 3.9087,
      "step": 155090
    },
    {
      "epoch": 0.323125,
      "grad_norm": 0.7280221581459045,
      "learning_rate": 0.00023025745130084282,
      "loss": 3.7555,
      "step": 155100
    },
    {
      "epoch": 0.32314583333333335,
      "grad_norm": 0.7912907600402832,
      "learning_rate": 0.00023024912241771295,
      "loss": 3.9074,
      "step": 155110
    },
    {
      "epoch": 0.32316666666666666,
      "grad_norm": 1.070326805114746,
      "learning_rate": 0.00023024079318793866,
      "loss": 3.6342,
      "step": 155120
    },
    {
      "epoch": 0.3231875,
      "grad_norm": 0.8336413502693176,
      "learning_rate": 0.00023023246361155588,
      "loss": 3.8656,
      "step": 155130
    },
    {
      "epoch": 0.3232083333333333,
      "grad_norm": 0.7749910354614258,
      "learning_rate": 0.0002302241336886007,
      "loss": 3.858,
      "step": 155140
    },
    {
      "epoch": 0.3232291666666667,
      "grad_norm": 0.8265225291252136,
      "learning_rate": 0.00023021580341910894,
      "loss": 3.7554,
      "step": 155150
    },
    {
      "epoch": 0.32325,
      "grad_norm": 0.682218611240387,
      "learning_rate": 0.00023020747280311663,
      "loss": 3.7074,
      "step": 155160
    },
    {
      "epoch": 0.32327083333333334,
      "grad_norm": 0.7747548222541809,
      "learning_rate": 0.00023019914184065987,
      "loss": 3.891,
      "step": 155170
    },
    {
      "epoch": 0.32329166666666664,
      "grad_norm": 1.1255115270614624,
      "learning_rate": 0.0002301908105317745,
      "loss": 3.8714,
      "step": 155180
    },
    {
      "epoch": 0.3233125,
      "grad_norm": 0.9959270358085632,
      "learning_rate": 0.0002301824788764966,
      "loss": 4.0096,
      "step": 155190
    },
    {
      "epoch": 0.3233333333333333,
      "grad_norm": 0.7186164855957031,
      "learning_rate": 0.0002301741468748621,
      "loss": 3.9023,
      "step": 155200
    },
    {
      "epoch": 0.32335416666666666,
      "grad_norm": 0.8479706048965454,
      "learning_rate": 0.00023016581452690708,
      "loss": 3.9932,
      "step": 155210
    },
    {
      "epoch": 0.323375,
      "grad_norm": 0.6962795853614807,
      "learning_rate": 0.00023015748183266742,
      "loss": 3.9456,
      "step": 155220
    },
    {
      "epoch": 0.3233958333333333,
      "grad_norm": 0.8359986543655396,
      "learning_rate": 0.00023014914879217917,
      "loss": 3.714,
      "step": 155230
    },
    {
      "epoch": 0.3234166666666667,
      "grad_norm": 0.9041671752929688,
      "learning_rate": 0.00023014081540547834,
      "loss": 3.8242,
      "step": 155240
    },
    {
      "epoch": 0.3234375,
      "grad_norm": 0.7584578990936279,
      "learning_rate": 0.0002301324816726009,
      "loss": 3.8481,
      "step": 155250
    },
    {
      "epoch": 0.32345833333333335,
      "grad_norm": 0.7564696073532104,
      "learning_rate": 0.00023012414759358287,
      "loss": 3.7556,
      "step": 155260
    },
    {
      "epoch": 0.32347916666666665,
      "grad_norm": 0.7854893207550049,
      "learning_rate": 0.00023011581316846022,
      "loss": 3.8009,
      "step": 155270
    },
    {
      "epoch": 0.3235,
      "grad_norm": 0.7987484335899353,
      "learning_rate": 0.000230107478397269,
      "loss": 3.9588,
      "step": 155280
    },
    {
      "epoch": 0.3235208333333333,
      "grad_norm": 0.7110240459442139,
      "learning_rate": 0.0002300991432800451,
      "loss": 3.8575,
      "step": 155290
    },
    {
      "epoch": 0.32354166666666667,
      "grad_norm": 0.7976261377334595,
      "learning_rate": 0.00023009080781682468,
      "loss": 3.8066,
      "step": 155300
    },
    {
      "epoch": 0.3235625,
      "grad_norm": 0.7155866026878357,
      "learning_rate": 0.00023008247200764371,
      "loss": 3.6659,
      "step": 155310
    },
    {
      "epoch": 0.32358333333333333,
      "grad_norm": 0.8303860425949097,
      "learning_rate": 0.00023007413585253807,
      "loss": 3.9299,
      "step": 155320
    },
    {
      "epoch": 0.3236041666666667,
      "grad_norm": 0.9610325694084167,
      "learning_rate": 0.0002300657993515439,
      "loss": 3.67,
      "step": 155330
    },
    {
      "epoch": 0.323625,
      "grad_norm": 0.6373772025108337,
      "learning_rate": 0.00023005746250469718,
      "loss": 3.7479,
      "step": 155340
    },
    {
      "epoch": 0.32364583333333335,
      "grad_norm": 0.984666109085083,
      "learning_rate": 0.0002300491253120339,
      "loss": 3.8369,
      "step": 155350
    },
    {
      "epoch": 0.32366666666666666,
      "grad_norm": 1.0027732849121094,
      "learning_rate": 0.00023004078777359005,
      "loss": 3.9366,
      "step": 155360
    },
    {
      "epoch": 0.3236875,
      "grad_norm": 1.0187280178070068,
      "learning_rate": 0.00023003244988940174,
      "loss": 3.9123,
      "step": 155370
    },
    {
      "epoch": 0.3237083333333333,
      "grad_norm": 0.7349487543106079,
      "learning_rate": 0.0002300241116595049,
      "loss": 3.9001,
      "step": 155380
    },
    {
      "epoch": 0.3237291666666667,
      "grad_norm": 0.7910842895507812,
      "learning_rate": 0.00023001577308393557,
      "loss": 3.9096,
      "step": 155390
    },
    {
      "epoch": 0.32375,
      "grad_norm": 0.7328116297721863,
      "learning_rate": 0.00023000743416272978,
      "loss": 3.6521,
      "step": 155400
    },
    {
      "epoch": 0.32377083333333334,
      "grad_norm": 0.8548784255981445,
      "learning_rate": 0.00022999909489592352,
      "loss": 3.6837,
      "step": 155410
    },
    {
      "epoch": 0.32379166666666664,
      "grad_norm": 0.6522795557975769,
      "learning_rate": 0.00022999075528355286,
      "loss": 3.873,
      "step": 155420
    },
    {
      "epoch": 0.3238125,
      "grad_norm": 0.7671781182289124,
      "learning_rate": 0.00022998241532565377,
      "loss": 3.7912,
      "step": 155430
    },
    {
      "epoch": 0.3238333333333333,
      "grad_norm": 0.7675791382789612,
      "learning_rate": 0.00022997407502226233,
      "loss": 3.6495,
      "step": 155440
    },
    {
      "epoch": 0.32385416666666667,
      "grad_norm": 1.0607856512069702,
      "learning_rate": 0.00022996573437341453,
      "loss": 3.9236,
      "step": 155450
    },
    {
      "epoch": 0.323875,
      "grad_norm": 0.7617207169532776,
      "learning_rate": 0.0002299573933791464,
      "loss": 3.8314,
      "step": 155460
    },
    {
      "epoch": 0.3238958333333333,
      "grad_norm": 0.8022184371948242,
      "learning_rate": 0.00022994905203949401,
      "loss": 3.7935,
      "step": 155470
    },
    {
      "epoch": 0.3239166666666667,
      "grad_norm": 0.7541642785072327,
      "learning_rate": 0.0002299407103544934,
      "loss": 3.7669,
      "step": 155480
    },
    {
      "epoch": 0.3239375,
      "grad_norm": 0.8793721199035645,
      "learning_rate": 0.00022993236832418047,
      "loss": 3.7983,
      "step": 155490
    },
    {
      "epoch": 0.32395833333333335,
      "grad_norm": 0.8776484727859497,
      "learning_rate": 0.0002299240259485914,
      "loss": 3.86,
      "step": 155500
    },
    {
      "epoch": 0.32397916666666665,
      "grad_norm": 0.7586328387260437,
      "learning_rate": 0.00022991568322776218,
      "loss": 3.8493,
      "step": 155510
    },
    {
      "epoch": 0.324,
      "grad_norm": 0.7315371036529541,
      "learning_rate": 0.00022990734016172881,
      "loss": 3.9862,
      "step": 155520
    },
    {
      "epoch": 0.3240208333333333,
      "grad_norm": 0.776718020439148,
      "learning_rate": 0.00022989899675052733,
      "loss": 3.8344,
      "step": 155530
    },
    {
      "epoch": 0.3240416666666667,
      "grad_norm": 0.7491149306297302,
      "learning_rate": 0.00022989065299419388,
      "loss": 3.809,
      "step": 155540
    },
    {
      "epoch": 0.3240625,
      "grad_norm": 0.8040465712547302,
      "learning_rate": 0.0002298823088927644,
      "loss": 3.8139,
      "step": 155550
    },
    {
      "epoch": 0.32408333333333333,
      "grad_norm": 0.8563213348388672,
      "learning_rate": 0.00022987396444627497,
      "loss": 3.876,
      "step": 155560
    },
    {
      "epoch": 0.3241041666666667,
      "grad_norm": 0.6548251509666443,
      "learning_rate": 0.0002298656196547617,
      "loss": 3.8457,
      "step": 155570
    },
    {
      "epoch": 0.324125,
      "grad_norm": 0.7526715993881226,
      "learning_rate": 0.00022985727451826048,
      "loss": 3.9462,
      "step": 155580
    },
    {
      "epoch": 0.32414583333333336,
      "grad_norm": 0.8121998310089111,
      "learning_rate": 0.00022984892903680744,
      "loss": 4.0183,
      "step": 155590
    },
    {
      "epoch": 0.32416666666666666,
      "grad_norm": 0.7279778718948364,
      "learning_rate": 0.00022984058321043866,
      "loss": 3.7315,
      "step": 155600
    },
    {
      "epoch": 0.3241875,
      "grad_norm": 0.6594597697257996,
      "learning_rate": 0.00022983223703919016,
      "loss": 3.7541,
      "step": 155610
    },
    {
      "epoch": 0.3242083333333333,
      "grad_norm": 0.7825616002082825,
      "learning_rate": 0.000229823890523098,
      "loss": 3.7777,
      "step": 155620
    },
    {
      "epoch": 0.3242291666666667,
      "grad_norm": 0.8605616688728333,
      "learning_rate": 0.0002298155436621982,
      "loss": 3.6649,
      "step": 155630
    },
    {
      "epoch": 0.32425,
      "grad_norm": 0.8297064900398254,
      "learning_rate": 0.00022980719645652689,
      "loss": 3.9474,
      "step": 155640
    },
    {
      "epoch": 0.32427083333333334,
      "grad_norm": 0.9053365588188171,
      "learning_rate": 0.0002297988489061201,
      "loss": 3.7133,
      "step": 155650
    },
    {
      "epoch": 0.32429166666666664,
      "grad_norm": 0.7698391675949097,
      "learning_rate": 0.0002297905010110138,
      "loss": 3.8414,
      "step": 155660
    },
    {
      "epoch": 0.3243125,
      "grad_norm": 0.7946532368659973,
      "learning_rate": 0.00022978215277124413,
      "loss": 3.7692,
      "step": 155670
    },
    {
      "epoch": 0.3243333333333333,
      "grad_norm": 0.7861442565917969,
      "learning_rate": 0.0002297738041868472,
      "loss": 4.0171,
      "step": 155680
    },
    {
      "epoch": 0.32435416666666667,
      "grad_norm": 0.9394709467887878,
      "learning_rate": 0.00022976545525785897,
      "loss": 3.9226,
      "step": 155690
    },
    {
      "epoch": 0.324375,
      "grad_norm": 0.7998803853988647,
      "learning_rate": 0.00022975710598431554,
      "loss": 3.8833,
      "step": 155700
    },
    {
      "epoch": 0.3243958333333333,
      "grad_norm": 0.7372171878814697,
      "learning_rate": 0.00022974875636625302,
      "loss": 3.8381,
      "step": 155710
    },
    {
      "epoch": 0.3244166666666667,
      "grad_norm": 0.7556806802749634,
      "learning_rate": 0.0002297404064037074,
      "loss": 3.6341,
      "step": 155720
    },
    {
      "epoch": 0.3244375,
      "grad_norm": 0.8023063540458679,
      "learning_rate": 0.00022973205609671477,
      "loss": 3.7826,
      "step": 155730
    },
    {
      "epoch": 0.32445833333333335,
      "grad_norm": 0.9097335934638977,
      "learning_rate": 0.00022972370544531125,
      "loss": 3.8682,
      "step": 155740
    },
    {
      "epoch": 0.32447916666666665,
      "grad_norm": 0.7238011360168457,
      "learning_rate": 0.0002297153544495329,
      "loss": 3.828,
      "step": 155750
    },
    {
      "epoch": 0.3245,
      "grad_norm": 0.8131437301635742,
      "learning_rate": 0.00022970700310941572,
      "loss": 3.6889,
      "step": 155760
    },
    {
      "epoch": 0.3245208333333333,
      "grad_norm": 0.74420166015625,
      "learning_rate": 0.00022969865142499586,
      "loss": 3.7279,
      "step": 155770
    },
    {
      "epoch": 0.3245416666666667,
      "grad_norm": 0.8434045314788818,
      "learning_rate": 0.0002296902993963094,
      "loss": 3.7665,
      "step": 155780
    },
    {
      "epoch": 0.3245625,
      "grad_norm": 0.8162679076194763,
      "learning_rate": 0.00022968194702339238,
      "loss": 3.8235,
      "step": 155790
    },
    {
      "epoch": 0.32458333333333333,
      "grad_norm": 0.7402360439300537,
      "learning_rate": 0.00022967359430628087,
      "loss": 3.8456,
      "step": 155800
    },
    {
      "epoch": 0.3246041666666667,
      "grad_norm": 0.7202115058898926,
      "learning_rate": 0.00022966524124501094,
      "loss": 3.8355,
      "step": 155810
    },
    {
      "epoch": 0.324625,
      "grad_norm": 0.7395720481872559,
      "learning_rate": 0.00022965688783961878,
      "loss": 3.8545,
      "step": 155820
    },
    {
      "epoch": 0.32464583333333336,
      "grad_norm": 0.7183496952056885,
      "learning_rate": 0.0002296485340901403,
      "loss": 3.7626,
      "step": 155830
    },
    {
      "epoch": 0.32466666666666666,
      "grad_norm": 0.7979522347450256,
      "learning_rate": 0.00022964017999661175,
      "loss": 3.6717,
      "step": 155840
    },
    {
      "epoch": 0.3246875,
      "grad_norm": 0.8857649564743042,
      "learning_rate": 0.00022963182555906916,
      "loss": 3.8695,
      "step": 155850
    },
    {
      "epoch": 0.3247083333333333,
      "grad_norm": 0.8200036883354187,
      "learning_rate": 0.00022962347077754854,
      "loss": 3.7066,
      "step": 155860
    },
    {
      "epoch": 0.3247291666666667,
      "grad_norm": 0.7923847436904907,
      "learning_rate": 0.00022961511565208607,
      "loss": 3.9519,
      "step": 155870
    },
    {
      "epoch": 0.32475,
      "grad_norm": 0.7756210565567017,
      "learning_rate": 0.00022960676018271786,
      "loss": 3.8587,
      "step": 155880
    },
    {
      "epoch": 0.32477083333333334,
      "grad_norm": 0.7125493288040161,
      "learning_rate": 0.0002295984043694799,
      "loss": 3.8556,
      "step": 155890
    },
    {
      "epoch": 0.32479166666666665,
      "grad_norm": 0.8025141954421997,
      "learning_rate": 0.00022959004821240835,
      "loss": 3.5875,
      "step": 155900
    },
    {
      "epoch": 0.3248125,
      "grad_norm": 0.7637453675270081,
      "learning_rate": 0.00022958169171153933,
      "loss": 3.7723,
      "step": 155910
    },
    {
      "epoch": 0.3248333333333333,
      "grad_norm": 1.0625942945480347,
      "learning_rate": 0.00022957333486690887,
      "loss": 3.7587,
      "step": 155920
    },
    {
      "epoch": 0.32485416666666667,
      "grad_norm": 0.8248932361602783,
      "learning_rate": 0.00022956497767855308,
      "loss": 3.6261,
      "step": 155930
    },
    {
      "epoch": 0.324875,
      "grad_norm": 0.8094989061355591,
      "learning_rate": 0.00022955662014650813,
      "loss": 3.9858,
      "step": 155940
    },
    {
      "epoch": 0.32489583333333333,
      "grad_norm": 0.6711764335632324,
      "learning_rate": 0.00022954826227081004,
      "loss": 3.8796,
      "step": 155950
    },
    {
      "epoch": 0.3249166666666667,
      "grad_norm": 0.7927367687225342,
      "learning_rate": 0.00022953990405149495,
      "loss": 3.8173,
      "step": 155960
    },
    {
      "epoch": 0.3249375,
      "grad_norm": 0.8372851014137268,
      "learning_rate": 0.00022953154548859895,
      "loss": 3.8569,
      "step": 155970
    },
    {
      "epoch": 0.32495833333333335,
      "grad_norm": 0.7153267860412598,
      "learning_rate": 0.00022952318658215815,
      "loss": 3.9414,
      "step": 155980
    },
    {
      "epoch": 0.32497916666666665,
      "grad_norm": 1.18757164478302,
      "learning_rate": 0.00022951482733220868,
      "loss": 3.7324,
      "step": 155990
    },
    {
      "epoch": 0.325,
      "grad_norm": 0.7664785385131836,
      "learning_rate": 0.00022950646773878662,
      "loss": 3.7393,
      "step": 156000
    },
    {
      "epoch": 0.325,
      "eval_loss": 4.178890705108643,
      "eval_runtime": 8.4512,
      "eval_samples_per_second": 1.183,
      "eval_steps_per_second": 0.355,
      "step": 156000
    },
    {
      "epoch": 0.3250208333333333,
      "grad_norm": 0.8220098614692688,
      "learning_rate": 0.00022949810780192813,
      "loss": 3.8366,
      "step": 156010
    },
    {
      "epoch": 0.3250416666666667,
      "grad_norm": 0.8808428049087524,
      "learning_rate": 0.00022948974752166925,
      "loss": 3.8046,
      "step": 156020
    },
    {
      "epoch": 0.3250625,
      "grad_norm": 0.8057045340538025,
      "learning_rate": 0.0002294813868980461,
      "loss": 3.885,
      "step": 156030
    },
    {
      "epoch": 0.32508333333333334,
      "grad_norm": 0.7719152569770813,
      "learning_rate": 0.00022947302593109487,
      "loss": 3.7703,
      "step": 156040
    },
    {
      "epoch": 0.3251041666666667,
      "grad_norm": 0.767363429069519,
      "learning_rate": 0.0002294646646208516,
      "loss": 3.8561,
      "step": 156050
    },
    {
      "epoch": 0.325125,
      "grad_norm": 0.8921640515327454,
      "learning_rate": 0.0002294563029673524,
      "loss": 3.9828,
      "step": 156060
    },
    {
      "epoch": 0.32514583333333336,
      "grad_norm": 0.8905880451202393,
      "learning_rate": 0.00022944794097063347,
      "loss": 3.9826,
      "step": 156070
    },
    {
      "epoch": 0.32516666666666666,
      "grad_norm": 0.7185882925987244,
      "learning_rate": 0.00022943957863073088,
      "loss": 3.8327,
      "step": 156080
    },
    {
      "epoch": 0.3251875,
      "grad_norm": 0.8305610418319702,
      "learning_rate": 0.00022943121594768074,
      "loss": 3.7039,
      "step": 156090
    },
    {
      "epoch": 0.3252083333333333,
      "grad_norm": 0.7004119753837585,
      "learning_rate": 0.00022942285292151918,
      "loss": 3.8287,
      "step": 156100
    },
    {
      "epoch": 0.3252291666666667,
      "grad_norm": 0.8133630156517029,
      "learning_rate": 0.00022941448955228236,
      "loss": 3.8475,
      "step": 156110
    },
    {
      "epoch": 0.32525,
      "grad_norm": 0.6896514296531677,
      "learning_rate": 0.00022940612584000636,
      "loss": 3.7519,
      "step": 156120
    },
    {
      "epoch": 0.32527083333333334,
      "grad_norm": 0.8403642773628235,
      "learning_rate": 0.0002293977617847273,
      "loss": 3.8887,
      "step": 156130
    },
    {
      "epoch": 0.32529166666666665,
      "grad_norm": 0.7917779088020325,
      "learning_rate": 0.00022938939738648137,
      "loss": 3.8551,
      "step": 156140
    },
    {
      "epoch": 0.3253125,
      "grad_norm": 0.6851844787597656,
      "learning_rate": 0.0002293810326453047,
      "loss": 3.8711,
      "step": 156150
    },
    {
      "epoch": 0.3253333333333333,
      "grad_norm": 0.7322126030921936,
      "learning_rate": 0.00022937266756123333,
      "loss": 4.0471,
      "step": 156160
    },
    {
      "epoch": 0.32535416666666667,
      "grad_norm": 0.7041338086128235,
      "learning_rate": 0.00022936430213430346,
      "loss": 3.9232,
      "step": 156170
    },
    {
      "epoch": 0.325375,
      "grad_norm": 0.7247496843338013,
      "learning_rate": 0.0002293559363645513,
      "loss": 3.9286,
      "step": 156180
    },
    {
      "epoch": 0.32539583333333333,
      "grad_norm": 0.7209264039993286,
      "learning_rate": 0.0002293475702520128,
      "loss": 3.9308,
      "step": 156190
    },
    {
      "epoch": 0.3254166666666667,
      "grad_norm": 0.965668797492981,
      "learning_rate": 0.00022933920379672427,
      "loss": 3.7793,
      "step": 156200
    },
    {
      "epoch": 0.3254375,
      "grad_norm": 0.7378849983215332,
      "learning_rate": 0.00022933083699872177,
      "loss": 3.8386,
      "step": 156210
    },
    {
      "epoch": 0.32545833333333335,
      "grad_norm": 0.7434159517288208,
      "learning_rate": 0.00022932246985804146,
      "loss": 3.82,
      "step": 156220
    },
    {
      "epoch": 0.32547916666666665,
      "grad_norm": 0.7904157638549805,
      "learning_rate": 0.00022931410237471943,
      "loss": 3.9744,
      "step": 156230
    },
    {
      "epoch": 0.3255,
      "grad_norm": 0.8784237504005432,
      "learning_rate": 0.00022930573454879192,
      "loss": 3.9602,
      "step": 156240
    },
    {
      "epoch": 0.3255208333333333,
      "grad_norm": 0.8462828397750854,
      "learning_rate": 0.00022929736638029502,
      "loss": 3.7517,
      "step": 156250
    },
    {
      "epoch": 0.3255416666666667,
      "grad_norm": 0.7357795238494873,
      "learning_rate": 0.00022928899786926486,
      "loss": 3.8547,
      "step": 156260
    },
    {
      "epoch": 0.3255625,
      "grad_norm": 0.9372376799583435,
      "learning_rate": 0.00022928062901573766,
      "loss": 3.836,
      "step": 156270
    },
    {
      "epoch": 0.32558333333333334,
      "grad_norm": 0.973126232624054,
      "learning_rate": 0.0002292722598197495,
      "loss": 3.936,
      "step": 156280
    },
    {
      "epoch": 0.32560416666666664,
      "grad_norm": 0.7636737823486328,
      "learning_rate": 0.00022926389028133656,
      "loss": 3.7808,
      "step": 156290
    },
    {
      "epoch": 0.325625,
      "grad_norm": 0.7958846688270569,
      "learning_rate": 0.000229255520400535,
      "loss": 3.8057,
      "step": 156300
    },
    {
      "epoch": 0.32564583333333336,
      "grad_norm": 0.7539644241333008,
      "learning_rate": 0.00022924715017738092,
      "loss": 3.6723,
      "step": 156310
    },
    {
      "epoch": 0.32566666666666666,
      "grad_norm": 0.7303900718688965,
      "learning_rate": 0.00022923877961191058,
      "loss": 3.9195,
      "step": 156320
    },
    {
      "epoch": 0.3256875,
      "grad_norm": 0.8548832535743713,
      "learning_rate": 0.00022923040870416003,
      "loss": 3.7908,
      "step": 156330
    },
    {
      "epoch": 0.3257083333333333,
      "grad_norm": 0.7250054478645325,
      "learning_rate": 0.00022922203745416546,
      "loss": 3.7095,
      "step": 156340
    },
    {
      "epoch": 0.3257291666666667,
      "grad_norm": 0.8044642210006714,
      "learning_rate": 0.0002292136658619631,
      "loss": 3.7933,
      "step": 156350
    },
    {
      "epoch": 0.32575,
      "grad_norm": 0.6982085108757019,
      "learning_rate": 0.000229205293927589,
      "loss": 3.7096,
      "step": 156360
    },
    {
      "epoch": 0.32577083333333334,
      "grad_norm": 0.698945939540863,
      "learning_rate": 0.0002291969216510794,
      "loss": 3.8209,
      "step": 156370
    },
    {
      "epoch": 0.32579166666666665,
      "grad_norm": 0.8001167178153992,
      "learning_rate": 0.00022918854903247052,
      "loss": 3.7293,
      "step": 156380
    },
    {
      "epoch": 0.3258125,
      "grad_norm": 0.6853088736534119,
      "learning_rate": 0.0002291801760717984,
      "loss": 3.8676,
      "step": 156390
    },
    {
      "epoch": 0.3258333333333333,
      "grad_norm": 0.8387944102287292,
      "learning_rate": 0.00022917180276909923,
      "loss": 3.8263,
      "step": 156400
    },
    {
      "epoch": 0.32585416666666667,
      "grad_norm": 0.8625638484954834,
      "learning_rate": 0.0002291634291244093,
      "loss": 3.7558,
      "step": 156410
    },
    {
      "epoch": 0.325875,
      "grad_norm": 0.8446479439735413,
      "learning_rate": 0.00022915505513776456,
      "loss": 3.7531,
      "step": 156420
    },
    {
      "epoch": 0.32589583333333333,
      "grad_norm": 0.7349159717559814,
      "learning_rate": 0.00022914668080920136,
      "loss": 3.7545,
      "step": 156430
    },
    {
      "epoch": 0.3259166666666667,
      "grad_norm": 0.7145116329193115,
      "learning_rate": 0.00022913830613875593,
      "loss": 3.8554,
      "step": 156440
    },
    {
      "epoch": 0.3259375,
      "grad_norm": 0.7013213634490967,
      "learning_rate": 0.00022912993112646424,
      "loss": 3.9029,
      "step": 156450
    },
    {
      "epoch": 0.32595833333333335,
      "grad_norm": 0.7374207973480225,
      "learning_rate": 0.00022912155577236258,
      "loss": 3.7222,
      "step": 156460
    },
    {
      "epoch": 0.32597916666666665,
      "grad_norm": 0.7172343134880066,
      "learning_rate": 0.00022911318007648714,
      "loss": 3.8657,
      "step": 156470
    },
    {
      "epoch": 0.326,
      "grad_norm": 0.9356337189674377,
      "learning_rate": 0.00022910480403887408,
      "loss": 3.8112,
      "step": 156480
    },
    {
      "epoch": 0.3260208333333333,
      "grad_norm": 1.050479531288147,
      "learning_rate": 0.00022909642765955954,
      "loss": 3.8708,
      "step": 156490
    },
    {
      "epoch": 0.3260416666666667,
      "grad_norm": 0.8261741995811462,
      "learning_rate": 0.00022908805093857978,
      "loss": 3.6907,
      "step": 156500
    },
    {
      "epoch": 0.3260625,
      "grad_norm": 0.79188472032547,
      "learning_rate": 0.00022907967387597095,
      "loss": 3.9283,
      "step": 156510
    },
    {
      "epoch": 0.32608333333333334,
      "grad_norm": 0.7741091251373291,
      "learning_rate": 0.00022907129647176922,
      "loss": 3.7748,
      "step": 156520
    },
    {
      "epoch": 0.32610416666666664,
      "grad_norm": 0.832818865776062,
      "learning_rate": 0.00022906291872601075,
      "loss": 3.8708,
      "step": 156530
    },
    {
      "epoch": 0.326125,
      "grad_norm": 1.0573598146438599,
      "learning_rate": 0.0002290545406387318,
      "loss": 3.7298,
      "step": 156540
    },
    {
      "epoch": 0.32614583333333336,
      "grad_norm": 0.7312875986099243,
      "learning_rate": 0.00022904616220996858,
      "loss": 3.6525,
      "step": 156550
    },
    {
      "epoch": 0.32616666666666666,
      "grad_norm": 0.762768566608429,
      "learning_rate": 0.00022903778343975713,
      "loss": 3.7106,
      "step": 156560
    },
    {
      "epoch": 0.3261875,
      "grad_norm": 1.374955177307129,
      "learning_rate": 0.00022902940432813378,
      "loss": 3.906,
      "step": 156570
    },
    {
      "epoch": 0.3262083333333333,
      "grad_norm": 1.1318055391311646,
      "learning_rate": 0.00022902102487513468,
      "loss": 3.8381,
      "step": 156580
    },
    {
      "epoch": 0.3262291666666667,
      "grad_norm": 0.7456249594688416,
      "learning_rate": 0.00022901264508079605,
      "loss": 3.9114,
      "step": 156590
    },
    {
      "epoch": 0.32625,
      "grad_norm": 0.7577580809593201,
      "learning_rate": 0.00022900426494515405,
      "loss": 3.8245,
      "step": 156600
    },
    {
      "epoch": 0.32627083333333334,
      "grad_norm": 0.8596961498260498,
      "learning_rate": 0.0002289958844682449,
      "loss": 3.9425,
      "step": 156610
    },
    {
      "epoch": 0.32629166666666665,
      "grad_norm": 0.8488465547561646,
      "learning_rate": 0.0002289875036501048,
      "loss": 3.7152,
      "step": 156620
    },
    {
      "epoch": 0.3263125,
      "grad_norm": 0.9657338857650757,
      "learning_rate": 0.00022897912249076997,
      "loss": 3.9667,
      "step": 156630
    },
    {
      "epoch": 0.3263333333333333,
      "grad_norm": 0.8969016075134277,
      "learning_rate": 0.00022897074099027654,
      "loss": 3.8978,
      "step": 156640
    },
    {
      "epoch": 0.32635416666666667,
      "grad_norm": 0.8378893136978149,
      "learning_rate": 0.00022896235914866082,
      "loss": 3.8158,
      "step": 156650
    },
    {
      "epoch": 0.326375,
      "grad_norm": 1.1238796710968018,
      "learning_rate": 0.00022895397696595895,
      "loss": 3.8521,
      "step": 156660
    },
    {
      "epoch": 0.32639583333333333,
      "grad_norm": 0.7572041749954224,
      "learning_rate": 0.00022894559444220717,
      "loss": 3.8661,
      "step": 156670
    },
    {
      "epoch": 0.3264166666666667,
      "grad_norm": 0.8023470640182495,
      "learning_rate": 0.00022893721157744162,
      "loss": 3.8273,
      "step": 156680
    },
    {
      "epoch": 0.3264375,
      "grad_norm": 0.8076698184013367,
      "learning_rate": 0.00022892882837169862,
      "loss": 3.6677,
      "step": 156690
    },
    {
      "epoch": 0.32645833333333335,
      "grad_norm": 0.7613812685012817,
      "learning_rate": 0.00022892044482501428,
      "loss": 3.859,
      "step": 156700
    },
    {
      "epoch": 0.32647916666666665,
      "grad_norm": 0.7923550009727478,
      "learning_rate": 0.00022891206093742487,
      "loss": 3.9313,
      "step": 156710
    },
    {
      "epoch": 0.3265,
      "grad_norm": 0.732043981552124,
      "learning_rate": 0.00022890367670896664,
      "loss": 3.6194,
      "step": 156720
    },
    {
      "epoch": 0.3265208333333333,
      "grad_norm": 0.7438196539878845,
      "learning_rate": 0.00022889529213967563,
      "loss": 3.8894,
      "step": 156730
    },
    {
      "epoch": 0.3265416666666667,
      "grad_norm": 0.7555515170097351,
      "learning_rate": 0.0002288869072295883,
      "loss": 3.8287,
      "step": 156740
    },
    {
      "epoch": 0.3265625,
      "grad_norm": 0.7466070652008057,
      "learning_rate": 0.00022887852197874076,
      "loss": 3.7877,
      "step": 156750
    },
    {
      "epoch": 0.32658333333333334,
      "grad_norm": 0.741961658000946,
      "learning_rate": 0.0002288701363871692,
      "loss": 3.7896,
      "step": 156760
    },
    {
      "epoch": 0.32660416666666664,
      "grad_norm": 0.7155846953392029,
      "learning_rate": 0.00022886175045490985,
      "loss": 3.8018,
      "step": 156770
    },
    {
      "epoch": 0.326625,
      "grad_norm": 0.8234034180641174,
      "learning_rate": 0.00022885336418199896,
      "loss": 3.9066,
      "step": 156780
    },
    {
      "epoch": 0.32664583333333336,
      "grad_norm": 1.0257772207260132,
      "learning_rate": 0.00022884497756847275,
      "loss": 3.9613,
      "step": 156790
    },
    {
      "epoch": 0.32666666666666666,
      "grad_norm": 0.9103562235832214,
      "learning_rate": 0.00022883659061436747,
      "loss": 3.7136,
      "step": 156800
    },
    {
      "epoch": 0.3266875,
      "grad_norm": 0.6892718076705933,
      "learning_rate": 0.00022882820331971928,
      "loss": 3.8888,
      "step": 156810
    },
    {
      "epoch": 0.3267083333333333,
      "grad_norm": 0.7934428453445435,
      "learning_rate": 0.00022881981568456452,
      "loss": 3.7135,
      "step": 156820
    },
    {
      "epoch": 0.3267291666666667,
      "grad_norm": 0.8787355422973633,
      "learning_rate": 0.0002288114277089393,
      "loss": 3.6809,
      "step": 156830
    },
    {
      "epoch": 0.32675,
      "grad_norm": 0.7683100700378418,
      "learning_rate": 0.0002288030393928799,
      "loss": 3.665,
      "step": 156840
    },
    {
      "epoch": 0.32677083333333334,
      "grad_norm": 0.7222946882247925,
      "learning_rate": 0.0002287946507364226,
      "loss": 3.9398,
      "step": 156850
    },
    {
      "epoch": 0.32679166666666665,
      "grad_norm": 0.7214586138725281,
      "learning_rate": 0.0002287862617396036,
      "loss": 4.0697,
      "step": 156860
    },
    {
      "epoch": 0.3268125,
      "grad_norm": 0.7910532355308533,
      "learning_rate": 0.00022877787240245908,
      "loss": 3.8761,
      "step": 156870
    },
    {
      "epoch": 0.3268333333333333,
      "grad_norm": 0.8482856154441833,
      "learning_rate": 0.00022876948272502538,
      "loss": 4.0256,
      "step": 156880
    },
    {
      "epoch": 0.32685416666666667,
      "grad_norm": 0.726587176322937,
      "learning_rate": 0.0002287610927073387,
      "loss": 4.003,
      "step": 156890
    },
    {
      "epoch": 0.326875,
      "grad_norm": 0.7467594742774963,
      "learning_rate": 0.00022875270234943527,
      "loss": 3.7073,
      "step": 156900
    },
    {
      "epoch": 0.32689583333333333,
      "grad_norm": 0.865791380405426,
      "learning_rate": 0.0002287443116513513,
      "loss": 3.9286,
      "step": 156910
    },
    {
      "epoch": 0.3269166666666667,
      "grad_norm": 0.799872100353241,
      "learning_rate": 0.00022873592061312313,
      "loss": 3.9405,
      "step": 156920
    },
    {
      "epoch": 0.3269375,
      "grad_norm": 0.7677279710769653,
      "learning_rate": 0.0002287275292347869,
      "loss": 3.8692,
      "step": 156930
    },
    {
      "epoch": 0.32695833333333335,
      "grad_norm": 0.7812358736991882,
      "learning_rate": 0.00022871913751637898,
      "loss": 3.8405,
      "step": 156940
    },
    {
      "epoch": 0.32697916666666665,
      "grad_norm": 0.8756770491600037,
      "learning_rate": 0.00022871074545793548,
      "loss": 3.7372,
      "step": 156950
    },
    {
      "epoch": 0.327,
      "grad_norm": 0.7830341458320618,
      "learning_rate": 0.00022870235305949273,
      "loss": 3.8083,
      "step": 156960
    },
    {
      "epoch": 0.3270208333333333,
      "grad_norm": 0.8073312640190125,
      "learning_rate": 0.00022869396032108697,
      "loss": 3.814,
      "step": 156970
    },
    {
      "epoch": 0.3270416666666667,
      "grad_norm": 0.9762659072875977,
      "learning_rate": 0.00022868556724275443,
      "loss": 3.8181,
      "step": 156980
    },
    {
      "epoch": 0.3270625,
      "grad_norm": 0.7330611348152161,
      "learning_rate": 0.0002286771738245314,
      "loss": 3.7552,
      "step": 156990
    },
    {
      "epoch": 0.32708333333333334,
      "grad_norm": 1.0096839666366577,
      "learning_rate": 0.00022866878006645413,
      "loss": 3.8245,
      "step": 157000
    },
    {
      "epoch": 0.32708333333333334,
      "eval_loss": 4.194862365722656,
      "eval_runtime": 8.7173,
      "eval_samples_per_second": 1.147,
      "eval_steps_per_second": 0.344,
      "step": 157000
    },
    {
      "epoch": 0.32710416666666664,
      "grad_norm": 0.8232108950614929,
      "learning_rate": 0.00022866038596855887,
      "loss": 3.8547,
      "step": 157010
    },
    {
      "epoch": 0.327125,
      "grad_norm": 0.7541335225105286,
      "learning_rate": 0.00022865199153088186,
      "loss": 3.7167,
      "step": 157020
    },
    {
      "epoch": 0.32714583333333336,
      "grad_norm": 0.8172490000724792,
      "learning_rate": 0.0002286435967534594,
      "loss": 3.8118,
      "step": 157030
    },
    {
      "epoch": 0.32716666666666666,
      "grad_norm": 0.769751787185669,
      "learning_rate": 0.0002286352016363277,
      "loss": 3.8121,
      "step": 157040
    },
    {
      "epoch": 0.3271875,
      "grad_norm": 0.7719808220863342,
      "learning_rate": 0.0002286268061795231,
      "loss": 4.1333,
      "step": 157050
    },
    {
      "epoch": 0.3272083333333333,
      "grad_norm": 0.7559866905212402,
      "learning_rate": 0.00022861841038308175,
      "loss": 3.7468,
      "step": 157060
    },
    {
      "epoch": 0.3272291666666667,
      "grad_norm": 1.0202858448028564,
      "learning_rate": 0.00022861001424704007,
      "loss": 3.9507,
      "step": 157070
    },
    {
      "epoch": 0.32725,
      "grad_norm": 0.7103623747825623,
      "learning_rate": 0.0002286016177714342,
      "loss": 3.7255,
      "step": 157080
    },
    {
      "epoch": 0.32727083333333334,
      "grad_norm": 0.7576058506965637,
      "learning_rate": 0.00022859322095630046,
      "loss": 3.648,
      "step": 157090
    },
    {
      "epoch": 0.32729166666666665,
      "grad_norm": 0.7833324670791626,
      "learning_rate": 0.0002285848238016751,
      "loss": 3.7168,
      "step": 157100
    },
    {
      "epoch": 0.3273125,
      "grad_norm": 0.7467954158782959,
      "learning_rate": 0.00022857642630759445,
      "loss": 4.053,
      "step": 157110
    },
    {
      "epoch": 0.3273333333333333,
      "grad_norm": 0.7311802506446838,
      "learning_rate": 0.00022856802847409473,
      "loss": 3.9138,
      "step": 157120
    },
    {
      "epoch": 0.32735416666666667,
      "grad_norm": 0.8235139846801758,
      "learning_rate": 0.00022855963030121216,
      "loss": 3.6705,
      "step": 157130
    },
    {
      "epoch": 0.327375,
      "grad_norm": 0.8001640439033508,
      "learning_rate": 0.0002285512317889832,
      "loss": 3.7156,
      "step": 157140
    },
    {
      "epoch": 0.32739583333333333,
      "grad_norm": 0.8320102691650391,
      "learning_rate": 0.00022854283293744393,
      "loss": 3.8238,
      "step": 157150
    },
    {
      "epoch": 0.3274166666666667,
      "grad_norm": 0.7237622737884521,
      "learning_rate": 0.0002285344337466307,
      "loss": 3.9843,
      "step": 157160
    },
    {
      "epoch": 0.3274375,
      "grad_norm": 0.7584856152534485,
      "learning_rate": 0.00022852603421657987,
      "loss": 3.928,
      "step": 157170
    },
    {
      "epoch": 0.32745833333333335,
      "grad_norm": 0.8352116346359253,
      "learning_rate": 0.00022851763434732756,
      "loss": 3.9327,
      "step": 157180
    },
    {
      "epoch": 0.32747916666666665,
      "grad_norm": 0.8679806590080261,
      "learning_rate": 0.00022850923413891025,
      "loss": 3.9037,
      "step": 157190
    },
    {
      "epoch": 0.3275,
      "grad_norm": 1.0758196115493774,
      "learning_rate": 0.00022850083359136406,
      "loss": 3.7814,
      "step": 157200
    },
    {
      "epoch": 0.3275208333333333,
      "grad_norm": 0.748704731464386,
      "learning_rate": 0.00022849243270472536,
      "loss": 3.8609,
      "step": 157210
    },
    {
      "epoch": 0.3275416666666667,
      "grad_norm": 0.7612084746360779,
      "learning_rate": 0.00022848403147903045,
      "loss": 3.8164,
      "step": 157220
    },
    {
      "epoch": 0.3275625,
      "grad_norm": 0.6565508246421814,
      "learning_rate": 0.00022847562991431554,
      "loss": 3.9739,
      "step": 157230
    },
    {
      "epoch": 0.32758333333333334,
      "grad_norm": 0.6771829724311829,
      "learning_rate": 0.00022846722801061697,
      "loss": 3.9076,
      "step": 157240
    },
    {
      "epoch": 0.32760416666666664,
      "grad_norm": 0.7843472361564636,
      "learning_rate": 0.00022845882576797108,
      "loss": 3.6481,
      "step": 157250
    },
    {
      "epoch": 0.327625,
      "grad_norm": 0.7340884208679199,
      "learning_rate": 0.00022845042318641408,
      "loss": 3.7394,
      "step": 157260
    },
    {
      "epoch": 0.32764583333333336,
      "grad_norm": 0.7742080092430115,
      "learning_rate": 0.0002284420202659823,
      "loss": 4.0205,
      "step": 157270
    },
    {
      "epoch": 0.32766666666666666,
      "grad_norm": 0.8078639507293701,
      "learning_rate": 0.00022843361700671208,
      "loss": 3.8334,
      "step": 157280
    },
    {
      "epoch": 0.3276875,
      "grad_norm": 0.7970102429389954,
      "learning_rate": 0.00022842521340863967,
      "loss": 3.8262,
      "step": 157290
    },
    {
      "epoch": 0.3277083333333333,
      "grad_norm": 0.7174550890922546,
      "learning_rate": 0.00022841680947180136,
      "loss": 3.6996,
      "step": 157300
    },
    {
      "epoch": 0.3277291666666667,
      "grad_norm": 0.7705850005149841,
      "learning_rate": 0.00022840840519623349,
      "loss": 3.8169,
      "step": 157310
    },
    {
      "epoch": 0.32775,
      "grad_norm": 0.7988361120223999,
      "learning_rate": 0.00022840000058197235,
      "loss": 3.6847,
      "step": 157320
    },
    {
      "epoch": 0.32777083333333334,
      "grad_norm": 0.6923786997795105,
      "learning_rate": 0.00022839159562905423,
      "loss": 3.9445,
      "step": 157330
    },
    {
      "epoch": 0.32779166666666665,
      "grad_norm": 0.7901926040649414,
      "learning_rate": 0.00022838319033751544,
      "loss": 3.7654,
      "step": 157340
    },
    {
      "epoch": 0.3278125,
      "grad_norm": 0.7333616018295288,
      "learning_rate": 0.0002283747847073923,
      "loss": 3.7938,
      "step": 157350
    },
    {
      "epoch": 0.3278333333333333,
      "grad_norm": 0.799114465713501,
      "learning_rate": 0.00022836637873872113,
      "loss": 3.828,
      "step": 157360
    },
    {
      "epoch": 0.32785416666666667,
      "grad_norm": 0.8066631555557251,
      "learning_rate": 0.00022835797243153823,
      "loss": 3.8178,
      "step": 157370
    },
    {
      "epoch": 0.327875,
      "grad_norm": 0.6580485105514526,
      "learning_rate": 0.00022834956578587985,
      "loss": 3.848,
      "step": 157380
    },
    {
      "epoch": 0.32789583333333333,
      "grad_norm": 0.7599166631698608,
      "learning_rate": 0.00022834115880178242,
      "loss": 3.7208,
      "step": 157390
    },
    {
      "epoch": 0.3279166666666667,
      "grad_norm": 0.7816999554634094,
      "learning_rate": 0.00022833275147928216,
      "loss": 3.7828,
      "step": 157400
    },
    {
      "epoch": 0.3279375,
      "grad_norm": 0.8108937740325928,
      "learning_rate": 0.0002283243438184154,
      "loss": 3.7376,
      "step": 157410
    },
    {
      "epoch": 0.32795833333333335,
      "grad_norm": 0.9049193859100342,
      "learning_rate": 0.00022831593581921857,
      "loss": 3.9417,
      "step": 157420
    },
    {
      "epoch": 0.32797916666666665,
      "grad_norm": 0.7019798159599304,
      "learning_rate": 0.00022830752748172775,
      "loss": 3.8612,
      "step": 157430
    },
    {
      "epoch": 0.328,
      "grad_norm": 0.7980868220329285,
      "learning_rate": 0.00022829911880597954,
      "loss": 4.0276,
      "step": 157440
    },
    {
      "epoch": 0.3280208333333333,
      "grad_norm": 0.6817210912704468,
      "learning_rate": 0.00022829070979201005,
      "loss": 3.7462,
      "step": 157450
    },
    {
      "epoch": 0.3280416666666667,
      "grad_norm": 0.7098405957221985,
      "learning_rate": 0.00022828230043985573,
      "loss": 3.6531,
      "step": 157460
    },
    {
      "epoch": 0.3280625,
      "grad_norm": 0.9349257349967957,
      "learning_rate": 0.00022827389074955281,
      "loss": 3.7752,
      "step": 157470
    },
    {
      "epoch": 0.32808333333333334,
      "grad_norm": 0.7474993467330933,
      "learning_rate": 0.0002282654807211377,
      "loss": 3.6625,
      "step": 157480
    },
    {
      "epoch": 0.32810416666666664,
      "grad_norm": 0.7846096158027649,
      "learning_rate": 0.00022825707035464672,
      "loss": 3.8832,
      "step": 157490
    },
    {
      "epoch": 0.328125,
      "grad_norm": 0.7622809410095215,
      "learning_rate": 0.00022824865965011615,
      "loss": 3.7444,
      "step": 157500
    },
    {
      "epoch": 0.32814583333333336,
      "grad_norm": 0.8112476468086243,
      "learning_rate": 0.0002282402486075823,
      "loss": 3.9244,
      "step": 157510
    },
    {
      "epoch": 0.32816666666666666,
      "grad_norm": 0.8278497457504272,
      "learning_rate": 0.0002282318372270816,
      "loss": 3.9072,
      "step": 157520
    },
    {
      "epoch": 0.3281875,
      "grad_norm": 0.6977778673171997,
      "learning_rate": 0.0002282234255086503,
      "loss": 3.7953,
      "step": 157530
    },
    {
      "epoch": 0.3282083333333333,
      "grad_norm": 0.7401906251907349,
      "learning_rate": 0.00022821501345232477,
      "loss": 3.8108,
      "step": 157540
    },
    {
      "epoch": 0.3282291666666667,
      "grad_norm": 0.834480881690979,
      "learning_rate": 0.00022820660105814133,
      "loss": 3.7692,
      "step": 157550
    },
    {
      "epoch": 0.32825,
      "grad_norm": 0.8048372268676758,
      "learning_rate": 0.00022819818832613636,
      "loss": 3.9264,
      "step": 157560
    },
    {
      "epoch": 0.32827083333333335,
      "grad_norm": 0.9746224284172058,
      "learning_rate": 0.00022818977525634613,
      "loss": 3.8194,
      "step": 157570
    },
    {
      "epoch": 0.32829166666666665,
      "grad_norm": 0.7898115515708923,
      "learning_rate": 0.00022818136184880706,
      "loss": 3.8994,
      "step": 157580
    },
    {
      "epoch": 0.3283125,
      "grad_norm": 0.9515132904052734,
      "learning_rate": 0.00022817294810355545,
      "loss": 3.974,
      "step": 157590
    },
    {
      "epoch": 0.3283333333333333,
      "grad_norm": 0.7412021160125732,
      "learning_rate": 0.0002281645340206276,
      "loss": 3.8142,
      "step": 157600
    },
    {
      "epoch": 0.32835416666666667,
      "grad_norm": 0.8051896691322327,
      "learning_rate": 0.00022815611960005997,
      "loss": 3.8865,
      "step": 157610
    },
    {
      "epoch": 0.328375,
      "grad_norm": 0.812701404094696,
      "learning_rate": 0.0002281477048418888,
      "loss": 3.9661,
      "step": 157620
    },
    {
      "epoch": 0.32839583333333333,
      "grad_norm": 0.7143285274505615,
      "learning_rate": 0.00022813928974615047,
      "loss": 3.8808,
      "step": 157630
    },
    {
      "epoch": 0.3284166666666667,
      "grad_norm": 0.7381819486618042,
      "learning_rate": 0.0002281308743128814,
      "loss": 3.8941,
      "step": 157640
    },
    {
      "epoch": 0.3284375,
      "grad_norm": 0.7300456166267395,
      "learning_rate": 0.0002281224585421178,
      "loss": 3.7934,
      "step": 157650
    },
    {
      "epoch": 0.32845833333333335,
      "grad_norm": 0.7437449097633362,
      "learning_rate": 0.00022811404243389612,
      "loss": 3.8175,
      "step": 157660
    },
    {
      "epoch": 0.32847916666666666,
      "grad_norm": 0.9497805237770081,
      "learning_rate": 0.00022810562598825273,
      "loss": 3.8245,
      "step": 157670
    },
    {
      "epoch": 0.3285,
      "grad_norm": 0.713802695274353,
      "learning_rate": 0.00022809720920522394,
      "loss": 3.8525,
      "step": 157680
    },
    {
      "epoch": 0.3285208333333333,
      "grad_norm": 0.8614936470985413,
      "learning_rate": 0.0002280887920848461,
      "loss": 3.9036,
      "step": 157690
    },
    {
      "epoch": 0.3285416666666667,
      "grad_norm": 0.7978056073188782,
      "learning_rate": 0.0002280803746271556,
      "loss": 3.868,
      "step": 157700
    },
    {
      "epoch": 0.3285625,
      "grad_norm": 0.6901752948760986,
      "learning_rate": 0.0002280719568321888,
      "loss": 3.8152,
      "step": 157710
    },
    {
      "epoch": 0.32858333333333334,
      "grad_norm": 1.0191644430160522,
      "learning_rate": 0.00022806353869998203,
      "loss": 3.8215,
      "step": 157720
    },
    {
      "epoch": 0.32860416666666664,
      "grad_norm": 0.8701308965682983,
      "learning_rate": 0.00022805512023057168,
      "loss": 3.745,
      "step": 157730
    },
    {
      "epoch": 0.328625,
      "grad_norm": 0.7807486653327942,
      "learning_rate": 0.00022804670142399411,
      "loss": 3.8822,
      "step": 157740
    },
    {
      "epoch": 0.32864583333333336,
      "grad_norm": 0.7742911577224731,
      "learning_rate": 0.00022803828228028567,
      "loss": 3.7373,
      "step": 157750
    },
    {
      "epoch": 0.32866666666666666,
      "grad_norm": 0.7219805121421814,
      "learning_rate": 0.00022802986279948277,
      "loss": 3.8247,
      "step": 157760
    },
    {
      "epoch": 0.3286875,
      "grad_norm": 0.7980557680130005,
      "learning_rate": 0.0002280214429816217,
      "loss": 3.7779,
      "step": 157770
    },
    {
      "epoch": 0.3287083333333333,
      "grad_norm": 0.9057964086532593,
      "learning_rate": 0.00022801302282673898,
      "loss": 3.9092,
      "step": 157780
    },
    {
      "epoch": 0.3287291666666667,
      "grad_norm": 0.7573822736740112,
      "learning_rate": 0.00022800460233487078,
      "loss": 3.673,
      "step": 157790
    },
    {
      "epoch": 0.32875,
      "grad_norm": 0.8553429245948792,
      "learning_rate": 0.00022799618150605354,
      "loss": 3.8442,
      "step": 157800
    },
    {
      "epoch": 0.32877083333333335,
      "grad_norm": 0.900812029838562,
      "learning_rate": 0.0002279877603403238,
      "loss": 3.8241,
      "step": 157810
    },
    {
      "epoch": 0.32879166666666665,
      "grad_norm": 0.7371767163276672,
      "learning_rate": 0.00022797933883771774,
      "loss": 3.875,
      "step": 157820
    },
    {
      "epoch": 0.3288125,
      "grad_norm": 0.6985778212547302,
      "learning_rate": 0.00022797091699827178,
      "loss": 3.8752,
      "step": 157830
    },
    {
      "epoch": 0.3288333333333333,
      "grad_norm": 0.7231709957122803,
      "learning_rate": 0.00022796249482202237,
      "loss": 3.6184,
      "step": 157840
    },
    {
      "epoch": 0.32885416666666667,
      "grad_norm": 1.0070836544036865,
      "learning_rate": 0.0002279540723090058,
      "loss": 3.895,
      "step": 157850
    },
    {
      "epoch": 0.328875,
      "grad_norm": 0.8322901725769043,
      "learning_rate": 0.0002279456494592585,
      "loss": 3.8058,
      "step": 157860
    },
    {
      "epoch": 0.32889583333333333,
      "grad_norm": 0.6930994987487793,
      "learning_rate": 0.00022793722627281686,
      "loss": 3.9311,
      "step": 157870
    },
    {
      "epoch": 0.3289166666666667,
      "grad_norm": 0.7431695461273193,
      "learning_rate": 0.00022792880274971722,
      "loss": 3.921,
      "step": 157880
    },
    {
      "epoch": 0.3289375,
      "grad_norm": 0.7613928318023682,
      "learning_rate": 0.00022792037888999604,
      "loss": 3.7627,
      "step": 157890
    },
    {
      "epoch": 0.32895833333333335,
      "grad_norm": 0.9237908720970154,
      "learning_rate": 0.00022791195469368963,
      "loss": 3.8348,
      "step": 157900
    },
    {
      "epoch": 0.32897916666666666,
      "grad_norm": 0.7728205323219299,
      "learning_rate": 0.00022790353016083445,
      "loss": 3.7584,
      "step": 157910
    },
    {
      "epoch": 0.329,
      "grad_norm": 0.7735334634780884,
      "learning_rate": 0.00022789510529146683,
      "loss": 4.0088,
      "step": 157920
    },
    {
      "epoch": 0.3290208333333333,
      "grad_norm": 0.7787448167800903,
      "learning_rate": 0.0002278866800856232,
      "loss": 3.7872,
      "step": 157930
    },
    {
      "epoch": 0.3290416666666667,
      "grad_norm": 0.7608844041824341,
      "learning_rate": 0.00022787825454333995,
      "loss": 3.7419,
      "step": 157940
    },
    {
      "epoch": 0.3290625,
      "grad_norm": 0.7528027296066284,
      "learning_rate": 0.00022786982866465348,
      "loss": 3.8456,
      "step": 157950
    },
    {
      "epoch": 0.32908333333333334,
      "grad_norm": 0.7720291614532471,
      "learning_rate": 0.0002278614024496002,
      "loss": 3.9713,
      "step": 157960
    },
    {
      "epoch": 0.32910416666666664,
      "grad_norm": 0.7385703325271606,
      "learning_rate": 0.0002278529758982164,
      "loss": 3.7612,
      "step": 157970
    },
    {
      "epoch": 0.329125,
      "grad_norm": 0.7719047665596008,
      "learning_rate": 0.00022784454901053858,
      "loss": 3.8694,
      "step": 157980
    },
    {
      "epoch": 0.32914583333333336,
      "grad_norm": 0.7268472909927368,
      "learning_rate": 0.0002278361217866032,
      "loss": 3.9162,
      "step": 157990
    },
    {
      "epoch": 0.32916666666666666,
      "grad_norm": 0.7658431529998779,
      "learning_rate": 0.00022782769422644646,
      "loss": 3.7302,
      "step": 158000
    },
    {
      "epoch": 0.32916666666666666,
      "eval_loss": 4.200841426849365,
      "eval_runtime": 8.4561,
      "eval_samples_per_second": 1.183,
      "eval_steps_per_second": 0.355,
      "step": 158000
    },
    {
      "epoch": 0.3291875,
      "grad_norm": 0.8479757308959961,
      "learning_rate": 0.00022781926633010498,
      "loss": 3.8593,
      "step": 158010
    },
    {
      "epoch": 0.3292083333333333,
      "grad_norm": 0.7003178000450134,
      "learning_rate": 0.00022781083809761502,
      "loss": 3.5592,
      "step": 158020
    },
    {
      "epoch": 0.3292291666666667,
      "grad_norm": 0.794766366481781,
      "learning_rate": 0.00022780240952901306,
      "loss": 3.9299,
      "step": 158030
    },
    {
      "epoch": 0.32925,
      "grad_norm": 0.6618536710739136,
      "learning_rate": 0.00022779398062433548,
      "loss": 3.7474,
      "step": 158040
    },
    {
      "epoch": 0.32927083333333335,
      "grad_norm": 0.7804294228553772,
      "learning_rate": 0.0002277855513836187,
      "loss": 3.7954,
      "step": 158050
    },
    {
      "epoch": 0.32929166666666665,
      "grad_norm": 0.7527028322219849,
      "learning_rate": 0.00022777712180689915,
      "loss": 3.7977,
      "step": 158060
    },
    {
      "epoch": 0.3293125,
      "grad_norm": 0.6689526438713074,
      "learning_rate": 0.0002277686918942132,
      "loss": 3.9264,
      "step": 158070
    },
    {
      "epoch": 0.3293333333333333,
      "grad_norm": 0.7582240104675293,
      "learning_rate": 0.00022776026164559725,
      "loss": 3.7123,
      "step": 158080
    },
    {
      "epoch": 0.32935416666666667,
      "grad_norm": 0.8215357065200806,
      "learning_rate": 0.00022775183106108783,
      "loss": 3.6181,
      "step": 158090
    },
    {
      "epoch": 0.329375,
      "grad_norm": 0.7200307250022888,
      "learning_rate": 0.00022774340014072118,
      "loss": 3.8613,
      "step": 158100
    },
    {
      "epoch": 0.32939583333333333,
      "grad_norm": 0.6808297038078308,
      "learning_rate": 0.00022773496888453388,
      "loss": 4.1097,
      "step": 158110
    },
    {
      "epoch": 0.3294166666666667,
      "grad_norm": 0.7668976783752441,
      "learning_rate": 0.00022772653729256228,
      "loss": 3.8899,
      "step": 158120
    },
    {
      "epoch": 0.3294375,
      "grad_norm": 0.7449411153793335,
      "learning_rate": 0.0002277181053648428,
      "loss": 3.7471,
      "step": 158130
    },
    {
      "epoch": 0.32945833333333335,
      "grad_norm": 0.7400996685028076,
      "learning_rate": 0.0002277096731014118,
      "loss": 3.8241,
      "step": 158140
    },
    {
      "epoch": 0.32947916666666666,
      "grad_norm": 0.7139167189598083,
      "learning_rate": 0.0002277012405023059,
      "loss": 3.9327,
      "step": 158150
    },
    {
      "epoch": 0.3295,
      "grad_norm": 0.6831163167953491,
      "learning_rate": 0.0002276928075675613,
      "loss": 3.818,
      "step": 158160
    },
    {
      "epoch": 0.3295208333333333,
      "grad_norm": 0.8504310846328735,
      "learning_rate": 0.00022768437429721453,
      "loss": 3.8638,
      "step": 158170
    },
    {
      "epoch": 0.3295416666666667,
      "grad_norm": 0.729062020778656,
      "learning_rate": 0.0002276759406913021,
      "loss": 3.8993,
      "step": 158180
    },
    {
      "epoch": 0.3295625,
      "grad_norm": 0.8379221558570862,
      "learning_rate": 0.00022766750674986028,
      "loss": 3.9258,
      "step": 158190
    },
    {
      "epoch": 0.32958333333333334,
      "grad_norm": 0.8028610944747925,
      "learning_rate": 0.00022765907247292554,
      "loss": 3.9191,
      "step": 158200
    },
    {
      "epoch": 0.32960416666666664,
      "grad_norm": 0.7361453771591187,
      "learning_rate": 0.00022765063786053442,
      "loss": 3.9495,
      "step": 158210
    },
    {
      "epoch": 0.329625,
      "grad_norm": 0.6552881002426147,
      "learning_rate": 0.00022764220291272326,
      "loss": 3.5636,
      "step": 158220
    },
    {
      "epoch": 0.32964583333333336,
      "grad_norm": 0.7653718590736389,
      "learning_rate": 0.00022763376762952853,
      "loss": 3.8572,
      "step": 158230
    },
    {
      "epoch": 0.32966666666666666,
      "grad_norm": 0.8674091696739197,
      "learning_rate": 0.0002276253320109866,
      "loss": 3.8383,
      "step": 158240
    },
    {
      "epoch": 0.3296875,
      "grad_norm": 0.8176968097686768,
      "learning_rate": 0.000227616896057134,
      "loss": 3.7835,
      "step": 158250
    },
    {
      "epoch": 0.3297083333333333,
      "grad_norm": 0.7174755334854126,
      "learning_rate": 0.0002276084597680071,
      "loss": 3.9929,
      "step": 158260
    },
    {
      "epoch": 0.3297291666666667,
      "grad_norm": 0.8792577385902405,
      "learning_rate": 0.00022760002314364244,
      "loss": 3.9142,
      "step": 158270
    },
    {
      "epoch": 0.32975,
      "grad_norm": 0.7783543467521667,
      "learning_rate": 0.00022759158618407632,
      "loss": 3.7824,
      "step": 158280
    },
    {
      "epoch": 0.32977083333333335,
      "grad_norm": 1.005466103553772,
      "learning_rate": 0.00022758314888934533,
      "loss": 3.9421,
      "step": 158290
    },
    {
      "epoch": 0.32979166666666665,
      "grad_norm": 0.739733874797821,
      "learning_rate": 0.00022757471125948577,
      "loss": 3.859,
      "step": 158300
    },
    {
      "epoch": 0.3298125,
      "grad_norm": 0.7136476635932922,
      "learning_rate": 0.0002275662732945342,
      "loss": 3.7231,
      "step": 158310
    },
    {
      "epoch": 0.3298333333333333,
      "grad_norm": 0.9485301971435547,
      "learning_rate": 0.00022755783499452706,
      "loss": 3.9481,
      "step": 158320
    },
    {
      "epoch": 0.32985416666666667,
      "grad_norm": 0.8331278562545776,
      "learning_rate": 0.0002275493963595008,
      "loss": 3.8319,
      "step": 158330
    },
    {
      "epoch": 0.329875,
      "grad_norm": 0.712792158126831,
      "learning_rate": 0.00022754095738949172,
      "loss": 3.6252,
      "step": 158340
    },
    {
      "epoch": 0.32989583333333333,
      "grad_norm": 0.7341597080230713,
      "learning_rate": 0.00022753251808453652,
      "loss": 3.8424,
      "step": 158350
    },
    {
      "epoch": 0.3299166666666667,
      "grad_norm": 0.7056203484535217,
      "learning_rate": 0.0002275240784446715,
      "loss": 3.7777,
      "step": 158360
    },
    {
      "epoch": 0.3299375,
      "grad_norm": 0.7457165122032166,
      "learning_rate": 0.00022751563846993308,
      "loss": 3.6796,
      "step": 158370
    },
    {
      "epoch": 0.32995833333333335,
      "grad_norm": 0.6823918223381042,
      "learning_rate": 0.00022750719816035784,
      "loss": 3.7226,
      "step": 158380
    },
    {
      "epoch": 0.32997916666666666,
      "grad_norm": 0.755374014377594,
      "learning_rate": 0.00022749875751598217,
      "loss": 3.7266,
      "step": 158390
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8422032594680786,
      "learning_rate": 0.0002274903165368426,
      "loss": 3.8785,
      "step": 158400
    },
    {
      "epoch": 0.3300208333333333,
      "grad_norm": 0.6643351912498474,
      "learning_rate": 0.00022748187522297545,
      "loss": 3.8038,
      "step": 158410
    },
    {
      "epoch": 0.3300416666666667,
      "grad_norm": 0.8231069445610046,
      "learning_rate": 0.0002274734335744173,
      "loss": 3.9038,
      "step": 158420
    },
    {
      "epoch": 0.3300625,
      "grad_norm": 0.8173336386680603,
      "learning_rate": 0.00022746499159120458,
      "loss": 3.9038,
      "step": 158430
    },
    {
      "epoch": 0.33008333333333334,
      "grad_norm": 0.8611778616905212,
      "learning_rate": 0.00022745654927337376,
      "loss": 3.7753,
      "step": 158440
    },
    {
      "epoch": 0.33010416666666664,
      "grad_norm": 0.7307202219963074,
      "learning_rate": 0.00022744810662096132,
      "loss": 3.6936,
      "step": 158450
    },
    {
      "epoch": 0.330125,
      "grad_norm": 0.8216792941093445,
      "learning_rate": 0.00022743966363400372,
      "loss": 3.7666,
      "step": 158460
    },
    {
      "epoch": 0.33014583333333336,
      "grad_norm": 0.6967374682426453,
      "learning_rate": 0.0002274312203125374,
      "loss": 3.9307,
      "step": 158470
    },
    {
      "epoch": 0.33016666666666666,
      "grad_norm": 0.7994893193244934,
      "learning_rate": 0.0002274227766565989,
      "loss": 3.6836,
      "step": 158480
    },
    {
      "epoch": 0.3301875,
      "grad_norm": 0.7202835083007812,
      "learning_rate": 0.00022741433266622465,
      "loss": 3.7861,
      "step": 158490
    },
    {
      "epoch": 0.3302083333333333,
      "grad_norm": 0.7212161421775818,
      "learning_rate": 0.000227405888341451,
      "loss": 3.8228,
      "step": 158500
    },
    {
      "epoch": 0.3302291666666667,
      "grad_norm": 0.8996055126190186,
      "learning_rate": 0.0002273974436823147,
      "loss": 3.8684,
      "step": 158510
    },
    {
      "epoch": 0.33025,
      "grad_norm": 0.858255922794342,
      "learning_rate": 0.00022738899868885205,
      "loss": 3.7304,
      "step": 158520
    },
    {
      "epoch": 0.33027083333333335,
      "grad_norm": 0.8226046562194824,
      "learning_rate": 0.00022738055336109952,
      "loss": 3.9873,
      "step": 158530
    },
    {
      "epoch": 0.33029166666666665,
      "grad_norm": 0.8262126445770264,
      "learning_rate": 0.00022737210769909364,
      "loss": 3.9355,
      "step": 158540
    },
    {
      "epoch": 0.3303125,
      "grad_norm": 0.9242395162582397,
      "learning_rate": 0.0002273636617028709,
      "loss": 3.9827,
      "step": 158550
    },
    {
      "epoch": 0.3303333333333333,
      "grad_norm": 0.7697421312332153,
      "learning_rate": 0.00022735521537246774,
      "loss": 3.8428,
      "step": 158560
    },
    {
      "epoch": 0.33035416666666667,
      "grad_norm": 0.8321216702461243,
      "learning_rate": 0.00022734676870792068,
      "loss": 3.7559,
      "step": 158570
    },
    {
      "epoch": 0.330375,
      "grad_norm": 0.7906985282897949,
      "learning_rate": 0.0002273383217092662,
      "loss": 3.7902,
      "step": 158580
    },
    {
      "epoch": 0.33039583333333333,
      "grad_norm": 0.7753366827964783,
      "learning_rate": 0.00022732987437654078,
      "loss": 3.9374,
      "step": 158590
    },
    {
      "epoch": 0.3304166666666667,
      "grad_norm": 0.8622934818267822,
      "learning_rate": 0.0002273214267097809,
      "loss": 3.9969,
      "step": 158600
    },
    {
      "epoch": 0.3304375,
      "grad_norm": 0.7228686213493347,
      "learning_rate": 0.0002273129787090231,
      "loss": 3.8036,
      "step": 158610
    },
    {
      "epoch": 0.33045833333333335,
      "grad_norm": 0.8194852471351624,
      "learning_rate": 0.0002273045303743038,
      "loss": 3.8673,
      "step": 158620
    },
    {
      "epoch": 0.33047916666666666,
      "grad_norm": 0.7106889486312866,
      "learning_rate": 0.00022729608170565953,
      "loss": 3.7293,
      "step": 158630
    },
    {
      "epoch": 0.3305,
      "grad_norm": 0.7127537131309509,
      "learning_rate": 0.0002272876327031268,
      "loss": 3.7531,
      "step": 158640
    },
    {
      "epoch": 0.3305208333333333,
      "grad_norm": 0.8042583465576172,
      "learning_rate": 0.00022727918336674205,
      "loss": 3.9151,
      "step": 158650
    },
    {
      "epoch": 0.3305416666666667,
      "grad_norm": 0.7372511625289917,
      "learning_rate": 0.00022727073369654187,
      "loss": 3.6664,
      "step": 158660
    },
    {
      "epoch": 0.3305625,
      "grad_norm": 0.7669262290000916,
      "learning_rate": 0.00022726228369256265,
      "loss": 3.9271,
      "step": 158670
    },
    {
      "epoch": 0.33058333333333334,
      "grad_norm": 0.9896911382675171,
      "learning_rate": 0.00022725383335484101,
      "loss": 3.7315,
      "step": 158680
    },
    {
      "epoch": 0.33060416666666664,
      "grad_norm": 0.7816659808158875,
      "learning_rate": 0.00022724538268341336,
      "loss": 3.8887,
      "step": 158690
    },
    {
      "epoch": 0.330625,
      "grad_norm": 0.7789138555526733,
      "learning_rate": 0.0002272369316783162,
      "loss": 3.9503,
      "step": 158700
    },
    {
      "epoch": 0.33064583333333336,
      "grad_norm": 0.8513487577438354,
      "learning_rate": 0.00022722848033958614,
      "loss": 3.8335,
      "step": 158710
    },
    {
      "epoch": 0.33066666666666666,
      "grad_norm": 0.8350403308868408,
      "learning_rate": 0.00022722002866725958,
      "loss": 3.7764,
      "step": 158720
    },
    {
      "epoch": 0.3306875,
      "grad_norm": 0.7594330906867981,
      "learning_rate": 0.00022721157666137303,
      "loss": 3.8376,
      "step": 158730
    },
    {
      "epoch": 0.3307083333333333,
      "grad_norm": 0.822214663028717,
      "learning_rate": 0.00022720312432196306,
      "loss": 3.729,
      "step": 158740
    },
    {
      "epoch": 0.3307291666666667,
      "grad_norm": 0.7780291438102722,
      "learning_rate": 0.00022719467164906612,
      "loss": 4.0005,
      "step": 158750
    },
    {
      "epoch": 0.33075,
      "grad_norm": 1.5890108346939087,
      "learning_rate": 0.0002271862186427188,
      "loss": 3.8005,
      "step": 158760
    },
    {
      "epoch": 0.33077083333333335,
      "grad_norm": 0.7790413498878479,
      "learning_rate": 0.00022717776530295752,
      "loss": 3.7171,
      "step": 158770
    },
    {
      "epoch": 0.33079166666666665,
      "grad_norm": 0.7871732115745544,
      "learning_rate": 0.0002271693116298189,
      "loss": 4.0134,
      "step": 158780
    },
    {
      "epoch": 0.3308125,
      "grad_norm": 0.936947762966156,
      "learning_rate": 0.00022716085762333936,
      "loss": 3.9106,
      "step": 158790
    },
    {
      "epoch": 0.3308333333333333,
      "grad_norm": 0.7864111065864563,
      "learning_rate": 0.00022715240328355547,
      "loss": 3.7897,
      "step": 158800
    },
    {
      "epoch": 0.33085416666666667,
      "grad_norm": 0.8658894300460815,
      "learning_rate": 0.00022714394861050375,
      "loss": 3.7264,
      "step": 158810
    },
    {
      "epoch": 0.330875,
      "grad_norm": 0.9409164190292358,
      "learning_rate": 0.0002271354936042207,
      "loss": 3.8719,
      "step": 158820
    },
    {
      "epoch": 0.33089583333333333,
      "grad_norm": 0.8427894115447998,
      "learning_rate": 0.00022712703826474284,
      "loss": 3.9415,
      "step": 158830
    },
    {
      "epoch": 0.3309166666666667,
      "grad_norm": 0.8079805970191956,
      "learning_rate": 0.0002271185825921067,
      "loss": 3.9577,
      "step": 158840
    },
    {
      "epoch": 0.3309375,
      "grad_norm": 0.7495690584182739,
      "learning_rate": 0.0002271101265863488,
      "loss": 3.8728,
      "step": 158850
    },
    {
      "epoch": 0.33095833333333335,
      "grad_norm": 0.8926456570625305,
      "learning_rate": 0.00022710167024750572,
      "loss": 3.7642,
      "step": 158860
    },
    {
      "epoch": 0.33097916666666666,
      "grad_norm": 0.9030949473381042,
      "learning_rate": 0.0002270932135756139,
      "loss": 3.7439,
      "step": 158870
    },
    {
      "epoch": 0.331,
      "grad_norm": 0.8441591858863831,
      "learning_rate": 0.00022708475657070993,
      "loss": 3.5964,
      "step": 158880
    },
    {
      "epoch": 0.3310208333333333,
      "grad_norm": 0.8907754421234131,
      "learning_rate": 0.00022707629923283035,
      "loss": 4.0192,
      "step": 158890
    },
    {
      "epoch": 0.3310416666666667,
      "grad_norm": 0.7120140790939331,
      "learning_rate": 0.0002270678415620116,
      "loss": 3.8461,
      "step": 158900
    },
    {
      "epoch": 0.3310625,
      "grad_norm": 0.6974229216575623,
      "learning_rate": 0.00022705938355829035,
      "loss": 3.9402,
      "step": 158910
    },
    {
      "epoch": 0.33108333333333334,
      "grad_norm": 0.6734943985939026,
      "learning_rate": 0.000227050925221703,
      "loss": 3.7154,
      "step": 158920
    },
    {
      "epoch": 0.33110416666666664,
      "grad_norm": 0.8003103137016296,
      "learning_rate": 0.0002270424665522862,
      "loss": 3.9388,
      "step": 158930
    },
    {
      "epoch": 0.331125,
      "grad_norm": 0.7528534531593323,
      "learning_rate": 0.0002270340075500764,
      "loss": 4.1633,
      "step": 158940
    },
    {
      "epoch": 0.3311458333333333,
      "grad_norm": 0.7907570004463196,
      "learning_rate": 0.00022702554821511022,
      "loss": 3.8504,
      "step": 158950
    },
    {
      "epoch": 0.33116666666666666,
      "grad_norm": 0.7768751978874207,
      "learning_rate": 0.0002270170885474242,
      "loss": 3.7825,
      "step": 158960
    },
    {
      "epoch": 0.3311875,
      "grad_norm": 0.7639745473861694,
      "learning_rate": 0.00022700862854705474,
      "loss": 3.6986,
      "step": 158970
    },
    {
      "epoch": 0.3312083333333333,
      "grad_norm": 0.7354797124862671,
      "learning_rate": 0.00022700016821403853,
      "loss": 3.6784,
      "step": 158980
    },
    {
      "epoch": 0.3312291666666667,
      "grad_norm": 0.8828874230384827,
      "learning_rate": 0.0002269917075484121,
      "loss": 4.0523,
      "step": 158990
    },
    {
      "epoch": 0.33125,
      "grad_norm": 0.7866012454032898,
      "learning_rate": 0.00022698324655021193,
      "loss": 3.7852,
      "step": 159000
    },
    {
      "epoch": 0.33125,
      "eval_loss": 4.211363792419434,
      "eval_runtime": 8.6284,
      "eval_samples_per_second": 1.159,
      "eval_steps_per_second": 0.348,
      "step": 159000
    },
    {
      "epoch": 0.33127083333333335,
      "grad_norm": 0.7609835863113403,
      "learning_rate": 0.00022697478521947463,
      "loss": 3.7676,
      "step": 159010
    },
    {
      "epoch": 0.33129166666666665,
      "grad_norm": 0.7318491339683533,
      "learning_rate": 0.00022696632355623673,
      "loss": 3.8438,
      "step": 159020
    },
    {
      "epoch": 0.3313125,
      "grad_norm": 0.8948004841804504,
      "learning_rate": 0.0002269578615605348,
      "loss": 3.9893,
      "step": 159030
    },
    {
      "epoch": 0.3313333333333333,
      "grad_norm": 0.8646572828292847,
      "learning_rate": 0.0002269493992324053,
      "loss": 3.895,
      "step": 159040
    },
    {
      "epoch": 0.33135416666666667,
      "grad_norm": 0.7522701025009155,
      "learning_rate": 0.00022694093657188493,
      "loss": 3.947,
      "step": 159050
    },
    {
      "epoch": 0.331375,
      "grad_norm": 0.9127416014671326,
      "learning_rate": 0.00022693247357901013,
      "loss": 3.9052,
      "step": 159060
    },
    {
      "epoch": 0.33139583333333333,
      "grad_norm": 0.7158812880516052,
      "learning_rate": 0.00022692401025381745,
      "loss": 3.7148,
      "step": 159070
    },
    {
      "epoch": 0.3314166666666667,
      "grad_norm": 0.7871440052986145,
      "learning_rate": 0.00022691554659634355,
      "loss": 3.7903,
      "step": 159080
    },
    {
      "epoch": 0.3314375,
      "grad_norm": 0.8402615785598755,
      "learning_rate": 0.00022690708260662495,
      "loss": 3.732,
      "step": 159090
    },
    {
      "epoch": 0.33145833333333335,
      "grad_norm": 0.7595992684364319,
      "learning_rate": 0.00022689861828469813,
      "loss": 3.8141,
      "step": 159100
    },
    {
      "epoch": 0.33147916666666666,
      "grad_norm": 0.7955578565597534,
      "learning_rate": 0.00022689015363059977,
      "loss": 3.7535,
      "step": 159110
    },
    {
      "epoch": 0.3315,
      "grad_norm": 0.7526395916938782,
      "learning_rate": 0.00022688168864436637,
      "loss": 3.7478,
      "step": 159120
    },
    {
      "epoch": 0.3315208333333333,
      "grad_norm": 0.6911899447441101,
      "learning_rate": 0.00022687322332603453,
      "loss": 3.9054,
      "step": 159130
    },
    {
      "epoch": 0.3315416666666667,
      "grad_norm": 0.786500096321106,
      "learning_rate": 0.00022686475767564075,
      "loss": 3.9665,
      "step": 159140
    },
    {
      "epoch": 0.3315625,
      "grad_norm": 1.0740052461624146,
      "learning_rate": 0.00022685629169322166,
      "loss": 3.9578,
      "step": 159150
    },
    {
      "epoch": 0.33158333333333334,
      "grad_norm": 0.7174260020256042,
      "learning_rate": 0.00022684782537881384,
      "loss": 3.864,
      "step": 159160
    },
    {
      "epoch": 0.33160416666666664,
      "grad_norm": 0.87332683801651,
      "learning_rate": 0.0002268393587324538,
      "loss": 3.9162,
      "step": 159170
    },
    {
      "epoch": 0.331625,
      "grad_norm": 0.7539173364639282,
      "learning_rate": 0.00022683089175417815,
      "loss": 3.7903,
      "step": 159180
    },
    {
      "epoch": 0.3316458333333333,
      "grad_norm": 0.7012938261032104,
      "learning_rate": 0.00022682242444402344,
      "loss": 3.6968,
      "step": 159190
    },
    {
      "epoch": 0.33166666666666667,
      "grad_norm": 0.782063364982605,
      "learning_rate": 0.00022681395680202628,
      "loss": 3.8686,
      "step": 159200
    },
    {
      "epoch": 0.3316875,
      "grad_norm": 0.8059767484664917,
      "learning_rate": 0.00022680548882822324,
      "loss": 3.8647,
      "step": 159210
    },
    {
      "epoch": 0.3317083333333333,
      "grad_norm": 0.8610884547233582,
      "learning_rate": 0.00022679702052265095,
      "loss": 3.9394,
      "step": 159220
    },
    {
      "epoch": 0.3317291666666667,
      "grad_norm": 0.7496988773345947,
      "learning_rate": 0.00022678855188534587,
      "loss": 3.7036,
      "step": 159230
    },
    {
      "epoch": 0.33175,
      "grad_norm": 0.9728577733039856,
      "learning_rate": 0.00022678008291634457,
      "loss": 4.1017,
      "step": 159240
    },
    {
      "epoch": 0.33177083333333335,
      "grad_norm": 0.8369409441947937,
      "learning_rate": 0.00022677161361568378,
      "loss": 3.8369,
      "step": 159250
    },
    {
      "epoch": 0.33179166666666665,
      "grad_norm": 0.7579830288887024,
      "learning_rate": 0.00022676314398340002,
      "loss": 3.8646,
      "step": 159260
    },
    {
      "epoch": 0.3318125,
      "grad_norm": 0.779040515422821,
      "learning_rate": 0.00022675467401952988,
      "loss": 3.821,
      "step": 159270
    },
    {
      "epoch": 0.3318333333333333,
      "grad_norm": 0.7371599078178406,
      "learning_rate": 0.00022674620372410988,
      "loss": 3.7111,
      "step": 159280
    },
    {
      "epoch": 0.3318541666666667,
      "grad_norm": 0.7217051386833191,
      "learning_rate": 0.00022673773309717665,
      "loss": 3.9464,
      "step": 159290
    },
    {
      "epoch": 0.331875,
      "grad_norm": 0.6835048198699951,
      "learning_rate": 0.0002267292621387668,
      "loss": 3.8134,
      "step": 159300
    },
    {
      "epoch": 0.33189583333333333,
      "grad_norm": 0.6881029605865479,
      "learning_rate": 0.00022672079084891695,
      "loss": 3.6873,
      "step": 159310
    },
    {
      "epoch": 0.3319166666666667,
      "grad_norm": 0.8542724847793579,
      "learning_rate": 0.00022671231922766357,
      "loss": 3.7198,
      "step": 159320
    },
    {
      "epoch": 0.3319375,
      "grad_norm": 0.7842327952384949,
      "learning_rate": 0.00022670384727504345,
      "loss": 3.9003,
      "step": 159330
    },
    {
      "epoch": 0.33195833333333336,
      "grad_norm": 0.7097176313400269,
      "learning_rate": 0.00022669537499109293,
      "loss": 4.0155,
      "step": 159340
    },
    {
      "epoch": 0.33197916666666666,
      "grad_norm": 0.7900949120521545,
      "learning_rate": 0.00022668690237584885,
      "loss": 3.9263,
      "step": 159350
    },
    {
      "epoch": 0.332,
      "grad_norm": 1.030545711517334,
      "learning_rate": 0.00022667842942934773,
      "loss": 3.8187,
      "step": 159360
    },
    {
      "epoch": 0.3320208333333333,
      "grad_norm": 0.8287075161933899,
      "learning_rate": 0.00022666995615162606,
      "loss": 3.8969,
      "step": 159370
    },
    {
      "epoch": 0.3320416666666667,
      "grad_norm": 0.8507643342018127,
      "learning_rate": 0.00022666148254272056,
      "loss": 3.7499,
      "step": 159380
    },
    {
      "epoch": 0.3320625,
      "grad_norm": 0.8384467363357544,
      "learning_rate": 0.00022665300860266784,
      "loss": 3.7761,
      "step": 159390
    },
    {
      "epoch": 0.33208333333333334,
      "grad_norm": 0.8434032201766968,
      "learning_rate": 0.0002266445343315044,
      "loss": 3.6312,
      "step": 159400
    },
    {
      "epoch": 0.33210416666666664,
      "grad_norm": 0.6848382949829102,
      "learning_rate": 0.00022663605972926697,
      "loss": 3.9389,
      "step": 159410
    },
    {
      "epoch": 0.332125,
      "grad_norm": 0.8446731567382812,
      "learning_rate": 0.00022662758479599204,
      "loss": 3.9395,
      "step": 159420
    },
    {
      "epoch": 0.3321458333333333,
      "grad_norm": 0.7804780006408691,
      "learning_rate": 0.0002266191095317163,
      "loss": 3.8334,
      "step": 159430
    },
    {
      "epoch": 0.33216666666666667,
      "grad_norm": 0.8489733338356018,
      "learning_rate": 0.0002266106339364763,
      "loss": 3.8271,
      "step": 159440
    },
    {
      "epoch": 0.3321875,
      "grad_norm": 0.7450255751609802,
      "learning_rate": 0.00022660215801030876,
      "loss": 3.8219,
      "step": 159450
    },
    {
      "epoch": 0.3322083333333333,
      "grad_norm": 0.8219677209854126,
      "learning_rate": 0.00022659368175325018,
      "loss": 3.9719,
      "step": 159460
    },
    {
      "epoch": 0.3322291666666667,
      "grad_norm": 0.714170515537262,
      "learning_rate": 0.00022658520516533723,
      "loss": 3.9409,
      "step": 159470
    },
    {
      "epoch": 0.33225,
      "grad_norm": 0.8297839760780334,
      "learning_rate": 0.00022657672824660647,
      "loss": 3.7322,
      "step": 159480
    },
    {
      "epoch": 0.33227083333333335,
      "grad_norm": 0.6643431186676025,
      "learning_rate": 0.00022656825099709457,
      "loss": 3.7647,
      "step": 159490
    },
    {
      "epoch": 0.33229166666666665,
      "grad_norm": 0.8731704950332642,
      "learning_rate": 0.00022655977341683815,
      "loss": 3.8692,
      "step": 159500
    },
    {
      "epoch": 0.3323125,
      "grad_norm": 0.7122067213058472,
      "learning_rate": 0.00022655129550587378,
      "loss": 3.9136,
      "step": 159510
    },
    {
      "epoch": 0.3323333333333333,
      "grad_norm": 0.7937498092651367,
      "learning_rate": 0.00022654281726423815,
      "loss": 3.9956,
      "step": 159520
    },
    {
      "epoch": 0.3323541666666667,
      "grad_norm": 0.8506038188934326,
      "learning_rate": 0.00022653433869196783,
      "loss": 3.9562,
      "step": 159530
    },
    {
      "epoch": 0.332375,
      "grad_norm": 1.0272473096847534,
      "learning_rate": 0.00022652585978909947,
      "loss": 3.9862,
      "step": 159540
    },
    {
      "epoch": 0.33239583333333333,
      "grad_norm": 0.8092339038848877,
      "learning_rate": 0.0002265173805556697,
      "loss": 3.8494,
      "step": 159550
    },
    {
      "epoch": 0.3324166666666667,
      "grad_norm": 0.8661437630653381,
      "learning_rate": 0.0002265089009917151,
      "loss": 3.8104,
      "step": 159560
    },
    {
      "epoch": 0.3324375,
      "grad_norm": 0.9117816090583801,
      "learning_rate": 0.00022650042109727234,
      "loss": 3.94,
      "step": 159570
    },
    {
      "epoch": 0.33245833333333336,
      "grad_norm": 0.8301052451133728,
      "learning_rate": 0.0002264919408723781,
      "loss": 3.7043,
      "step": 159580
    },
    {
      "epoch": 0.33247916666666666,
      "grad_norm": 0.80037522315979,
      "learning_rate": 0.0002264834603170689,
      "loss": 3.7509,
      "step": 159590
    },
    {
      "epoch": 0.3325,
      "grad_norm": 0.8103178143501282,
      "learning_rate": 0.0002264749794313814,
      "loss": 3.9021,
      "step": 159600
    },
    {
      "epoch": 0.3325208333333333,
      "grad_norm": 0.8532281517982483,
      "learning_rate": 0.0002264664982153523,
      "loss": 3.7206,
      "step": 159610
    },
    {
      "epoch": 0.3325416666666667,
      "grad_norm": 0.7616691589355469,
      "learning_rate": 0.00022645801666901818,
      "loss": 3.8632,
      "step": 159620
    },
    {
      "epoch": 0.3325625,
      "grad_norm": 0.8254815340042114,
      "learning_rate": 0.0002264495347924157,
      "loss": 3.6947,
      "step": 159630
    },
    {
      "epoch": 0.33258333333333334,
      "grad_norm": 0.7655845284461975,
      "learning_rate": 0.00022644105258558145,
      "loss": 3.7468,
      "step": 159640
    },
    {
      "epoch": 0.33260416666666665,
      "grad_norm": 0.7338824272155762,
      "learning_rate": 0.00022643257004855216,
      "loss": 3.9394,
      "step": 159650
    },
    {
      "epoch": 0.332625,
      "grad_norm": 0.7979740500450134,
      "learning_rate": 0.00022642408718136442,
      "loss": 3.8861,
      "step": 159660
    },
    {
      "epoch": 0.3326458333333333,
      "grad_norm": 0.8799304962158203,
      "learning_rate": 0.00022641560398405485,
      "loss": 3.8127,
      "step": 159670
    },
    {
      "epoch": 0.33266666666666667,
      "grad_norm": 0.9677696228027344,
      "learning_rate": 0.0002264071204566601,
      "loss": 3.8009,
      "step": 159680
    },
    {
      "epoch": 0.3326875,
      "grad_norm": 0.7323248982429504,
      "learning_rate": 0.00022639863659921694,
      "loss": 3.9496,
      "step": 159690
    },
    {
      "epoch": 0.33270833333333333,
      "grad_norm": 0.6912771463394165,
      "learning_rate": 0.00022639015241176177,
      "loss": 3.8149,
      "step": 159700
    },
    {
      "epoch": 0.3327291666666667,
      "grad_norm": 0.7031670808792114,
      "learning_rate": 0.00022638166789433147,
      "loss": 4.1115,
      "step": 159710
    },
    {
      "epoch": 0.33275,
      "grad_norm": 1.070087194442749,
      "learning_rate": 0.0002263731830469626,
      "loss": 3.7765,
      "step": 159720
    },
    {
      "epoch": 0.33277083333333335,
      "grad_norm": 0.6829268336296082,
      "learning_rate": 0.00022636469786969175,
      "loss": 3.8522,
      "step": 159730
    },
    {
      "epoch": 0.33279166666666665,
      "grad_norm": 0.7834478616714478,
      "learning_rate": 0.00022635621236255567,
      "loss": 3.8685,
      "step": 159740
    },
    {
      "epoch": 0.3328125,
      "grad_norm": 0.8765571713447571,
      "learning_rate": 0.000226347726525591,
      "loss": 3.6871,
      "step": 159750
    },
    {
      "epoch": 0.3328333333333333,
      "grad_norm": 0.8101921081542969,
      "learning_rate": 0.00022633924035883433,
      "loss": 3.9091,
      "step": 159760
    },
    {
      "epoch": 0.3328541666666667,
      "grad_norm": 0.7413007020950317,
      "learning_rate": 0.00022633075386232232,
      "loss": 3.7537,
      "step": 159770
    },
    {
      "epoch": 0.332875,
      "grad_norm": 0.7438618540763855,
      "learning_rate": 0.00022632226703609174,
      "loss": 3.8787,
      "step": 159780
    },
    {
      "epoch": 0.33289583333333334,
      "grad_norm": 0.834373950958252,
      "learning_rate": 0.0002263137798801792,
      "loss": 3.913,
      "step": 159790
    },
    {
      "epoch": 0.3329166666666667,
      "grad_norm": 0.8249583840370178,
      "learning_rate": 0.0002263052923946213,
      "loss": 3.7387,
      "step": 159800
    },
    {
      "epoch": 0.3329375,
      "grad_norm": 0.7767789959907532,
      "learning_rate": 0.00022629680457945473,
      "loss": 3.7205,
      "step": 159810
    },
    {
      "epoch": 0.33295833333333336,
      "grad_norm": 0.786713182926178,
      "learning_rate": 0.00022628831643471616,
      "loss": 3.6731,
      "step": 159820
    },
    {
      "epoch": 0.33297916666666666,
      "grad_norm": 0.8116068243980408,
      "learning_rate": 0.00022627982796044225,
      "loss": 3.7479,
      "step": 159830
    },
    {
      "epoch": 0.333,
      "grad_norm": 0.7335631847381592,
      "learning_rate": 0.00022627133915666968,
      "loss": 3.9652,
      "step": 159840
    },
    {
      "epoch": 0.3330208333333333,
      "grad_norm": 0.8703696727752686,
      "learning_rate": 0.00022626285002343515,
      "loss": 3.9977,
      "step": 159850
    },
    {
      "epoch": 0.3330416666666667,
      "grad_norm": 0.749291181564331,
      "learning_rate": 0.0002262543605607753,
      "loss": 3.8574,
      "step": 159860
    },
    {
      "epoch": 0.3330625,
      "grad_norm": 0.7335776090621948,
      "learning_rate": 0.00022624587076872674,
      "loss": 3.7796,
      "step": 159870
    },
    {
      "epoch": 0.33308333333333334,
      "grad_norm": 0.8512654900550842,
      "learning_rate": 0.00022623738064732622,
      "loss": 3.7777,
      "step": 159880
    },
    {
      "epoch": 0.33310416666666665,
      "grad_norm": 0.7290341854095459,
      "learning_rate": 0.00022622889019661047,
      "loss": 3.9355,
      "step": 159890
    },
    {
      "epoch": 0.333125,
      "grad_norm": 0.8826431035995483,
      "learning_rate": 0.000226220399416616,
      "loss": 3.8531,
      "step": 159900
    },
    {
      "epoch": 0.3331458333333333,
      "grad_norm": 0.8331460952758789,
      "learning_rate": 0.00022621190830737957,
      "loss": 3.8449,
      "step": 159910
    },
    {
      "epoch": 0.33316666666666667,
      "grad_norm": 0.7806095480918884,
      "learning_rate": 0.0002262034168689379,
      "loss": 3.9138,
      "step": 159920
    },
    {
      "epoch": 0.3331875,
      "grad_norm": 0.7943789958953857,
      "learning_rate": 0.0002261949251013276,
      "loss": 3.7878,
      "step": 159930
    },
    {
      "epoch": 0.33320833333333333,
      "grad_norm": 0.9136579036712646,
      "learning_rate": 0.0002261864330045854,
      "loss": 3.7334,
      "step": 159940
    },
    {
      "epoch": 0.3332291666666667,
      "grad_norm": 0.9426594376564026,
      "learning_rate": 0.00022617794057874798,
      "loss": 3.843,
      "step": 159950
    },
    {
      "epoch": 0.33325,
      "grad_norm": 1.1334589719772339,
      "learning_rate": 0.00022616944782385203,
      "loss": 3.7811,
      "step": 159960
    },
    {
      "epoch": 0.33327083333333335,
      "grad_norm": 0.8797115683555603,
      "learning_rate": 0.00022616095473993415,
      "loss": 3.7723,
      "step": 159970
    },
    {
      "epoch": 0.33329166666666665,
      "grad_norm": 0.7928230166435242,
      "learning_rate": 0.00022615246132703118,
      "loss": 3.7596,
      "step": 159980
    },
    {
      "epoch": 0.3333125,
      "grad_norm": 0.8148669004440308,
      "learning_rate": 0.00022614396758517964,
      "loss": 4.0097,
      "step": 159990
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.8992375135421753,
      "learning_rate": 0.00022613547351441632,
      "loss": 4.1717,
      "step": 160000
    },
    {
      "epoch": 0.3333333333333333,
      "eval_loss": 4.212229251861572,
      "eval_runtime": 9.4548,
      "eval_samples_per_second": 1.058,
      "eval_steps_per_second": 0.317,
      "step": 160000
    },
    {
      "epoch": 0.3333541666666667,
      "grad_norm": 0.7250091433525085,
      "learning_rate": 0.00022612697911477788,
      "loss": 3.642,
      "step": 160010
    },
    {
      "epoch": 0.333375,
      "grad_norm": 0.7969692945480347,
      "learning_rate": 0.00022611848438630104,
      "loss": 3.7608,
      "step": 160020
    },
    {
      "epoch": 0.33339583333333334,
      "grad_norm": 0.7038425803184509,
      "learning_rate": 0.00022610998932902257,
      "loss": 3.8439,
      "step": 160030
    },
    {
      "epoch": 0.33341666666666664,
      "grad_norm": 0.8685790300369263,
      "learning_rate": 0.00022610149394297892,
      "loss": 3.7361,
      "step": 160040
    },
    {
      "epoch": 0.3334375,
      "grad_norm": 0.6960127949714661,
      "learning_rate": 0.000226092998228207,
      "loss": 3.816,
      "step": 160050
    },
    {
      "epoch": 0.33345833333333336,
      "grad_norm": 0.7306182384490967,
      "learning_rate": 0.00022608450218474348,
      "loss": 4.0115,
      "step": 160060
    },
    {
      "epoch": 0.33347916666666666,
      "grad_norm": 0.7459836006164551,
      "learning_rate": 0.00022607600581262495,
      "loss": 3.6888,
      "step": 160070
    },
    {
      "epoch": 0.3335,
      "grad_norm": 0.7095014452934265,
      "learning_rate": 0.00022606750911188822,
      "loss": 3.8864,
      "step": 160080
    },
    {
      "epoch": 0.3335208333333333,
      "grad_norm": 0.7202209234237671,
      "learning_rate": 0.00022605901208257,
      "loss": 3.8094,
      "step": 160090
    },
    {
      "epoch": 0.3335416666666667,
      "grad_norm": 0.8314803242683411,
      "learning_rate": 0.00022605051472470697,
      "loss": 3.772,
      "step": 160100
    },
    {
      "epoch": 0.3335625,
      "grad_norm": 0.7590517997741699,
      "learning_rate": 0.00022604201703833572,
      "loss": 3.7792,
      "step": 160110
    },
    {
      "epoch": 0.33358333333333334,
      "grad_norm": 0.7454505562782288,
      "learning_rate": 0.00022603351902349312,
      "loss": 4.0403,
      "step": 160120
    },
    {
      "epoch": 0.33360416666666665,
      "grad_norm": 0.7445396780967712,
      "learning_rate": 0.00022602502068021585,
      "loss": 3.8916,
      "step": 160130
    },
    {
      "epoch": 0.333625,
      "grad_norm": 0.7539772987365723,
      "learning_rate": 0.0002260165220085405,
      "loss": 3.7017,
      "step": 160140
    },
    {
      "epoch": 0.3336458333333333,
      "grad_norm": 0.7247041463851929,
      "learning_rate": 0.00022600802300850394,
      "loss": 3.8812,
      "step": 160150
    },
    {
      "epoch": 0.33366666666666667,
      "grad_norm": 0.8848217129707336,
      "learning_rate": 0.00022599952368014274,
      "loss": 3.9474,
      "step": 160160
    },
    {
      "epoch": 0.3336875,
      "grad_norm": 1.006372332572937,
      "learning_rate": 0.00022599102402349374,
      "loss": 3.9286,
      "step": 160170
    },
    {
      "epoch": 0.33370833333333333,
      "grad_norm": 0.8267992734909058,
      "learning_rate": 0.00022598252403859353,
      "loss": 3.9017,
      "step": 160180
    },
    {
      "epoch": 0.3337291666666667,
      "grad_norm": 0.881800651550293,
      "learning_rate": 0.00022597402372547895,
      "loss": 3.9188,
      "step": 160190
    },
    {
      "epoch": 0.33375,
      "grad_norm": 0.8408558964729309,
      "learning_rate": 0.00022596552308418665,
      "loss": 3.9246,
      "step": 160200
    },
    {
      "epoch": 0.33377083333333335,
      "grad_norm": 0.7818215489387512,
      "learning_rate": 0.00022595702211475335,
      "loss": 3.9205,
      "step": 160210
    },
    {
      "epoch": 0.33379166666666665,
      "grad_norm": 0.6638234257698059,
      "learning_rate": 0.00022594852081721576,
      "loss": 3.7276,
      "step": 160220
    },
    {
      "epoch": 0.3338125,
      "grad_norm": 0.8483952879905701,
      "learning_rate": 0.00022594001919161067,
      "loss": 3.6503,
      "step": 160230
    },
    {
      "epoch": 0.3338333333333333,
      "grad_norm": 0.7586767077445984,
      "learning_rate": 0.0002259315172379747,
      "loss": 3.9917,
      "step": 160240
    },
    {
      "epoch": 0.3338541666666667,
      "grad_norm": 0.7600494623184204,
      "learning_rate": 0.00022592301495634467,
      "loss": 3.9253,
      "step": 160250
    },
    {
      "epoch": 0.333875,
      "grad_norm": 0.7742230892181396,
      "learning_rate": 0.00022591451234675727,
      "loss": 3.8756,
      "step": 160260
    },
    {
      "epoch": 0.33389583333333334,
      "grad_norm": 0.8607431650161743,
      "learning_rate": 0.00022590600940924923,
      "loss": 3.8671,
      "step": 160270
    },
    {
      "epoch": 0.33391666666666664,
      "grad_norm": 0.7125795483589172,
      "learning_rate": 0.0002258975061438572,
      "loss": 3.7418,
      "step": 160280
    },
    {
      "epoch": 0.3339375,
      "grad_norm": 0.8124155402183533,
      "learning_rate": 0.0002258890025506181,
      "loss": 3.7353,
      "step": 160290
    },
    {
      "epoch": 0.33395833333333336,
      "grad_norm": 0.7956367135047913,
      "learning_rate": 0.0002258804986295685,
      "loss": 3.8561,
      "step": 160300
    },
    {
      "epoch": 0.33397916666666666,
      "grad_norm": 0.7706208229064941,
      "learning_rate": 0.00022587199438074516,
      "loss": 3.8206,
      "step": 160310
    },
    {
      "epoch": 0.334,
      "grad_norm": 0.7239516973495483,
      "learning_rate": 0.00022586348980418484,
      "loss": 3.864,
      "step": 160320
    },
    {
      "epoch": 0.3340208333333333,
      "grad_norm": 0.7447735071182251,
      "learning_rate": 0.00022585498489992425,
      "loss": 3.8407,
      "step": 160330
    },
    {
      "epoch": 0.3340416666666667,
      "grad_norm": 0.82707679271698,
      "learning_rate": 0.0002258464796680002,
      "loss": 3.796,
      "step": 160340
    },
    {
      "epoch": 0.3340625,
      "grad_norm": 0.8892013430595398,
      "learning_rate": 0.00022583797410844937,
      "loss": 3.829,
      "step": 160350
    },
    {
      "epoch": 0.33408333333333334,
      "grad_norm": 0.691410481929779,
      "learning_rate": 0.0002258294682213085,
      "loss": 3.8128,
      "step": 160360
    },
    {
      "epoch": 0.33410416666666665,
      "grad_norm": 0.8466962575912476,
      "learning_rate": 0.00022582096200661435,
      "loss": 3.8672,
      "step": 160370
    },
    {
      "epoch": 0.334125,
      "grad_norm": 0.8104684948921204,
      "learning_rate": 0.00022581245546440367,
      "loss": 3.9161,
      "step": 160380
    },
    {
      "epoch": 0.3341458333333333,
      "grad_norm": 0.8123615384101868,
      "learning_rate": 0.00022580394859471315,
      "loss": 3.9262,
      "step": 160390
    },
    {
      "epoch": 0.33416666666666667,
      "grad_norm": 0.8556461930274963,
      "learning_rate": 0.0002257954413975796,
      "loss": 3.9606,
      "step": 160400
    },
    {
      "epoch": 0.3341875,
      "grad_norm": 1.0257142782211304,
      "learning_rate": 0.00022578693387303975,
      "loss": 3.8072,
      "step": 160410
    },
    {
      "epoch": 0.33420833333333333,
      "grad_norm": 0.7287256717681885,
      "learning_rate": 0.0002257784260211303,
      "loss": 3.8621,
      "step": 160420
    },
    {
      "epoch": 0.3342291666666667,
      "grad_norm": 0.7320495843887329,
      "learning_rate": 0.00022576991784188817,
      "loss": 3.8044,
      "step": 160430
    },
    {
      "epoch": 0.33425,
      "grad_norm": 0.8537812232971191,
      "learning_rate": 0.00022576140933534985,
      "loss": 3.7348,
      "step": 160440
    },
    {
      "epoch": 0.33427083333333335,
      "grad_norm": 0.725650429725647,
      "learning_rate": 0.0002257529005015523,
      "loss": 4.0079,
      "step": 160450
    },
    {
      "epoch": 0.33429166666666665,
      "grad_norm": 0.7378141283988953,
      "learning_rate": 0.00022574439134053222,
      "loss": 3.8109,
      "step": 160460
    },
    {
      "epoch": 0.3343125,
      "grad_norm": 0.862923800945282,
      "learning_rate": 0.0002257358818523263,
      "loss": 4.0401,
      "step": 160470
    },
    {
      "epoch": 0.3343333333333333,
      "grad_norm": 0.7964462637901306,
      "learning_rate": 0.00022572737203697138,
      "loss": 3.8983,
      "step": 160480
    },
    {
      "epoch": 0.3343541666666667,
      "grad_norm": 0.7627695798873901,
      "learning_rate": 0.00022571886189450417,
      "loss": 3.7685,
      "step": 160490
    },
    {
      "epoch": 0.334375,
      "grad_norm": 0.8358149528503418,
      "learning_rate": 0.00022571035142496143,
      "loss": 3.964,
      "step": 160500
    },
    {
      "epoch": 0.33439583333333334,
      "grad_norm": 0.6955722570419312,
      "learning_rate": 0.00022570184062837997,
      "loss": 3.8667,
      "step": 160510
    },
    {
      "epoch": 0.33441666666666664,
      "grad_norm": 0.7936346530914307,
      "learning_rate": 0.0002256933295047965,
      "loss": 3.7299,
      "step": 160520
    },
    {
      "epoch": 0.3344375,
      "grad_norm": 0.7218785285949707,
      "learning_rate": 0.00022568481805424785,
      "loss": 3.943,
      "step": 160530
    },
    {
      "epoch": 0.33445833333333336,
      "grad_norm": 0.712610125541687,
      "learning_rate": 0.0002256763062767707,
      "loss": 3.8517,
      "step": 160540
    },
    {
      "epoch": 0.33447916666666666,
      "grad_norm": 0.7099206447601318,
      "learning_rate": 0.0002256677941724019,
      "loss": 3.8817,
      "step": 160550
    },
    {
      "epoch": 0.3345,
      "grad_norm": 1.0632127523422241,
      "learning_rate": 0.00022565928174117815,
      "loss": 3.8505,
      "step": 160560
    },
    {
      "epoch": 0.3345208333333333,
      "grad_norm": 0.9217271208763123,
      "learning_rate": 0.00022565076898313626,
      "loss": 3.7693,
      "step": 160570
    },
    {
      "epoch": 0.3345416666666667,
      "grad_norm": 0.7878499031066895,
      "learning_rate": 0.000225642255898313,
      "loss": 3.6207,
      "step": 160580
    },
    {
      "epoch": 0.3345625,
      "grad_norm": 0.7975128293037415,
      "learning_rate": 0.00022563374248674514,
      "loss": 3.9526,
      "step": 160590
    },
    {
      "epoch": 0.33458333333333334,
      "grad_norm": 0.778850257396698,
      "learning_rate": 0.00022562522874846943,
      "loss": 3.7814,
      "step": 160600
    },
    {
      "epoch": 0.33460416666666665,
      "grad_norm": 0.881051242351532,
      "learning_rate": 0.00022561671468352264,
      "loss": 3.9917,
      "step": 160610
    },
    {
      "epoch": 0.334625,
      "grad_norm": 0.7996352910995483,
      "learning_rate": 0.00022560820029194167,
      "loss": 3.9459,
      "step": 160620
    },
    {
      "epoch": 0.3346458333333333,
      "grad_norm": 0.8298032283782959,
      "learning_rate": 0.00022559968557376314,
      "loss": 3.821,
      "step": 160630
    },
    {
      "epoch": 0.33466666666666667,
      "grad_norm": 0.8814959526062012,
      "learning_rate": 0.00022559117052902385,
      "loss": 3.9725,
      "step": 160640
    },
    {
      "epoch": 0.3346875,
      "grad_norm": 0.8113994598388672,
      "learning_rate": 0.0002255826551577607,
      "loss": 3.8247,
      "step": 160650
    },
    {
      "epoch": 0.33470833333333333,
      "grad_norm": 0.8621358871459961,
      "learning_rate": 0.00022557413946001039,
      "loss": 3.8848,
      "step": 160660
    },
    {
      "epoch": 0.3347291666666667,
      "grad_norm": 0.7405773997306824,
      "learning_rate": 0.00022556562343580965,
      "loss": 3.905,
      "step": 160670
    },
    {
      "epoch": 0.33475,
      "grad_norm": 0.8476202487945557,
      "learning_rate": 0.0002255571070851954,
      "loss": 3.8819,
      "step": 160680
    },
    {
      "epoch": 0.33477083333333335,
      "grad_norm": 0.8605710864067078,
      "learning_rate": 0.0002255485904082043,
      "loss": 3.9873,
      "step": 160690
    },
    {
      "epoch": 0.33479166666666665,
      "grad_norm": 0.8019019961357117,
      "learning_rate": 0.00022554007340487323,
      "loss": 4.0564,
      "step": 160700
    },
    {
      "epoch": 0.3348125,
      "grad_norm": 0.8579902052879333,
      "learning_rate": 0.00022553155607523892,
      "loss": 3.9072,
      "step": 160710
    },
    {
      "epoch": 0.3348333333333333,
      "grad_norm": 0.8851465582847595,
      "learning_rate": 0.00022552303841933817,
      "loss": 3.7928,
      "step": 160720
    },
    {
      "epoch": 0.3348541666666667,
      "grad_norm": 0.7467755675315857,
      "learning_rate": 0.00022551452043720788,
      "loss": 3.7552,
      "step": 160730
    },
    {
      "epoch": 0.334875,
      "grad_norm": 0.7390492558479309,
      "learning_rate": 0.00022550600212888463,
      "loss": 3.9502,
      "step": 160740
    },
    {
      "epoch": 0.33489583333333334,
      "grad_norm": 0.7823338508605957,
      "learning_rate": 0.00022549748349440541,
      "loss": 3.8499,
      "step": 160750
    },
    {
      "epoch": 0.33491666666666664,
      "grad_norm": 0.7296510934829712,
      "learning_rate": 0.00022548896453380694,
      "loss": 3.8585,
      "step": 160760
    },
    {
      "epoch": 0.3349375,
      "grad_norm": 0.8233925700187683,
      "learning_rate": 0.00022548044524712602,
      "loss": 3.7288,
      "step": 160770
    },
    {
      "epoch": 0.33495833333333336,
      "grad_norm": 0.9354679584503174,
      "learning_rate": 0.00022547192563439943,
      "loss": 3.7711,
      "step": 160780
    },
    {
      "epoch": 0.33497916666666666,
      "grad_norm": 0.7051745057106018,
      "learning_rate": 0.000225463405695664,
      "loss": 3.7258,
      "step": 160790
    },
    {
      "epoch": 0.335,
      "grad_norm": 0.7598209381103516,
      "learning_rate": 0.00022545488543095657,
      "loss": 3.8919,
      "step": 160800
    },
    {
      "epoch": 0.3350208333333333,
      "grad_norm": 0.9247045516967773,
      "learning_rate": 0.00022544636484031385,
      "loss": 3.7402,
      "step": 160810
    },
    {
      "epoch": 0.3350416666666667,
      "grad_norm": 0.807249128818512,
      "learning_rate": 0.00022543784392377273,
      "loss": 3.8205,
      "step": 160820
    },
    {
      "epoch": 0.3350625,
      "grad_norm": 0.9341574311256409,
      "learning_rate": 0.00022542932268136999,
      "loss": 3.9034,
      "step": 160830
    },
    {
      "epoch": 0.33508333333333334,
      "grad_norm": 0.7509338855743408,
      "learning_rate": 0.00022542080111314242,
      "loss": 3.7973,
      "step": 160840
    },
    {
      "epoch": 0.33510416666666665,
      "grad_norm": 0.7894408702850342,
      "learning_rate": 0.00022541227921912683,
      "loss": 3.9406,
      "step": 160850
    },
    {
      "epoch": 0.335125,
      "grad_norm": 0.9686020016670227,
      "learning_rate": 0.00022540375699936006,
      "loss": 3.6948,
      "step": 160860
    },
    {
      "epoch": 0.3351458333333333,
      "grad_norm": 0.8301553726196289,
      "learning_rate": 0.00022539523445387887,
      "loss": 3.8097,
      "step": 160870
    },
    {
      "epoch": 0.33516666666666667,
      "grad_norm": 0.8234387040138245,
      "learning_rate": 0.00022538671158272016,
      "loss": 3.9094,
      "step": 160880
    },
    {
      "epoch": 0.3351875,
      "grad_norm": 0.7554728984832764,
      "learning_rate": 0.00022537818838592064,
      "loss": 3.926,
      "step": 160890
    },
    {
      "epoch": 0.33520833333333333,
      "grad_norm": 0.7638795971870422,
      "learning_rate": 0.00022536966486351727,
      "loss": 3.9697,
      "step": 160900
    },
    {
      "epoch": 0.3352291666666667,
      "grad_norm": 0.7176353335380554,
      "learning_rate": 0.00022536114101554672,
      "loss": 3.871,
      "step": 160910
    },
    {
      "epoch": 0.33525,
      "grad_norm": 0.9912576079368591,
      "learning_rate": 0.00022535261684204587,
      "loss": 3.6637,
      "step": 160920
    },
    {
      "epoch": 0.33527083333333335,
      "grad_norm": 0.8690285682678223,
      "learning_rate": 0.00022534409234305157,
      "loss": 3.92,
      "step": 160930
    },
    {
      "epoch": 0.33529166666666665,
      "grad_norm": 0.8255000114440918,
      "learning_rate": 0.0002253355675186006,
      "loss": 3.8357,
      "step": 160940
    },
    {
      "epoch": 0.3353125,
      "grad_norm": 0.8237307071685791,
      "learning_rate": 0.00022532704236872977,
      "loss": 3.956,
      "step": 160950
    },
    {
      "epoch": 0.3353333333333333,
      "grad_norm": 0.9002664089202881,
      "learning_rate": 0.00022531851689347603,
      "loss": 3.8674,
      "step": 160960
    },
    {
      "epoch": 0.3353541666666667,
      "grad_norm": 0.7747684121131897,
      "learning_rate": 0.00022530999109287602,
      "loss": 3.9017,
      "step": 160970
    },
    {
      "epoch": 0.335375,
      "grad_norm": 0.80790114402771,
      "learning_rate": 0.0002253014649669666,
      "loss": 3.9283,
      "step": 160980
    },
    {
      "epoch": 0.33539583333333334,
      "grad_norm": 0.8910022974014282,
      "learning_rate": 0.0002252929385157848,
      "loss": 3.6876,
      "step": 160990
    },
    {
      "epoch": 0.33541666666666664,
      "grad_norm": 0.866906464099884,
      "learning_rate": 0.00022528441173936723,
      "loss": 3.9231,
      "step": 161000
    },
    {
      "epoch": 0.33541666666666664,
      "eval_loss": 4.200584411621094,
      "eval_runtime": 9.511,
      "eval_samples_per_second": 1.051,
      "eval_steps_per_second": 0.315,
      "step": 161000
    },
    {
      "epoch": 0.3354375,
      "grad_norm": 0.8037667274475098,
      "learning_rate": 0.0002252758846377508,
      "loss": 3.8356,
      "step": 161010
    },
    {
      "epoch": 0.33545833333333336,
      "grad_norm": 0.6638907194137573,
      "learning_rate": 0.0002252673572109724,
      "loss": 3.9121,
      "step": 161020
    },
    {
      "epoch": 0.33547916666666666,
      "grad_norm": 0.7535233497619629,
      "learning_rate": 0.00022525882945906878,
      "loss": 3.9288,
      "step": 161030
    },
    {
      "epoch": 0.3355,
      "grad_norm": 0.8119719624519348,
      "learning_rate": 0.0002252503013820768,
      "loss": 3.7487,
      "step": 161040
    },
    {
      "epoch": 0.3355208333333333,
      "grad_norm": 0.7277073860168457,
      "learning_rate": 0.00022524177298003327,
      "loss": 3.7794,
      "step": 161050
    },
    {
      "epoch": 0.3355416666666667,
      "grad_norm": 0.8539289832115173,
      "learning_rate": 0.00022523324425297508,
      "loss": 3.9439,
      "step": 161060
    },
    {
      "epoch": 0.3355625,
      "grad_norm": 0.7558526992797852,
      "learning_rate": 0.00022522471520093905,
      "loss": 3.5557,
      "step": 161070
    },
    {
      "epoch": 0.33558333333333334,
      "grad_norm": 0.9060392379760742,
      "learning_rate": 0.00022521618582396207,
      "loss": 3.8571,
      "step": 161080
    },
    {
      "epoch": 0.33560416666666665,
      "grad_norm": 0.8103947639465332,
      "learning_rate": 0.00022520765612208093,
      "loss": 3.6992,
      "step": 161090
    },
    {
      "epoch": 0.335625,
      "grad_norm": 0.9050244092941284,
      "learning_rate": 0.00022519912609533245,
      "loss": 3.9332,
      "step": 161100
    },
    {
      "epoch": 0.3356458333333333,
      "grad_norm": 0.7356554865837097,
      "learning_rate": 0.00022519059574375357,
      "loss": 3.814,
      "step": 161110
    },
    {
      "epoch": 0.33566666666666667,
      "grad_norm": 0.7813773155212402,
      "learning_rate": 0.000225182065067381,
      "loss": 3.7531,
      "step": 161120
    },
    {
      "epoch": 0.3356875,
      "grad_norm": 0.7666945457458496,
      "learning_rate": 0.00022517353406625173,
      "loss": 3.8982,
      "step": 161130
    },
    {
      "epoch": 0.33570833333333333,
      "grad_norm": 0.7536760568618774,
      "learning_rate": 0.0002251650027404025,
      "loss": 3.9078,
      "step": 161140
    },
    {
      "epoch": 0.3357291666666667,
      "grad_norm": 0.7241008281707764,
      "learning_rate": 0.00022515647108987025,
      "loss": 3.9589,
      "step": 161150
    },
    {
      "epoch": 0.33575,
      "grad_norm": 0.7792503237724304,
      "learning_rate": 0.00022514793911469178,
      "loss": 3.8093,
      "step": 161160
    },
    {
      "epoch": 0.33577083333333335,
      "grad_norm": 0.7111339569091797,
      "learning_rate": 0.000225139406814904,
      "loss": 3.8741,
      "step": 161170
    },
    {
      "epoch": 0.33579166666666665,
      "grad_norm": 0.7697182893753052,
      "learning_rate": 0.00022513087419054366,
      "loss": 3.8344,
      "step": 161180
    },
    {
      "epoch": 0.3358125,
      "grad_norm": 0.7440057396888733,
      "learning_rate": 0.00022512234124164772,
      "loss": 3.8485,
      "step": 161190
    },
    {
      "epoch": 0.3358333333333333,
      "grad_norm": 0.7740077972412109,
      "learning_rate": 0.00022511380796825297,
      "loss": 3.7879,
      "step": 161200
    },
    {
      "epoch": 0.3358541666666667,
      "grad_norm": 0.76587975025177,
      "learning_rate": 0.0002251052743703963,
      "loss": 3.8296,
      "step": 161210
    },
    {
      "epoch": 0.335875,
      "grad_norm": 0.8353256583213806,
      "learning_rate": 0.0002250967404481146,
      "loss": 3.8239,
      "step": 161220
    },
    {
      "epoch": 0.33589583333333334,
      "grad_norm": 0.800739586353302,
      "learning_rate": 0.00022508820620144467,
      "loss": 4.1205,
      "step": 161230
    },
    {
      "epoch": 0.33591666666666664,
      "grad_norm": 0.8228893876075745,
      "learning_rate": 0.00022507967163042347,
      "loss": 3.9179,
      "step": 161240
    },
    {
      "epoch": 0.3359375,
      "grad_norm": 0.790118396282196,
      "learning_rate": 0.00022507113673508777,
      "loss": 3.8415,
      "step": 161250
    },
    {
      "epoch": 0.33595833333333336,
      "grad_norm": 0.8188787698745728,
      "learning_rate": 0.0002250626015154745,
      "loss": 3.9493,
      "step": 161260
    },
    {
      "epoch": 0.33597916666666666,
      "grad_norm": 0.7968183159828186,
      "learning_rate": 0.0002250540659716205,
      "loss": 3.7383,
      "step": 161270
    },
    {
      "epoch": 0.336,
      "grad_norm": 0.7781060338020325,
      "learning_rate": 0.00022504553010356258,
      "loss": 3.8932,
      "step": 161280
    },
    {
      "epoch": 0.3360208333333333,
      "grad_norm": 0.7393187880516052,
      "learning_rate": 0.00022503699391133772,
      "loss": 3.7565,
      "step": 161290
    },
    {
      "epoch": 0.3360416666666667,
      "grad_norm": 0.784275472164154,
      "learning_rate": 0.00022502845739498278,
      "loss": 3.7459,
      "step": 161300
    },
    {
      "epoch": 0.3360625,
      "grad_norm": 0.7720041871070862,
      "learning_rate": 0.00022501992055453456,
      "loss": 3.9026,
      "step": 161310
    },
    {
      "epoch": 0.33608333333333335,
      "grad_norm": 0.8922554850578308,
      "learning_rate": 0.00022501138339003004,
      "loss": 3.7957,
      "step": 161320
    },
    {
      "epoch": 0.33610416666666665,
      "grad_norm": 0.7490319609642029,
      "learning_rate": 0.00022500284590150596,
      "loss": 3.999,
      "step": 161330
    },
    {
      "epoch": 0.336125,
      "grad_norm": 0.6888133883476257,
      "learning_rate": 0.0002249943080889993,
      "loss": 3.8832,
      "step": 161340
    },
    {
      "epoch": 0.3361458333333333,
      "grad_norm": 0.803763747215271,
      "learning_rate": 0.00022498576995254693,
      "loss": 3.7628,
      "step": 161350
    },
    {
      "epoch": 0.33616666666666667,
      "grad_norm": 0.931100606918335,
      "learning_rate": 0.00022497723149218567,
      "loss": 3.8165,
      "step": 161360
    },
    {
      "epoch": 0.3361875,
      "grad_norm": 0.7698578238487244,
      "learning_rate": 0.0002249686927079525,
      "loss": 3.9748,
      "step": 161370
    },
    {
      "epoch": 0.33620833333333333,
      "grad_norm": 1.2384628057479858,
      "learning_rate": 0.00022496015359988424,
      "loss": 3.9076,
      "step": 161380
    },
    {
      "epoch": 0.3362291666666667,
      "grad_norm": 0.7465835809707642,
      "learning_rate": 0.00022495161416801778,
      "loss": 3.8884,
      "step": 161390
    },
    {
      "epoch": 0.33625,
      "grad_norm": 0.6801832914352417,
      "learning_rate": 0.00022494307441238998,
      "loss": 3.9957,
      "step": 161400
    },
    {
      "epoch": 0.33627083333333335,
      "grad_norm": 0.7151057124137878,
      "learning_rate": 0.00022493453433303784,
      "loss": 3.9048,
      "step": 161410
    },
    {
      "epoch": 0.33629166666666666,
      "grad_norm": 0.7193798422813416,
      "learning_rate": 0.0002249259939299981,
      "loss": 3.756,
      "step": 161420
    },
    {
      "epoch": 0.3363125,
      "grad_norm": 0.7571346163749695,
      "learning_rate": 0.00022491745320330774,
      "loss": 3.8535,
      "step": 161430
    },
    {
      "epoch": 0.3363333333333333,
      "grad_norm": 0.7313126921653748,
      "learning_rate": 0.00022490891215300366,
      "loss": 3.8794,
      "step": 161440
    },
    {
      "epoch": 0.3363541666666667,
      "grad_norm": 0.68695467710495,
      "learning_rate": 0.00022490037077912273,
      "loss": 3.6366,
      "step": 161450
    },
    {
      "epoch": 0.336375,
      "grad_norm": 0.9170703291893005,
      "learning_rate": 0.00022489182908170185,
      "loss": 3.8419,
      "step": 161460
    },
    {
      "epoch": 0.33639583333333334,
      "grad_norm": 0.8112848997116089,
      "learning_rate": 0.0002248832870607779,
      "loss": 3.6806,
      "step": 161470
    },
    {
      "epoch": 0.33641666666666664,
      "grad_norm": 0.7185225486755371,
      "learning_rate": 0.00022487474471638778,
      "loss": 3.7491,
      "step": 161480
    },
    {
      "epoch": 0.3364375,
      "grad_norm": 0.8935691714286804,
      "learning_rate": 0.0002248662020485684,
      "loss": 3.7967,
      "step": 161490
    },
    {
      "epoch": 0.33645833333333336,
      "grad_norm": 0.7331139445304871,
      "learning_rate": 0.0002248576590573567,
      "loss": 3.5522,
      "step": 161500
    },
    {
      "epoch": 0.33647916666666666,
      "grad_norm": 0.7493259906768799,
      "learning_rate": 0.00022484911574278949,
      "loss": 3.7627,
      "step": 161510
    },
    {
      "epoch": 0.3365,
      "grad_norm": 0.8504513502120972,
      "learning_rate": 0.00022484057210490378,
      "loss": 3.8404,
      "step": 161520
    },
    {
      "epoch": 0.3365208333333333,
      "grad_norm": 0.8003252744674683,
      "learning_rate": 0.0002248320281437364,
      "loss": 3.705,
      "step": 161530
    },
    {
      "epoch": 0.3365416666666667,
      "grad_norm": 0.7666180729866028,
      "learning_rate": 0.00022482348385932422,
      "loss": 3.8961,
      "step": 161540
    },
    {
      "epoch": 0.3365625,
      "grad_norm": 0.701574981212616,
      "learning_rate": 0.00022481493925170432,
      "loss": 3.8685,
      "step": 161550
    },
    {
      "epoch": 0.33658333333333335,
      "grad_norm": 0.865974485874176,
      "learning_rate": 0.0002248063943209134,
      "loss": 3.8989,
      "step": 161560
    },
    {
      "epoch": 0.33660416666666665,
      "grad_norm": 0.7125111222267151,
      "learning_rate": 0.0002247978490669885,
      "loss": 3.8151,
      "step": 161570
    },
    {
      "epoch": 0.336625,
      "grad_norm": 0.7805473208427429,
      "learning_rate": 0.00022478930348996648,
      "loss": 3.8975,
      "step": 161580
    },
    {
      "epoch": 0.3366458333333333,
      "grad_norm": 0.7642998695373535,
      "learning_rate": 0.00022478075758988433,
      "loss": 3.8571,
      "step": 161590
    },
    {
      "epoch": 0.33666666666666667,
      "grad_norm": 0.8013113141059875,
      "learning_rate": 0.00022477221136677885,
      "loss": 3.6664,
      "step": 161600
    },
    {
      "epoch": 0.3366875,
      "grad_norm": 0.7945038080215454,
      "learning_rate": 0.00022476366482068706,
      "loss": 3.82,
      "step": 161610
    },
    {
      "epoch": 0.33670833333333333,
      "grad_norm": 0.9012323617935181,
      "learning_rate": 0.0002247551179516458,
      "loss": 3.7844,
      "step": 161620
    },
    {
      "epoch": 0.3367291666666667,
      "grad_norm": 0.8182661533355713,
      "learning_rate": 0.00022474657075969207,
      "loss": 4.0187,
      "step": 161630
    },
    {
      "epoch": 0.33675,
      "grad_norm": 0.7956565618515015,
      "learning_rate": 0.00022473802324486262,
      "loss": 3.6923,
      "step": 161640
    },
    {
      "epoch": 0.33677083333333335,
      "grad_norm": 0.7821783423423767,
      "learning_rate": 0.0002247294754071946,
      "loss": 3.7386,
      "step": 161650
    },
    {
      "epoch": 0.33679166666666666,
      "grad_norm": 0.9376593828201294,
      "learning_rate": 0.00022472092724672483,
      "loss": 3.8714,
      "step": 161660
    },
    {
      "epoch": 0.3368125,
      "grad_norm": 0.9851951599121094,
      "learning_rate": 0.0002247123787634902,
      "loss": 3.9167,
      "step": 161670
    },
    {
      "epoch": 0.3368333333333333,
      "grad_norm": 0.7363185882568359,
      "learning_rate": 0.00022470382995752762,
      "loss": 3.7632,
      "step": 161680
    },
    {
      "epoch": 0.3368541666666667,
      "grad_norm": 0.7068263292312622,
      "learning_rate": 0.00022469528082887414,
      "loss": 4.031,
      "step": 161690
    },
    {
      "epoch": 0.336875,
      "grad_norm": 0.7867138981819153,
      "learning_rate": 0.0002246867313775666,
      "loss": 3.8584,
      "step": 161700
    },
    {
      "epoch": 0.33689583333333334,
      "grad_norm": 0.917365550994873,
      "learning_rate": 0.0002246781816036419,
      "loss": 3.7877,
      "step": 161710
    },
    {
      "epoch": 0.33691666666666664,
      "grad_norm": 0.787272036075592,
      "learning_rate": 0.00022466963150713707,
      "loss": 3.7695,
      "step": 161720
    },
    {
      "epoch": 0.3369375,
      "grad_norm": 0.8351091146469116,
      "learning_rate": 0.00022466108108808893,
      "loss": 3.8713,
      "step": 161730
    },
    {
      "epoch": 0.33695833333333336,
      "grad_norm": 0.8188698887825012,
      "learning_rate": 0.00022465253034653453,
      "loss": 3.9939,
      "step": 161740
    },
    {
      "epoch": 0.33697916666666666,
      "grad_norm": 0.6697468757629395,
      "learning_rate": 0.00022464397928251072,
      "loss": 3.5174,
      "step": 161750
    },
    {
      "epoch": 0.337,
      "grad_norm": 0.845815896987915,
      "learning_rate": 0.00022463542789605444,
      "loss": 3.82,
      "step": 161760
    },
    {
      "epoch": 0.3370208333333333,
      "grad_norm": 0.7369487285614014,
      "learning_rate": 0.00022462687618720272,
      "loss": 3.9926,
      "step": 161770
    },
    {
      "epoch": 0.3370416666666667,
      "grad_norm": 0.8395229578018188,
      "learning_rate": 0.00022461832415599238,
      "loss": 3.7224,
      "step": 161780
    },
    {
      "epoch": 0.3370625,
      "grad_norm": 0.7305222749710083,
      "learning_rate": 0.00022460977180246042,
      "loss": 3.7609,
      "step": 161790
    },
    {
      "epoch": 0.33708333333333335,
      "grad_norm": 0.8242762684822083,
      "learning_rate": 0.00022460121912664383,
      "loss": 3.7717,
      "step": 161800
    },
    {
      "epoch": 0.33710416666666665,
      "grad_norm": 0.8735021948814392,
      "learning_rate": 0.00022459266612857943,
      "loss": 3.9352,
      "step": 161810
    },
    {
      "epoch": 0.337125,
      "grad_norm": 0.6708752512931824,
      "learning_rate": 0.00022458411280830429,
      "loss": 3.9017,
      "step": 161820
    },
    {
      "epoch": 0.3371458333333333,
      "grad_norm": 0.7542699575424194,
      "learning_rate": 0.00022457555916585527,
      "loss": 3.7751,
      "step": 161830
    },
    {
      "epoch": 0.33716666666666667,
      "grad_norm": 0.9501476287841797,
      "learning_rate": 0.00022456700520126938,
      "loss": 3.8691,
      "step": 161840
    },
    {
      "epoch": 0.3371875,
      "grad_norm": 0.8099088668823242,
      "learning_rate": 0.00022455845091458353,
      "loss": 3.8831,
      "step": 161850
    },
    {
      "epoch": 0.33720833333333333,
      "grad_norm": 0.9762375950813293,
      "learning_rate": 0.00022454989630583472,
      "loss": 3.7337,
      "step": 161860
    },
    {
      "epoch": 0.3372291666666667,
      "grad_norm": 0.7395829558372498,
      "learning_rate": 0.0002245413413750598,
      "loss": 3.8241,
      "step": 161870
    },
    {
      "epoch": 0.33725,
      "grad_norm": 0.7870033979415894,
      "learning_rate": 0.0002245327861222958,
      "loss": 3.6597,
      "step": 161880
    },
    {
      "epoch": 0.33727083333333335,
      "grad_norm": 0.73088139295578,
      "learning_rate": 0.00022452423054757973,
      "loss": 3.6433,
      "step": 161890
    },
    {
      "epoch": 0.33729166666666666,
      "grad_norm": 0.7078539729118347,
      "learning_rate": 0.00022451567465094844,
      "loss": 3.7436,
      "step": 161900
    },
    {
      "epoch": 0.3373125,
      "grad_norm": 0.977739155292511,
      "learning_rate": 0.00022450711843243894,
      "loss": 3.8131,
      "step": 161910
    },
    {
      "epoch": 0.3373333333333333,
      "grad_norm": 0.8152413368225098,
      "learning_rate": 0.00022449856189208815,
      "loss": 3.865,
      "step": 161920
    },
    {
      "epoch": 0.3373541666666667,
      "grad_norm": 0.9324671626091003,
      "learning_rate": 0.0002244900050299331,
      "loss": 3.7135,
      "step": 161930
    },
    {
      "epoch": 0.337375,
      "grad_norm": 0.8450120091438293,
      "learning_rate": 0.0002244814478460107,
      "loss": 3.8059,
      "step": 161940
    },
    {
      "epoch": 0.33739583333333334,
      "grad_norm": 0.704798698425293,
      "learning_rate": 0.00022447289034035792,
      "loss": 3.6971,
      "step": 161950
    },
    {
      "epoch": 0.33741666666666664,
      "grad_norm": 0.8387563228607178,
      "learning_rate": 0.00022446433251301174,
      "loss": 3.8364,
      "step": 161960
    },
    {
      "epoch": 0.3374375,
      "grad_norm": 0.944317102432251,
      "learning_rate": 0.00022445577436400912,
      "loss": 3.8916,
      "step": 161970
    },
    {
      "epoch": 0.33745833333333336,
      "grad_norm": 0.8144242763519287,
      "learning_rate": 0.00022444721589338703,
      "loss": 3.8856,
      "step": 161980
    },
    {
      "epoch": 0.33747916666666666,
      "grad_norm": 0.8684241771697998,
      "learning_rate": 0.00022443865710118242,
      "loss": 3.8193,
      "step": 161990
    },
    {
      "epoch": 0.3375,
      "grad_norm": 0.7058635950088501,
      "learning_rate": 0.00022443009798743231,
      "loss": 3.9928,
      "step": 162000
    },
    {
      "epoch": 0.3375,
      "eval_loss": 4.2032599449157715,
      "eval_runtime": 9.3735,
      "eval_samples_per_second": 1.067,
      "eval_steps_per_second": 0.32,
      "step": 162000
    },
    {
      "epoch": 0.3375208333333333,
      "grad_norm": 0.8353533148765564,
      "learning_rate": 0.00022442153855217357,
      "loss": 3.8458,
      "step": 162010
    },
    {
      "epoch": 0.3375416666666667,
      "grad_norm": 0.7015066146850586,
      "learning_rate": 0.00022441297879544327,
      "loss": 3.7416,
      "step": 162020
    },
    {
      "epoch": 0.3375625,
      "grad_norm": 0.8300061225891113,
      "learning_rate": 0.00022440441871727842,
      "loss": 3.9311,
      "step": 162030
    },
    {
      "epoch": 0.33758333333333335,
      "grad_norm": 0.8146975040435791,
      "learning_rate": 0.00022439585831771587,
      "loss": 3.8866,
      "step": 162040
    },
    {
      "epoch": 0.33760416666666665,
      "grad_norm": 0.8246369361877441,
      "learning_rate": 0.0002243872975967927,
      "loss": 3.8688,
      "step": 162050
    },
    {
      "epoch": 0.337625,
      "grad_norm": 0.844062864780426,
      "learning_rate": 0.0002243787365545458,
      "loss": 3.762,
      "step": 162060
    },
    {
      "epoch": 0.3376458333333333,
      "grad_norm": 0.936926543712616,
      "learning_rate": 0.00022437017519101222,
      "loss": 3.737,
      "step": 162070
    },
    {
      "epoch": 0.33766666666666667,
      "grad_norm": 0.9023414254188538,
      "learning_rate": 0.00022436161350622893,
      "loss": 3.7438,
      "step": 162080
    },
    {
      "epoch": 0.3376875,
      "grad_norm": 0.8851797580718994,
      "learning_rate": 0.0002243530515002329,
      "loss": 3.9655,
      "step": 162090
    },
    {
      "epoch": 0.33770833333333333,
      "grad_norm": 0.9608364105224609,
      "learning_rate": 0.0002243444891730611,
      "loss": 3.7564,
      "step": 162100
    },
    {
      "epoch": 0.3377291666666667,
      "grad_norm": 0.7312771081924438,
      "learning_rate": 0.00022433592652475054,
      "loss": 3.7034,
      "step": 162110
    },
    {
      "epoch": 0.33775,
      "grad_norm": 0.7257129549980164,
      "learning_rate": 0.00022432736355533823,
      "loss": 3.7838,
      "step": 162120
    },
    {
      "epoch": 0.33777083333333335,
      "grad_norm": 1.1134188175201416,
      "learning_rate": 0.00022431880026486112,
      "loss": 3.7949,
      "step": 162130
    },
    {
      "epoch": 0.33779166666666666,
      "grad_norm": 0.8423564434051514,
      "learning_rate": 0.0002243102366533562,
      "loss": 4.079,
      "step": 162140
    },
    {
      "epoch": 0.3378125,
      "grad_norm": 0.7340120673179626,
      "learning_rate": 0.00022430167272086048,
      "loss": 3.7196,
      "step": 162150
    },
    {
      "epoch": 0.3378333333333333,
      "grad_norm": 0.8669166564941406,
      "learning_rate": 0.00022429310846741092,
      "loss": 3.8457,
      "step": 162160
    },
    {
      "epoch": 0.3378541666666667,
      "grad_norm": 0.8837955594062805,
      "learning_rate": 0.00022428454389304458,
      "loss": 3.8864,
      "step": 162170
    },
    {
      "epoch": 0.337875,
      "grad_norm": 0.8116600513458252,
      "learning_rate": 0.00022427597899779835,
      "loss": 3.8102,
      "step": 162180
    },
    {
      "epoch": 0.33789583333333334,
      "grad_norm": 0.7678514719009399,
      "learning_rate": 0.00022426741378170934,
      "loss": 4.1167,
      "step": 162190
    },
    {
      "epoch": 0.33791666666666664,
      "grad_norm": 0.7088549733161926,
      "learning_rate": 0.00022425884824481452,
      "loss": 3.8488,
      "step": 162200
    },
    {
      "epoch": 0.3379375,
      "grad_norm": 0.7962321043014526,
      "learning_rate": 0.00022425028238715083,
      "loss": 3.7638,
      "step": 162210
    },
    {
      "epoch": 0.33795833333333336,
      "grad_norm": 0.7865862846374512,
      "learning_rate": 0.00022424171620875533,
      "loss": 3.6785,
      "step": 162220
    },
    {
      "epoch": 0.33797916666666666,
      "grad_norm": 0.7214135527610779,
      "learning_rate": 0.00022423314970966503,
      "loss": 3.9472,
      "step": 162230
    },
    {
      "epoch": 0.338,
      "grad_norm": 0.7691051959991455,
      "learning_rate": 0.00022422458288991683,
      "loss": 3.8026,
      "step": 162240
    },
    {
      "epoch": 0.3380208333333333,
      "grad_norm": 0.8255617022514343,
      "learning_rate": 0.00022421601574954786,
      "loss": 3.9514,
      "step": 162250
    },
    {
      "epoch": 0.3380416666666667,
      "grad_norm": 0.8241384625434875,
      "learning_rate": 0.0002242074482885951,
      "loss": 3.767,
      "step": 162260
    },
    {
      "epoch": 0.3380625,
      "grad_norm": 0.7710188031196594,
      "learning_rate": 0.00022419888050709548,
      "loss": 3.788,
      "step": 162270
    },
    {
      "epoch": 0.33808333333333335,
      "grad_norm": 0.7780107259750366,
      "learning_rate": 0.0002241903124050861,
      "loss": 3.8517,
      "step": 162280
    },
    {
      "epoch": 0.33810416666666665,
      "grad_norm": 0.7792707085609436,
      "learning_rate": 0.00022418174398260393,
      "loss": 3.6923,
      "step": 162290
    },
    {
      "epoch": 0.338125,
      "grad_norm": 0.8685335516929626,
      "learning_rate": 0.000224173175239686,
      "loss": 3.7999,
      "step": 162300
    },
    {
      "epoch": 0.3381458333333333,
      "grad_norm": 0.8685830235481262,
      "learning_rate": 0.0002241646061763693,
      "loss": 3.9133,
      "step": 162310
    },
    {
      "epoch": 0.33816666666666667,
      "grad_norm": 0.8649528622627258,
      "learning_rate": 0.00022415603679269084,
      "loss": 3.9061,
      "step": 162320
    },
    {
      "epoch": 0.3381875,
      "grad_norm": 0.7194604873657227,
      "learning_rate": 0.0002241474670886877,
      "loss": 3.8413,
      "step": 162330
    },
    {
      "epoch": 0.33820833333333333,
      "grad_norm": 0.7219035029411316,
      "learning_rate": 0.00022413889706439683,
      "loss": 3.7503,
      "step": 162340
    },
    {
      "epoch": 0.3382291666666667,
      "grad_norm": 0.9420003890991211,
      "learning_rate": 0.00022413032671985526,
      "loss": 3.6564,
      "step": 162350
    },
    {
      "epoch": 0.33825,
      "grad_norm": 0.7766323089599609,
      "learning_rate": 0.00022412175605510004,
      "loss": 3.8599,
      "step": 162360
    },
    {
      "epoch": 0.33827083333333335,
      "grad_norm": 0.870874285697937,
      "learning_rate": 0.00022411318507016816,
      "loss": 3.8228,
      "step": 162370
    },
    {
      "epoch": 0.33829166666666666,
      "grad_norm": 1.3064881563186646,
      "learning_rate": 0.00022410461376509664,
      "loss": 3.8267,
      "step": 162380
    },
    {
      "epoch": 0.3383125,
      "grad_norm": 0.8756051659584045,
      "learning_rate": 0.00022409604213992256,
      "loss": 3.8799,
      "step": 162390
    },
    {
      "epoch": 0.3383333333333333,
      "grad_norm": 0.7875654101371765,
      "learning_rate": 0.0002240874701946829,
      "loss": 3.832,
      "step": 162400
    },
    {
      "epoch": 0.3383541666666667,
      "grad_norm": 0.8143753409385681,
      "learning_rate": 0.00022407889792941467,
      "loss": 3.939,
      "step": 162410
    },
    {
      "epoch": 0.338375,
      "grad_norm": 0.7506561875343323,
      "learning_rate": 0.00022407032534415492,
      "loss": 3.8429,
      "step": 162420
    },
    {
      "epoch": 0.33839583333333334,
      "grad_norm": 0.7098858952522278,
      "learning_rate": 0.0002240617524389407,
      "loss": 3.8632,
      "step": 162430
    },
    {
      "epoch": 0.33841666666666664,
      "grad_norm": 0.7954837679862976,
      "learning_rate": 0.00022405317921380904,
      "loss": 3.7824,
      "step": 162440
    },
    {
      "epoch": 0.3384375,
      "grad_norm": 0.6975426077842712,
      "learning_rate": 0.00022404460566879692,
      "loss": 3.8679,
      "step": 162450
    },
    {
      "epoch": 0.33845833333333336,
      "grad_norm": 0.8386011123657227,
      "learning_rate": 0.00022403603180394145,
      "loss": 3.8805,
      "step": 162460
    },
    {
      "epoch": 0.33847916666666666,
      "grad_norm": 0.7488139271736145,
      "learning_rate": 0.00022402745761927962,
      "loss": 3.8381,
      "step": 162470
    },
    {
      "epoch": 0.3385,
      "grad_norm": 0.7422259449958801,
      "learning_rate": 0.00022401888311484846,
      "loss": 4.065,
      "step": 162480
    },
    {
      "epoch": 0.3385208333333333,
      "grad_norm": 0.819407045841217,
      "learning_rate": 0.00022401030829068505,
      "loss": 3.7742,
      "step": 162490
    },
    {
      "epoch": 0.3385416666666667,
      "grad_norm": 0.8531578779220581,
      "learning_rate": 0.0002240017331468264,
      "loss": 3.8133,
      "step": 162500
    },
    {
      "epoch": 0.3385625,
      "grad_norm": 0.9475398659706116,
      "learning_rate": 0.00022399315768330952,
      "loss": 3.7901,
      "step": 162510
    },
    {
      "epoch": 0.33858333333333335,
      "grad_norm": 0.9504541754722595,
      "learning_rate": 0.0002239845819001715,
      "loss": 3.9446,
      "step": 162520
    },
    {
      "epoch": 0.33860416666666665,
      "grad_norm": 0.9099427461624146,
      "learning_rate": 0.00022397600579744938,
      "loss": 3.8997,
      "step": 162530
    },
    {
      "epoch": 0.338625,
      "grad_norm": 0.6823888421058655,
      "learning_rate": 0.0002239674293751802,
      "loss": 3.8303,
      "step": 162540
    },
    {
      "epoch": 0.3386458333333333,
      "grad_norm": 0.912667989730835,
      "learning_rate": 0.00022395885263340096,
      "loss": 3.8711,
      "step": 162550
    },
    {
      "epoch": 0.33866666666666667,
      "grad_norm": 0.7500022053718567,
      "learning_rate": 0.00022395027557214884,
      "loss": 3.8398,
      "step": 162560
    },
    {
      "epoch": 0.3386875,
      "grad_norm": 0.7269892692565918,
      "learning_rate": 0.00022394169819146074,
      "loss": 3.9257,
      "step": 162570
    },
    {
      "epoch": 0.33870833333333333,
      "grad_norm": 0.7344419360160828,
      "learning_rate": 0.00022393312049137377,
      "loss": 3.7826,
      "step": 162580
    },
    {
      "epoch": 0.3387291666666667,
      "grad_norm": 0.6915241479873657,
      "learning_rate": 0.000223924542471925,
      "loss": 3.8062,
      "step": 162590
    },
    {
      "epoch": 0.33875,
      "grad_norm": 1.1495962142944336,
      "learning_rate": 0.00022391596413315148,
      "loss": 3.7065,
      "step": 162600
    },
    {
      "epoch": 0.33877083333333335,
      "grad_norm": 0.8038231134414673,
      "learning_rate": 0.00022390738547509024,
      "loss": 3.8681,
      "step": 162610
    },
    {
      "epoch": 0.33879166666666666,
      "grad_norm": 1.0068203210830688,
      "learning_rate": 0.00022389880649777835,
      "loss": 3.8779,
      "step": 162620
    },
    {
      "epoch": 0.3388125,
      "grad_norm": 0.7612840533256531,
      "learning_rate": 0.00022389022720125285,
      "loss": 3.9262,
      "step": 162630
    },
    {
      "epoch": 0.3388333333333333,
      "grad_norm": 0.9038035273551941,
      "learning_rate": 0.00022388164758555082,
      "loss": 3.9953,
      "step": 162640
    },
    {
      "epoch": 0.3388541666666667,
      "grad_norm": 0.8066266775131226,
      "learning_rate": 0.00022387306765070936,
      "loss": 3.6948,
      "step": 162650
    },
    {
      "epoch": 0.338875,
      "grad_norm": 0.9278737306594849,
      "learning_rate": 0.00022386448739676544,
      "loss": 3.7491,
      "step": 162660
    },
    {
      "epoch": 0.33889583333333334,
      "grad_norm": 0.7791170477867126,
      "learning_rate": 0.0002238559068237562,
      "loss": 3.9663,
      "step": 162670
    },
    {
      "epoch": 0.33891666666666664,
      "grad_norm": 0.7392423152923584,
      "learning_rate": 0.00022384732593171863,
      "loss": 3.8132,
      "step": 162680
    },
    {
      "epoch": 0.3389375,
      "grad_norm": 0.6486769318580627,
      "learning_rate": 0.00022383874472068992,
      "loss": 3.9727,
      "step": 162690
    },
    {
      "epoch": 0.3389583333333333,
      "grad_norm": 0.780480682849884,
      "learning_rate": 0.00022383016319070702,
      "loss": 3.9722,
      "step": 162700
    },
    {
      "epoch": 0.33897916666666666,
      "grad_norm": 0.8251445889472961,
      "learning_rate": 0.00022382158134180702,
      "loss": 3.8188,
      "step": 162710
    },
    {
      "epoch": 0.339,
      "grad_norm": 0.7677403092384338,
      "learning_rate": 0.000223812999174027,
      "loss": 3.7653,
      "step": 162720
    },
    {
      "epoch": 0.3390208333333333,
      "grad_norm": 0.8937010169029236,
      "learning_rate": 0.00022380441668740412,
      "loss": 3.7617,
      "step": 162730
    },
    {
      "epoch": 0.3390416666666667,
      "grad_norm": 0.8139725923538208,
      "learning_rate": 0.00022379583388197532,
      "loss": 3.8422,
      "step": 162740
    },
    {
      "epoch": 0.3390625,
      "grad_norm": 0.7936862111091614,
      "learning_rate": 0.0002237872507577777,
      "loss": 3.8988,
      "step": 162750
    },
    {
      "epoch": 0.33908333333333335,
      "grad_norm": 0.7006637454032898,
      "learning_rate": 0.00022377866731484842,
      "loss": 3.9414,
      "step": 162760
    },
    {
      "epoch": 0.33910416666666665,
      "grad_norm": 0.7107028961181641,
      "learning_rate": 0.00022377008355322446,
      "loss": 3.6232,
      "step": 162770
    },
    {
      "epoch": 0.339125,
      "grad_norm": 0.6773383617401123,
      "learning_rate": 0.00022376149947294296,
      "loss": 3.774,
      "step": 162780
    },
    {
      "epoch": 0.3391458333333333,
      "grad_norm": 0.7945216298103333,
      "learning_rate": 0.00022375291507404098,
      "loss": 3.8868,
      "step": 162790
    },
    {
      "epoch": 0.33916666666666667,
      "grad_norm": 0.6893982887268066,
      "learning_rate": 0.0002237443303565556,
      "loss": 3.797,
      "step": 162800
    },
    {
      "epoch": 0.3391875,
      "grad_norm": 0.7048799395561218,
      "learning_rate": 0.00022373574532052388,
      "loss": 3.9622,
      "step": 162810
    },
    {
      "epoch": 0.33920833333333333,
      "grad_norm": 0.8741893172264099,
      "learning_rate": 0.00022372715996598293,
      "loss": 3.7468,
      "step": 162820
    },
    {
      "epoch": 0.3392291666666667,
      "grad_norm": 0.9429046511650085,
      "learning_rate": 0.00022371857429296984,
      "loss": 3.9635,
      "step": 162830
    },
    {
      "epoch": 0.33925,
      "grad_norm": 0.8937790989875793,
      "learning_rate": 0.00022370998830152172,
      "loss": 4.0187,
      "step": 162840
    },
    {
      "epoch": 0.33927083333333335,
      "grad_norm": 0.7346121072769165,
      "learning_rate": 0.00022370140199167558,
      "loss": 3.8207,
      "step": 162850
    },
    {
      "epoch": 0.33929166666666666,
      "grad_norm": 0.8482304215431213,
      "learning_rate": 0.00022369281536346858,
      "loss": 3.6244,
      "step": 162860
    },
    {
      "epoch": 0.3393125,
      "grad_norm": 0.8551393747329712,
      "learning_rate": 0.00022368422841693782,
      "loss": 3.7164,
      "step": 162870
    },
    {
      "epoch": 0.3393333333333333,
      "grad_norm": 0.8687646389007568,
      "learning_rate": 0.00022367564115212028,
      "loss": 3.7968,
      "step": 162880
    },
    {
      "epoch": 0.3393541666666667,
      "grad_norm": 0.842552661895752,
      "learning_rate": 0.00022366705356905318,
      "loss": 3.7525,
      "step": 162890
    },
    {
      "epoch": 0.339375,
      "grad_norm": 1.0575963258743286,
      "learning_rate": 0.00022365846566777358,
      "loss": 3.8784,
      "step": 162900
    },
    {
      "epoch": 0.33939583333333334,
      "grad_norm": 0.8636388182640076,
      "learning_rate": 0.00022364987744831857,
      "loss": 4.0096,
      "step": 162910
    },
    {
      "epoch": 0.33941666666666664,
      "grad_norm": 0.7298503518104553,
      "learning_rate": 0.0002236412889107252,
      "loss": 3.9361,
      "step": 162920
    },
    {
      "epoch": 0.3394375,
      "grad_norm": 0.8263283371925354,
      "learning_rate": 0.00022363270005503063,
      "loss": 3.7771,
      "step": 162930
    },
    {
      "epoch": 0.3394583333333333,
      "grad_norm": 0.7716777324676514,
      "learning_rate": 0.00022362411088127195,
      "loss": 3.8522,
      "step": 162940
    },
    {
      "epoch": 0.33947916666666667,
      "grad_norm": 0.7627153992652893,
      "learning_rate": 0.00022361552138948625,
      "loss": 3.8196,
      "step": 162950
    },
    {
      "epoch": 0.3395,
      "grad_norm": 0.6954110264778137,
      "learning_rate": 0.00022360693157971062,
      "loss": 3.9937,
      "step": 162960
    },
    {
      "epoch": 0.3395208333333333,
      "grad_norm": 0.6885900497436523,
      "learning_rate": 0.0002235983414519822,
      "loss": 3.9652,
      "step": 162970
    },
    {
      "epoch": 0.3395416666666667,
      "grad_norm": 0.811052680015564,
      "learning_rate": 0.00022358975100633807,
      "loss": 3.7854,
      "step": 162980
    },
    {
      "epoch": 0.3395625,
      "grad_norm": 0.7713325619697571,
      "learning_rate": 0.00022358116024281537,
      "loss": 3.8622,
      "step": 162990
    },
    {
      "epoch": 0.33958333333333335,
      "grad_norm": 0.842277467250824,
      "learning_rate": 0.00022357256916145113,
      "loss": 3.9021,
      "step": 163000
    },
    {
      "epoch": 0.33958333333333335,
      "eval_loss": 4.1991777420043945,
      "eval_runtime": 9.5253,
      "eval_samples_per_second": 1.05,
      "eval_steps_per_second": 0.315,
      "step": 163000
    },
    {
      "epoch": 0.33960416666666665,
      "grad_norm": 0.8433650732040405,
      "learning_rate": 0.00022356397776228257,
      "loss": 3.8739,
      "step": 163010
    },
    {
      "epoch": 0.339625,
      "grad_norm": 0.8233677744865417,
      "learning_rate": 0.0002235553860453467,
      "loss": 4.0101,
      "step": 163020
    },
    {
      "epoch": 0.3396458333333333,
      "grad_norm": 0.7544223666191101,
      "learning_rate": 0.0002235467940106807,
      "loss": 3.7366,
      "step": 163030
    },
    {
      "epoch": 0.3396666666666667,
      "grad_norm": 0.7809593677520752,
      "learning_rate": 0.00022353820165832167,
      "loss": 3.9408,
      "step": 163040
    },
    {
      "epoch": 0.3396875,
      "grad_norm": 1.0621302127838135,
      "learning_rate": 0.00022352960898830668,
      "loss": 3.8008,
      "step": 163050
    },
    {
      "epoch": 0.33970833333333333,
      "grad_norm": 0.7139571309089661,
      "learning_rate": 0.0002235210160006729,
      "loss": 3.584,
      "step": 163060
    },
    {
      "epoch": 0.3397291666666667,
      "grad_norm": 0.8365954160690308,
      "learning_rate": 0.00022351242269545745,
      "loss": 3.9713,
      "step": 163070
    },
    {
      "epoch": 0.33975,
      "grad_norm": 0.7173281908035278,
      "learning_rate": 0.00022350382907269744,
      "loss": 3.7581,
      "step": 163080
    },
    {
      "epoch": 0.33977083333333336,
      "grad_norm": 0.9344863891601562,
      "learning_rate": 0.00022349523513242998,
      "loss": 3.9045,
      "step": 163090
    },
    {
      "epoch": 0.33979166666666666,
      "grad_norm": 0.7843417525291443,
      "learning_rate": 0.00022348664087469216,
      "loss": 3.8817,
      "step": 163100
    },
    {
      "epoch": 0.3398125,
      "grad_norm": 0.814055860042572,
      "learning_rate": 0.00022347804629952117,
      "loss": 3.9065,
      "step": 163110
    },
    {
      "epoch": 0.3398333333333333,
      "grad_norm": 0.8950504660606384,
      "learning_rate": 0.0002234694514069541,
      "loss": 3.7647,
      "step": 163120
    },
    {
      "epoch": 0.3398541666666667,
      "grad_norm": 0.7298876047134399,
      "learning_rate": 0.0002234608561970281,
      "loss": 3.7795,
      "step": 163130
    },
    {
      "epoch": 0.339875,
      "grad_norm": 0.7702310681343079,
      "learning_rate": 0.00022345226066978024,
      "loss": 3.7947,
      "step": 163140
    },
    {
      "epoch": 0.33989583333333334,
      "grad_norm": 0.7652264833450317,
      "learning_rate": 0.0002234436648252477,
      "loss": 3.8722,
      "step": 163150
    },
    {
      "epoch": 0.33991666666666664,
      "grad_norm": 0.9799349308013916,
      "learning_rate": 0.0002234350686634676,
      "loss": 3.8109,
      "step": 163160
    },
    {
      "epoch": 0.3399375,
      "grad_norm": 0.6899195313453674,
      "learning_rate": 0.00022342647218447708,
      "loss": 3.8445,
      "step": 163170
    },
    {
      "epoch": 0.3399583333333333,
      "grad_norm": 0.8598687648773193,
      "learning_rate": 0.00022341787538831325,
      "loss": 3.9113,
      "step": 163180
    },
    {
      "epoch": 0.33997916666666667,
      "grad_norm": 0.7691072821617126,
      "learning_rate": 0.0002234092782750133,
      "loss": 3.8006,
      "step": 163190
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.7123309969902039,
      "learning_rate": 0.00022340068084461423,
      "loss": 3.8246,
      "step": 163200
    },
    {
      "epoch": 0.3400208333333333,
      "grad_norm": 0.7633480429649353,
      "learning_rate": 0.00022339208309715336,
      "loss": 3.6486,
      "step": 163210
    },
    {
      "epoch": 0.3400416666666667,
      "grad_norm": 0.833032488822937,
      "learning_rate": 0.00022338348503266774,
      "loss": 3.9169,
      "step": 163220
    },
    {
      "epoch": 0.3400625,
      "grad_norm": 0.7539108991622925,
      "learning_rate": 0.00022337488665119453,
      "loss": 3.7823,
      "step": 163230
    },
    {
      "epoch": 0.34008333333333335,
      "grad_norm": 0.8637943863868713,
      "learning_rate": 0.0002233662879527708,
      "loss": 3.6717,
      "step": 163240
    },
    {
      "epoch": 0.34010416666666665,
      "grad_norm": 0.746874988079071,
      "learning_rate": 0.00022335768893743372,
      "loss": 3.6959,
      "step": 163250
    },
    {
      "epoch": 0.340125,
      "grad_norm": 0.729773998260498,
      "learning_rate": 0.00022334908960522053,
      "loss": 3.7491,
      "step": 163260
    },
    {
      "epoch": 0.3401458333333333,
      "grad_norm": 0.7123587131500244,
      "learning_rate": 0.00022334048995616826,
      "loss": 4.0266,
      "step": 163270
    },
    {
      "epoch": 0.3401666666666667,
      "grad_norm": 0.8331839442253113,
      "learning_rate": 0.00022333188999031415,
      "loss": 3.7638,
      "step": 163280
    },
    {
      "epoch": 0.3401875,
      "grad_norm": 0.9594525098800659,
      "learning_rate": 0.00022332328970769524,
      "loss": 3.8084,
      "step": 163290
    },
    {
      "epoch": 0.34020833333333333,
      "grad_norm": 0.7556649446487427,
      "learning_rate": 0.00022331468910834876,
      "loss": 3.8248,
      "step": 163300
    },
    {
      "epoch": 0.3402291666666667,
      "grad_norm": 0.7333848476409912,
      "learning_rate": 0.00022330608819231187,
      "loss": 3.8125,
      "step": 163310
    },
    {
      "epoch": 0.34025,
      "grad_norm": 0.712689995765686,
      "learning_rate": 0.0002232974869596217,
      "loss": 3.8971,
      "step": 163320
    },
    {
      "epoch": 0.34027083333333336,
      "grad_norm": 0.7391846179962158,
      "learning_rate": 0.00022328888541031536,
      "loss": 3.9676,
      "step": 163330
    },
    {
      "epoch": 0.34029166666666666,
      "grad_norm": 0.938650369644165,
      "learning_rate": 0.00022328028354443006,
      "loss": 3.8126,
      "step": 163340
    },
    {
      "epoch": 0.3403125,
      "grad_norm": 0.8915513157844543,
      "learning_rate": 0.00022327168136200296,
      "loss": 3.7934,
      "step": 163350
    },
    {
      "epoch": 0.3403333333333333,
      "grad_norm": 0.7607614398002625,
      "learning_rate": 0.0002232630788630712,
      "loss": 4.1108,
      "step": 163360
    },
    {
      "epoch": 0.3403541666666667,
      "grad_norm": 0.75161212682724,
      "learning_rate": 0.00022325447604767195,
      "loss": 3.8309,
      "step": 163370
    },
    {
      "epoch": 0.340375,
      "grad_norm": 0.9297547340393066,
      "learning_rate": 0.00022324587291584232,
      "loss": 3.714,
      "step": 163380
    },
    {
      "epoch": 0.34039583333333334,
      "grad_norm": 0.7601382732391357,
      "learning_rate": 0.00022323726946761951,
      "loss": 4.1007,
      "step": 163390
    },
    {
      "epoch": 0.34041666666666665,
      "grad_norm": 0.7888949513435364,
      "learning_rate": 0.00022322866570304072,
      "loss": 3.7976,
      "step": 163400
    },
    {
      "epoch": 0.3404375,
      "grad_norm": 0.7978485226631165,
      "learning_rate": 0.0002232200616221431,
      "loss": 4.0261,
      "step": 163410
    },
    {
      "epoch": 0.3404583333333333,
      "grad_norm": 0.8528658747673035,
      "learning_rate": 0.00022321145722496372,
      "loss": 3.7181,
      "step": 163420
    },
    {
      "epoch": 0.34047916666666667,
      "grad_norm": 0.9142945408821106,
      "learning_rate": 0.00022320285251153989,
      "loss": 3.7234,
      "step": 163430
    },
    {
      "epoch": 0.3405,
      "grad_norm": 0.7955501079559326,
      "learning_rate": 0.00022319424748190868,
      "loss": 3.8239,
      "step": 163440
    },
    {
      "epoch": 0.34052083333333333,
      "grad_norm": 0.8578050136566162,
      "learning_rate": 0.00022318564213610727,
      "loss": 3.9861,
      "step": 163450
    },
    {
      "epoch": 0.3405416666666667,
      "grad_norm": 0.7331723570823669,
      "learning_rate": 0.0002231770364741729,
      "loss": 3.8233,
      "step": 163460
    },
    {
      "epoch": 0.3405625,
      "grad_norm": 0.7814936637878418,
      "learning_rate": 0.0002231684304961427,
      "loss": 3.7711,
      "step": 163470
    },
    {
      "epoch": 0.34058333333333335,
      "grad_norm": 0.8505702614784241,
      "learning_rate": 0.0002231598242020538,
      "loss": 3.7969,
      "step": 163480
    },
    {
      "epoch": 0.34060416666666665,
      "grad_norm": 0.7189124226570129,
      "learning_rate": 0.00022315121759194345,
      "loss": 3.9683,
      "step": 163490
    },
    {
      "epoch": 0.340625,
      "grad_norm": 0.732265830039978,
      "learning_rate": 0.0002231426106658488,
      "loss": 3.7594,
      "step": 163500
    },
    {
      "epoch": 0.3406458333333333,
      "grad_norm": 0.7158395648002625,
      "learning_rate": 0.000223134003423807,
      "loss": 3.989,
      "step": 163510
    },
    {
      "epoch": 0.3406666666666667,
      "grad_norm": 0.7778441905975342,
      "learning_rate": 0.00022312539586585525,
      "loss": 3.7031,
      "step": 163520
    },
    {
      "epoch": 0.3406875,
      "grad_norm": 0.7722747921943665,
      "learning_rate": 0.0002231167879920308,
      "loss": 3.8161,
      "step": 163530
    },
    {
      "epoch": 0.34070833333333334,
      "grad_norm": 0.6873409152030945,
      "learning_rate": 0.0002231081798023707,
      "loss": 3.7815,
      "step": 163540
    },
    {
      "epoch": 0.3407291666666667,
      "grad_norm": 0.8272677659988403,
      "learning_rate": 0.0002230995712969122,
      "loss": 3.7695,
      "step": 163550
    },
    {
      "epoch": 0.34075,
      "grad_norm": 0.7371286153793335,
      "learning_rate": 0.0002230909624756925,
      "loss": 3.9374,
      "step": 163560
    },
    {
      "epoch": 0.34077083333333336,
      "grad_norm": 0.7519714832305908,
      "learning_rate": 0.0002230823533387488,
      "loss": 3.9157,
      "step": 163570
    },
    {
      "epoch": 0.34079166666666666,
      "grad_norm": 0.8852696418762207,
      "learning_rate": 0.00022307374388611824,
      "loss": 3.7985,
      "step": 163580
    },
    {
      "epoch": 0.3408125,
      "grad_norm": 0.708808422088623,
      "learning_rate": 0.00022306513411783803,
      "loss": 3.8128,
      "step": 163590
    },
    {
      "epoch": 0.3408333333333333,
      "grad_norm": 0.7808141112327576,
      "learning_rate": 0.00022305652403394537,
      "loss": 3.7982,
      "step": 163600
    },
    {
      "epoch": 0.3408541666666667,
      "grad_norm": 0.8481780290603638,
      "learning_rate": 0.00022304791363447746,
      "loss": 3.8922,
      "step": 163610
    },
    {
      "epoch": 0.340875,
      "grad_norm": 0.6525086760520935,
      "learning_rate": 0.00022303930291947142,
      "loss": 3.9035,
      "step": 163620
    },
    {
      "epoch": 0.34089583333333334,
      "grad_norm": 0.7144172787666321,
      "learning_rate": 0.00022303069188896456,
      "loss": 3.913,
      "step": 163630
    },
    {
      "epoch": 0.34091666666666665,
      "grad_norm": 0.6976037621498108,
      "learning_rate": 0.000223022080542994,
      "loss": 3.8459,
      "step": 163640
    },
    {
      "epoch": 0.3409375,
      "grad_norm": 0.7542639970779419,
      "learning_rate": 0.0002230134688815969,
      "loss": 3.8444,
      "step": 163650
    },
    {
      "epoch": 0.3409583333333333,
      "grad_norm": 0.6954501271247864,
      "learning_rate": 0.0002230048569048106,
      "loss": 3.7235,
      "step": 163660
    },
    {
      "epoch": 0.34097916666666667,
      "grad_norm": 0.7160983681678772,
      "learning_rate": 0.0002229962446126722,
      "loss": 3.7482,
      "step": 163670
    },
    {
      "epoch": 0.341,
      "grad_norm": 0.7268792986869812,
      "learning_rate": 0.0002229876320052189,
      "loss": 3.7021,
      "step": 163680
    },
    {
      "epoch": 0.34102083333333333,
      "grad_norm": 0.7276800274848938,
      "learning_rate": 0.00022297901908248792,
      "loss": 3.859,
      "step": 163690
    },
    {
      "epoch": 0.3410416666666667,
      "grad_norm": 0.7673428058624268,
      "learning_rate": 0.00022297040584451646,
      "loss": 3.7324,
      "step": 163700
    },
    {
      "epoch": 0.3410625,
      "grad_norm": 0.8395126461982727,
      "learning_rate": 0.00022296179229134178,
      "loss": 3.8845,
      "step": 163710
    },
    {
      "epoch": 0.34108333333333335,
      "grad_norm": 0.8968262076377869,
      "learning_rate": 0.00022295317842300092,
      "loss": 3.9109,
      "step": 163720
    },
    {
      "epoch": 0.34110416666666665,
      "grad_norm": 0.8065314888954163,
      "learning_rate": 0.00022294456423953133,
      "loss": 3.81,
      "step": 163730
    },
    {
      "epoch": 0.341125,
      "grad_norm": 0.9860554933547974,
      "learning_rate": 0.00022293594974097004,
      "loss": 4.055,
      "step": 163740
    },
    {
      "epoch": 0.3411458333333333,
      "grad_norm": 0.8739829063415527,
      "learning_rate": 0.0002229273349273543,
      "loss": 3.8954,
      "step": 163750
    },
    {
      "epoch": 0.3411666666666667,
      "grad_norm": 1.084775447845459,
      "learning_rate": 0.00022291871979872137,
      "loss": 3.8753,
      "step": 163760
    },
    {
      "epoch": 0.3411875,
      "grad_norm": 0.7802477478981018,
      "learning_rate": 0.00022291010435510848,
      "loss": 3.958,
      "step": 163770
    },
    {
      "epoch": 0.34120833333333334,
      "grad_norm": 0.7784304022789001,
      "learning_rate": 0.00022290148859655272,
      "loss": 3.8391,
      "step": 163780
    },
    {
      "epoch": 0.34122916666666664,
      "grad_norm": 0.6460551619529724,
      "learning_rate": 0.00022289287252309138,
      "loss": 3.9195,
      "step": 163790
    },
    {
      "epoch": 0.34125,
      "grad_norm": 0.6839333176612854,
      "learning_rate": 0.00022288425613476175,
      "loss": 3.7467,
      "step": 163800
    },
    {
      "epoch": 0.34127083333333336,
      "grad_norm": 0.764503538608551,
      "learning_rate": 0.00022287563943160094,
      "loss": 3.7889,
      "step": 163810
    },
    {
      "epoch": 0.34129166666666666,
      "grad_norm": 0.8902916312217712,
      "learning_rate": 0.0002228670224136462,
      "loss": 4.0044,
      "step": 163820
    },
    {
      "epoch": 0.3413125,
      "grad_norm": 0.6845511794090271,
      "learning_rate": 0.0002228584050809348,
      "loss": 3.8112,
      "step": 163830
    },
    {
      "epoch": 0.3413333333333333,
      "grad_norm": 0.7585062384605408,
      "learning_rate": 0.0002228497874335039,
      "loss": 3.9019,
      "step": 163840
    },
    {
      "epoch": 0.3413541666666667,
      "grad_norm": 0.7508662343025208,
      "learning_rate": 0.00022284116947139082,
      "loss": 3.9334,
      "step": 163850
    },
    {
      "epoch": 0.341375,
      "grad_norm": 0.9822016954421997,
      "learning_rate": 0.00022283255119463264,
      "loss": 3.857,
      "step": 163860
    },
    {
      "epoch": 0.34139583333333334,
      "grad_norm": 0.740418016910553,
      "learning_rate": 0.00022282393260326672,
      "loss": 3.8041,
      "step": 163870
    },
    {
      "epoch": 0.34141666666666665,
      "grad_norm": 0.7233178615570068,
      "learning_rate": 0.0002228153136973302,
      "loss": 3.9753,
      "step": 163880
    },
    {
      "epoch": 0.3414375,
      "grad_norm": 0.7668260931968689,
      "learning_rate": 0.00022280669447686036,
      "loss": 3.8299,
      "step": 163890
    },
    {
      "epoch": 0.3414583333333333,
      "grad_norm": 0.7160347104072571,
      "learning_rate": 0.00022279807494189442,
      "loss": 3.7436,
      "step": 163900
    },
    {
      "epoch": 0.34147916666666667,
      "grad_norm": 1.1044518947601318,
      "learning_rate": 0.00022278945509246966,
      "loss": 3.8341,
      "step": 163910
    },
    {
      "epoch": 0.3415,
      "grad_norm": 0.8287116289138794,
      "learning_rate": 0.00022278083492862315,
      "loss": 3.8846,
      "step": 163920
    },
    {
      "epoch": 0.34152083333333333,
      "grad_norm": 0.7397081851959229,
      "learning_rate": 0.00022277221445039235,
      "loss": 3.9511,
      "step": 163930
    },
    {
      "epoch": 0.3415416666666667,
      "grad_norm": 0.7436086535453796,
      "learning_rate": 0.00022276359365781435,
      "loss": 3.8131,
      "step": 163940
    },
    {
      "epoch": 0.3415625,
      "grad_norm": 0.8313001990318298,
      "learning_rate": 0.0002227549725509264,
      "loss": 3.9204,
      "step": 163950
    },
    {
      "epoch": 0.34158333333333335,
      "grad_norm": 0.8296082615852356,
      "learning_rate": 0.00022274635112976585,
      "loss": 3.8208,
      "step": 163960
    },
    {
      "epoch": 0.34160416666666665,
      "grad_norm": 0.7451995015144348,
      "learning_rate": 0.00022273772939436978,
      "loss": 3.7768,
      "step": 163970
    },
    {
      "epoch": 0.341625,
      "grad_norm": 0.8164092302322388,
      "learning_rate": 0.00022272910734477555,
      "loss": 3.8796,
      "step": 163980
    },
    {
      "epoch": 0.3416458333333333,
      "grad_norm": 0.7611106038093567,
      "learning_rate": 0.00022272048498102033,
      "loss": 3.8858,
      "step": 163990
    },
    {
      "epoch": 0.3416666666666667,
      "grad_norm": 0.9333624243736267,
      "learning_rate": 0.00022271186230314144,
      "loss": 3.8111,
      "step": 164000
    },
    {
      "epoch": 0.3416666666666667,
      "eval_loss": 4.192226409912109,
      "eval_runtime": 8.8384,
      "eval_samples_per_second": 1.131,
      "eval_steps_per_second": 0.339,
      "step": 164000
    },
    {
      "epoch": 0.3416875,
      "grad_norm": 0.8831765651702881,
      "learning_rate": 0.00022270323931117606,
      "loss": 3.7022,
      "step": 164010
    },
    {
      "epoch": 0.34170833333333334,
      "grad_norm": 0.7656907439231873,
      "learning_rate": 0.00022269461600516146,
      "loss": 3.6989,
      "step": 164020
    },
    {
      "epoch": 0.34172916666666664,
      "grad_norm": 0.793042778968811,
      "learning_rate": 0.0002226859923851349,
      "loss": 3.8913,
      "step": 164030
    },
    {
      "epoch": 0.34175,
      "grad_norm": 0.7844091057777405,
      "learning_rate": 0.00022267736845113363,
      "loss": 3.7314,
      "step": 164040
    },
    {
      "epoch": 0.34177083333333336,
      "grad_norm": 0.6722793579101562,
      "learning_rate": 0.0002226687442031949,
      "loss": 4.0455,
      "step": 164050
    },
    {
      "epoch": 0.34179166666666666,
      "grad_norm": 0.6906174421310425,
      "learning_rate": 0.00022266011964135592,
      "loss": 3.7863,
      "step": 164060
    },
    {
      "epoch": 0.3418125,
      "grad_norm": 0.8937363028526306,
      "learning_rate": 0.00022265149476565402,
      "loss": 3.6509,
      "step": 164070
    },
    {
      "epoch": 0.3418333333333333,
      "grad_norm": 0.8254758715629578,
      "learning_rate": 0.00022264286957612644,
      "loss": 3.7082,
      "step": 164080
    },
    {
      "epoch": 0.3418541666666667,
      "grad_norm": 0.7210782170295715,
      "learning_rate": 0.00022263424407281037,
      "loss": 3.6924,
      "step": 164090
    },
    {
      "epoch": 0.341875,
      "grad_norm": 0.8202165961265564,
      "learning_rate": 0.00022262561825574315,
      "loss": 3.8682,
      "step": 164100
    },
    {
      "epoch": 0.34189583333333334,
      "grad_norm": 1.2153483629226685,
      "learning_rate": 0.000222616992124962,
      "loss": 3.7763,
      "step": 164110
    },
    {
      "epoch": 0.34191666666666665,
      "grad_norm": 0.92988121509552,
      "learning_rate": 0.00022260836568050417,
      "loss": 3.7895,
      "step": 164120
    },
    {
      "epoch": 0.3419375,
      "grad_norm": 0.663654625415802,
      "learning_rate": 0.00022259973892240696,
      "loss": 3.9123,
      "step": 164130
    },
    {
      "epoch": 0.3419583333333333,
      "grad_norm": 0.844950795173645,
      "learning_rate": 0.0002225911118507076,
      "loss": 3.6574,
      "step": 164140
    },
    {
      "epoch": 0.34197916666666667,
      "grad_norm": 0.9909403920173645,
      "learning_rate": 0.00022258248446544335,
      "loss": 3.9982,
      "step": 164150
    },
    {
      "epoch": 0.342,
      "grad_norm": 0.9754601716995239,
      "learning_rate": 0.00022257385676665155,
      "loss": 3.773,
      "step": 164160
    },
    {
      "epoch": 0.34202083333333333,
      "grad_norm": 0.7263383865356445,
      "learning_rate": 0.00022256522875436943,
      "loss": 3.7743,
      "step": 164170
    },
    {
      "epoch": 0.3420416666666667,
      "grad_norm": 0.8843432068824768,
      "learning_rate": 0.0002225566004286342,
      "loss": 3.7692,
      "step": 164180
    },
    {
      "epoch": 0.3420625,
      "grad_norm": 0.8733220100402832,
      "learning_rate": 0.0002225479717894832,
      "loss": 3.9424,
      "step": 164190
    },
    {
      "epoch": 0.34208333333333335,
      "grad_norm": 0.798865556716919,
      "learning_rate": 0.00022253934283695363,
      "loss": 3.937,
      "step": 164200
    },
    {
      "epoch": 0.34210416666666665,
      "grad_norm": 0.664272665977478,
      "learning_rate": 0.00022253071357108284,
      "loss": 3.7712,
      "step": 164210
    },
    {
      "epoch": 0.342125,
      "grad_norm": 0.7984028458595276,
      "learning_rate": 0.00022252208399190808,
      "loss": 3.895,
      "step": 164220
    },
    {
      "epoch": 0.3421458333333333,
      "grad_norm": 0.8917078971862793,
      "learning_rate": 0.00022251345409946664,
      "loss": 3.735,
      "step": 164230
    },
    {
      "epoch": 0.3421666666666667,
      "grad_norm": 0.6914323568344116,
      "learning_rate": 0.00022250482389379574,
      "loss": 3.8223,
      "step": 164240
    },
    {
      "epoch": 0.3421875,
      "grad_norm": 0.7531778216362,
      "learning_rate": 0.00022249619337493272,
      "loss": 3.7459,
      "step": 164250
    },
    {
      "epoch": 0.34220833333333334,
      "grad_norm": 0.7358714938163757,
      "learning_rate": 0.00022248756254291486,
      "loss": 3.926,
      "step": 164260
    },
    {
      "epoch": 0.34222916666666664,
      "grad_norm": 0.8230140805244446,
      "learning_rate": 0.00022247893139777943,
      "loss": 3.6601,
      "step": 164270
    },
    {
      "epoch": 0.34225,
      "grad_norm": 0.7639790773391724,
      "learning_rate": 0.00022247029993956367,
      "loss": 3.7954,
      "step": 164280
    },
    {
      "epoch": 0.34227083333333336,
      "grad_norm": 0.694452702999115,
      "learning_rate": 0.0002224616681683049,
      "loss": 3.9121,
      "step": 164290
    },
    {
      "epoch": 0.34229166666666666,
      "grad_norm": 1.023540735244751,
      "learning_rate": 0.00022245303608404044,
      "loss": 4.014,
      "step": 164300
    },
    {
      "epoch": 0.3423125,
      "grad_norm": 0.7523488998413086,
      "learning_rate": 0.00022244440368680753,
      "loss": 3.8751,
      "step": 164310
    },
    {
      "epoch": 0.3423333333333333,
      "grad_norm": 0.7497200965881348,
      "learning_rate": 0.00022243577097664342,
      "loss": 3.7701,
      "step": 164320
    },
    {
      "epoch": 0.3423541666666667,
      "grad_norm": 0.7343946695327759,
      "learning_rate": 0.00022242713795358554,
      "loss": 3.9604,
      "step": 164330
    },
    {
      "epoch": 0.342375,
      "grad_norm": 0.7825976014137268,
      "learning_rate": 0.00022241850461767102,
      "loss": 3.8889,
      "step": 164340
    },
    {
      "epoch": 0.34239583333333334,
      "grad_norm": 0.7372479438781738,
      "learning_rate": 0.00022240987096893726,
      "loss": 3.8393,
      "step": 164350
    },
    {
      "epoch": 0.34241666666666665,
      "grad_norm": 0.7773571610450745,
      "learning_rate": 0.00022240123700742153,
      "loss": 4.0293,
      "step": 164360
    },
    {
      "epoch": 0.3424375,
      "grad_norm": 0.8122628927230835,
      "learning_rate": 0.0002223926027331611,
      "loss": 3.8168,
      "step": 164370
    },
    {
      "epoch": 0.3424583333333333,
      "grad_norm": 0.8716102242469788,
      "learning_rate": 0.00022238396814619328,
      "loss": 3.8059,
      "step": 164380
    },
    {
      "epoch": 0.34247916666666667,
      "grad_norm": 0.8293585777282715,
      "learning_rate": 0.00022237533324655535,
      "loss": 3.9234,
      "step": 164390
    },
    {
      "epoch": 0.3425,
      "grad_norm": 0.8222783207893372,
      "learning_rate": 0.00022236669803428466,
      "loss": 3.7484,
      "step": 164400
    },
    {
      "epoch": 0.34252083333333333,
      "grad_norm": 0.7608413696289062,
      "learning_rate": 0.0002223580625094185,
      "loss": 3.9751,
      "step": 164410
    },
    {
      "epoch": 0.3425416666666667,
      "grad_norm": 0.9099403023719788,
      "learning_rate": 0.00022234942667199406,
      "loss": 3.8402,
      "step": 164420
    },
    {
      "epoch": 0.3425625,
      "grad_norm": 0.7380907535552979,
      "learning_rate": 0.0002223407905220488,
      "loss": 3.8988,
      "step": 164430
    },
    {
      "epoch": 0.34258333333333335,
      "grad_norm": 0.8130782246589661,
      "learning_rate": 0.00022233215405961999,
      "loss": 3.8017,
      "step": 164440
    },
    {
      "epoch": 0.34260416666666665,
      "grad_norm": 0.6834825873374939,
      "learning_rate": 0.0002223235172847448,
      "loss": 3.9074,
      "step": 164450
    },
    {
      "epoch": 0.342625,
      "grad_norm": 0.7760278582572937,
      "learning_rate": 0.00022231488019746072,
      "loss": 3.9759,
      "step": 164460
    },
    {
      "epoch": 0.3426458333333333,
      "grad_norm": 0.7948477864265442,
      "learning_rate": 0.00022230624279780502,
      "loss": 3.9463,
      "step": 164470
    },
    {
      "epoch": 0.3426666666666667,
      "grad_norm": 0.706906795501709,
      "learning_rate": 0.0002222976050858149,
      "loss": 3.789,
      "step": 164480
    },
    {
      "epoch": 0.3426875,
      "grad_norm": 0.7266000509262085,
      "learning_rate": 0.00022228896706152776,
      "loss": 3.868,
      "step": 164490
    },
    {
      "epoch": 0.34270833333333334,
      "grad_norm": 0.7041894793510437,
      "learning_rate": 0.0002222803287249809,
      "loss": 3.9546,
      "step": 164500
    },
    {
      "epoch": 0.34272916666666664,
      "grad_norm": 0.7719563841819763,
      "learning_rate": 0.00022227169007621165,
      "loss": 3.7479,
      "step": 164510
    },
    {
      "epoch": 0.34275,
      "grad_norm": 0.816047191619873,
      "learning_rate": 0.00022226305111525726,
      "loss": 3.7028,
      "step": 164520
    },
    {
      "epoch": 0.34277083333333336,
      "grad_norm": 0.9253613948822021,
      "learning_rate": 0.00022225441184215515,
      "loss": 3.9766,
      "step": 164530
    },
    {
      "epoch": 0.34279166666666666,
      "grad_norm": 0.7850344181060791,
      "learning_rate": 0.00022224577225694254,
      "loss": 3.831,
      "step": 164540
    },
    {
      "epoch": 0.3428125,
      "grad_norm": 0.7690592408180237,
      "learning_rate": 0.0002222371323596568,
      "loss": 3.9263,
      "step": 164550
    },
    {
      "epoch": 0.3428333333333333,
      "grad_norm": 0.7347757816314697,
      "learning_rate": 0.00022222849215033526,
      "loss": 3.9215,
      "step": 164560
    },
    {
      "epoch": 0.3428541666666667,
      "grad_norm": 0.7421293258666992,
      "learning_rate": 0.0002222198516290152,
      "loss": 3.8031,
      "step": 164570
    },
    {
      "epoch": 0.342875,
      "grad_norm": 0.8509925603866577,
      "learning_rate": 0.00022221121079573397,
      "loss": 3.7712,
      "step": 164580
    },
    {
      "epoch": 0.34289583333333334,
      "grad_norm": 0.7955954074859619,
      "learning_rate": 0.0002222025696505289,
      "loss": 3.8611,
      "step": 164590
    },
    {
      "epoch": 0.34291666666666665,
      "grad_norm": 0.7426846623420715,
      "learning_rate": 0.00022219392819343732,
      "loss": 3.7441,
      "step": 164600
    },
    {
      "epoch": 0.3429375,
      "grad_norm": 0.8998768329620361,
      "learning_rate": 0.00022218528642449655,
      "loss": 3.7406,
      "step": 164610
    },
    {
      "epoch": 0.3429583333333333,
      "grad_norm": 0.710401177406311,
      "learning_rate": 0.00022217664434374387,
      "loss": 3.8067,
      "step": 164620
    },
    {
      "epoch": 0.34297916666666667,
      "grad_norm": 0.9351651072502136,
      "learning_rate": 0.00022216800195121666,
      "loss": 3.858,
      "step": 164630
    },
    {
      "epoch": 0.343,
      "grad_norm": 0.8494872450828552,
      "learning_rate": 0.00022215935924695235,
      "loss": 3.7722,
      "step": 164640
    },
    {
      "epoch": 0.34302083333333333,
      "grad_norm": 0.8465052247047424,
      "learning_rate": 0.00022215071623098804,
      "loss": 3.7437,
      "step": 164650
    },
    {
      "epoch": 0.3430416666666667,
      "grad_norm": 0.828133761882782,
      "learning_rate": 0.00022214207290336126,
      "loss": 3.7365,
      "step": 164660
    },
    {
      "epoch": 0.3430625,
      "grad_norm": 0.6973149180412292,
      "learning_rate": 0.00022213342926410932,
      "loss": 3.7695,
      "step": 164670
    },
    {
      "epoch": 0.34308333333333335,
      "grad_norm": 0.7548844814300537,
      "learning_rate": 0.00022212478531326944,
      "loss": 4.0765,
      "step": 164680
    },
    {
      "epoch": 0.34310416666666665,
      "grad_norm": 1.011030912399292,
      "learning_rate": 0.00022211614105087905,
      "loss": 3.7251,
      "step": 164690
    },
    {
      "epoch": 0.343125,
      "grad_norm": 0.6939905881881714,
      "learning_rate": 0.0002221074964769755,
      "loss": 3.9649,
      "step": 164700
    },
    {
      "epoch": 0.3431458333333333,
      "grad_norm": 0.9432247281074524,
      "learning_rate": 0.0002220988515915961,
      "loss": 3.7679,
      "step": 164710
    },
    {
      "epoch": 0.3431666666666667,
      "grad_norm": 0.7280766367912292,
      "learning_rate": 0.0002220902063947782,
      "loss": 3.9588,
      "step": 164720
    },
    {
      "epoch": 0.3431875,
      "grad_norm": 0.8110656142234802,
      "learning_rate": 0.00022208156088655915,
      "loss": 3.9079,
      "step": 164730
    },
    {
      "epoch": 0.34320833333333334,
      "grad_norm": 0.711266279220581,
      "learning_rate": 0.00022207291506697624,
      "loss": 3.8297,
      "step": 164740
    },
    {
      "epoch": 0.34322916666666664,
      "grad_norm": 0.8877176642417908,
      "learning_rate": 0.00022206426893606695,
      "loss": 3.6871,
      "step": 164750
    },
    {
      "epoch": 0.34325,
      "grad_norm": 0.8274645209312439,
      "learning_rate": 0.00022205562249386846,
      "loss": 3.8558,
      "step": 164760
    },
    {
      "epoch": 0.34327083333333336,
      "grad_norm": 0.9312340617179871,
      "learning_rate": 0.00022204697574041828,
      "loss": 3.7767,
      "step": 164770
    },
    {
      "epoch": 0.34329166666666666,
      "grad_norm": 0.7715047597885132,
      "learning_rate": 0.00022203832867575364,
      "loss": 3.7294,
      "step": 164780
    },
    {
      "epoch": 0.3433125,
      "grad_norm": 0.7979779839515686,
      "learning_rate": 0.0002220296812999119,
      "loss": 3.8948,
      "step": 164790
    },
    {
      "epoch": 0.3433333333333333,
      "grad_norm": 0.9089301228523254,
      "learning_rate": 0.00022202103361293048,
      "loss": 3.7865,
      "step": 164800
    },
    {
      "epoch": 0.3433541666666667,
      "grad_norm": 0.7747466564178467,
      "learning_rate": 0.00022201238561484678,
      "loss": 3.9985,
      "step": 164810
    },
    {
      "epoch": 0.343375,
      "grad_norm": 0.813499927520752,
      "learning_rate": 0.00022200373730569796,
      "loss": 3.8054,
      "step": 164820
    },
    {
      "epoch": 0.34339583333333334,
      "grad_norm": 0.7603821754455566,
      "learning_rate": 0.00022199508868552155,
      "loss": 3.8447,
      "step": 164830
    },
    {
      "epoch": 0.34341666666666665,
      "grad_norm": 0.7255370020866394,
      "learning_rate": 0.0002219864397543549,
      "loss": 3.8748,
      "step": 164840
    },
    {
      "epoch": 0.3434375,
      "grad_norm": 0.9383596777915955,
      "learning_rate": 0.00022197779051223523,
      "loss": 3.8293,
      "step": 164850
    },
    {
      "epoch": 0.3434583333333333,
      "grad_norm": 0.8809475898742676,
      "learning_rate": 0.00022196914095920004,
      "loss": 3.8047,
      "step": 164860
    },
    {
      "epoch": 0.34347916666666667,
      "grad_norm": 0.7457348108291626,
      "learning_rate": 0.00022196049109528667,
      "loss": 3.8312,
      "step": 164870
    },
    {
      "epoch": 0.3435,
      "grad_norm": 0.6832262873649597,
      "learning_rate": 0.00022195184092053244,
      "loss": 3.7329,
      "step": 164880
    },
    {
      "epoch": 0.34352083333333333,
      "grad_norm": 0.7262895703315735,
      "learning_rate": 0.00022194319043497473,
      "loss": 3.7165,
      "step": 164890
    },
    {
      "epoch": 0.3435416666666667,
      "grad_norm": 0.8302035331726074,
      "learning_rate": 0.0002219345396386509,
      "loss": 3.7299,
      "step": 164900
    },
    {
      "epoch": 0.3435625,
      "grad_norm": 0.9031760096549988,
      "learning_rate": 0.00022192588853159838,
      "loss": 3.7094,
      "step": 164910
    },
    {
      "epoch": 0.34358333333333335,
      "grad_norm": 0.9187342524528503,
      "learning_rate": 0.00022191723711385445,
      "loss": 3.6726,
      "step": 164920
    },
    {
      "epoch": 0.34360416666666665,
      "grad_norm": 0.9029616713523865,
      "learning_rate": 0.00022190858538545654,
      "loss": 3.8029,
      "step": 164930
    },
    {
      "epoch": 0.343625,
      "grad_norm": 0.7977560758590698,
      "learning_rate": 0.00022189993334644203,
      "loss": 3.9254,
      "step": 164940
    },
    {
      "epoch": 0.3436458333333333,
      "grad_norm": 0.7520942091941833,
      "learning_rate": 0.0002218912809968482,
      "loss": 3.967,
      "step": 164950
    },
    {
      "epoch": 0.3436666666666667,
      "grad_norm": 0.8534707427024841,
      "learning_rate": 0.00022188262833671254,
      "loss": 3.9077,
      "step": 164960
    },
    {
      "epoch": 0.3436875,
      "grad_norm": 0.8438290953636169,
      "learning_rate": 0.0002218739753660724,
      "loss": 3.7395,
      "step": 164970
    },
    {
      "epoch": 0.34370833333333334,
      "grad_norm": 0.7132444381713867,
      "learning_rate": 0.00022186532208496513,
      "loss": 3.7085,
      "step": 164980
    },
    {
      "epoch": 0.34372916666666664,
      "grad_norm": 0.6582043170928955,
      "learning_rate": 0.00022185666849342805,
      "loss": 3.7632,
      "step": 164990
    },
    {
      "epoch": 0.34375,
      "grad_norm": 0.8224360346794128,
      "learning_rate": 0.00022184801459149868,
      "loss": 3.8097,
      "step": 165000
    },
    {
      "epoch": 0.34375,
      "eval_loss": 4.189648628234863,
      "eval_runtime": 9.7041,
      "eval_samples_per_second": 1.03,
      "eval_steps_per_second": 0.309,
      "step": 165000
    },
    {
      "epoch": 0.34377083333333336,
      "grad_norm": 0.7335554957389832,
      "learning_rate": 0.0002218393603792143,
      "loss": 3.9012,
      "step": 165010
    },
    {
      "epoch": 0.34379166666666666,
      "grad_norm": 0.7417361736297607,
      "learning_rate": 0.0002218307058566123,
      "loss": 3.9335,
      "step": 165020
    },
    {
      "epoch": 0.3438125,
      "grad_norm": 0.7558926343917847,
      "learning_rate": 0.00022182205102373013,
      "loss": 3.9184,
      "step": 165030
    },
    {
      "epoch": 0.3438333333333333,
      "grad_norm": 1.0881396532058716,
      "learning_rate": 0.00022181339588060506,
      "loss": 3.7943,
      "step": 165040
    },
    {
      "epoch": 0.3438541666666667,
      "grad_norm": 0.7321026921272278,
      "learning_rate": 0.0002218047404272746,
      "loss": 3.7874,
      "step": 165050
    },
    {
      "epoch": 0.343875,
      "grad_norm": 0.8387753367424011,
      "learning_rate": 0.00022179608466377606,
      "loss": 4.0176,
      "step": 165060
    },
    {
      "epoch": 0.34389583333333335,
      "grad_norm": 0.6760700941085815,
      "learning_rate": 0.00022178742859014686,
      "loss": 3.8112,
      "step": 165070
    },
    {
      "epoch": 0.34391666666666665,
      "grad_norm": 0.7800674438476562,
      "learning_rate": 0.00022177877220642435,
      "loss": 3.7827,
      "step": 165080
    },
    {
      "epoch": 0.3439375,
      "grad_norm": 0.8883776664733887,
      "learning_rate": 0.000221770115512646,
      "loss": 3.8602,
      "step": 165090
    },
    {
      "epoch": 0.3439583333333333,
      "grad_norm": 0.788070797920227,
      "learning_rate": 0.00022176145850884917,
      "loss": 3.8997,
      "step": 165100
    },
    {
      "epoch": 0.34397916666666667,
      "grad_norm": 0.8120987415313721,
      "learning_rate": 0.0002217528011950712,
      "loss": 3.9506,
      "step": 165110
    },
    {
      "epoch": 0.344,
      "grad_norm": 0.7014671564102173,
      "learning_rate": 0.00022174414357134956,
      "loss": 3.9136,
      "step": 165120
    },
    {
      "epoch": 0.34402083333333333,
      "grad_norm": 0.7866107821464539,
      "learning_rate": 0.0002217354856377216,
      "loss": 3.846,
      "step": 165130
    },
    {
      "epoch": 0.3440416666666667,
      "grad_norm": 0.7112519145011902,
      "learning_rate": 0.00022172682739422477,
      "loss": 3.9338,
      "step": 165140
    },
    {
      "epoch": 0.3440625,
      "grad_norm": 0.8077937960624695,
      "learning_rate": 0.0002217181688408964,
      "loss": 3.788,
      "step": 165150
    },
    {
      "epoch": 0.34408333333333335,
      "grad_norm": 0.8604987263679504,
      "learning_rate": 0.00022170950997777396,
      "loss": 3.8956,
      "step": 165160
    },
    {
      "epoch": 0.34410416666666666,
      "grad_norm": 0.7205187082290649,
      "learning_rate": 0.00022170085080489482,
      "loss": 3.9087,
      "step": 165170
    },
    {
      "epoch": 0.344125,
      "grad_norm": 0.7418732047080994,
      "learning_rate": 0.00022169219132229636,
      "loss": 3.9081,
      "step": 165180
    },
    {
      "epoch": 0.3441458333333333,
      "grad_norm": 0.8483526110649109,
      "learning_rate": 0.000221683531530016,
      "loss": 3.9912,
      "step": 165190
    },
    {
      "epoch": 0.3441666666666667,
      "grad_norm": 0.7752363085746765,
      "learning_rate": 0.0002216748714280912,
      "loss": 3.804,
      "step": 165200
    },
    {
      "epoch": 0.3441875,
      "grad_norm": 0.7746447920799255,
      "learning_rate": 0.00022166621101655932,
      "loss": 3.9655,
      "step": 165210
    },
    {
      "epoch": 0.34420833333333334,
      "grad_norm": 0.8067057132720947,
      "learning_rate": 0.00022165755029545777,
      "loss": 3.9638,
      "step": 165220
    },
    {
      "epoch": 0.34422916666666664,
      "grad_norm": 0.7686294317245483,
      "learning_rate": 0.00022164888926482396,
      "loss": 3.8676,
      "step": 165230
    },
    {
      "epoch": 0.34425,
      "grad_norm": 0.7945769429206848,
      "learning_rate": 0.0002216402279246953,
      "loss": 3.7043,
      "step": 165240
    },
    {
      "epoch": 0.34427083333333336,
      "grad_norm": 0.8058528900146484,
      "learning_rate": 0.00022163156627510923,
      "loss": 3.7676,
      "step": 165250
    },
    {
      "epoch": 0.34429166666666666,
      "grad_norm": 0.7542497515678406,
      "learning_rate": 0.0002216229043161031,
      "loss": 3.7378,
      "step": 165260
    },
    {
      "epoch": 0.3443125,
      "grad_norm": 0.7009477019309998,
      "learning_rate": 0.00022161424204771441,
      "loss": 3.9272,
      "step": 165270
    },
    {
      "epoch": 0.3443333333333333,
      "grad_norm": 0.701300859451294,
      "learning_rate": 0.00022160557946998056,
      "loss": 3.7392,
      "step": 165280
    },
    {
      "epoch": 0.3443541666666667,
      "grad_norm": 0.8035953640937805,
      "learning_rate": 0.00022159691658293895,
      "loss": 3.9706,
      "step": 165290
    },
    {
      "epoch": 0.344375,
      "grad_norm": 0.7327523827552795,
      "learning_rate": 0.00022158825338662697,
      "loss": 3.8312,
      "step": 165300
    },
    {
      "epoch": 0.34439583333333335,
      "grad_norm": 0.7830916047096252,
      "learning_rate": 0.0002215795898810821,
      "loss": 3.7409,
      "step": 165310
    },
    {
      "epoch": 0.34441666666666665,
      "grad_norm": 0.7089564204216003,
      "learning_rate": 0.0002215709260663417,
      "loss": 4.0519,
      "step": 165320
    },
    {
      "epoch": 0.3444375,
      "grad_norm": 0.85010826587677,
      "learning_rate": 0.00022156226194244323,
      "loss": 3.9929,
      "step": 165330
    },
    {
      "epoch": 0.3444583333333333,
      "grad_norm": 0.8014277219772339,
      "learning_rate": 0.0002215535975094242,
      "loss": 3.8029,
      "step": 165340
    },
    {
      "epoch": 0.34447916666666667,
      "grad_norm": 0.7801655530929565,
      "learning_rate": 0.00022154493276732188,
      "loss": 3.8853,
      "step": 165350
    },
    {
      "epoch": 0.3445,
      "grad_norm": 0.7171049118041992,
      "learning_rate": 0.00022153626771617373,
      "loss": 4.007,
      "step": 165360
    },
    {
      "epoch": 0.34452083333333333,
      "grad_norm": 0.9064207673072815,
      "learning_rate": 0.0002215276023560173,
      "loss": 4.094,
      "step": 165370
    },
    {
      "epoch": 0.3445416666666667,
      "grad_norm": 0.7534711956977844,
      "learning_rate": 0.0002215189366868899,
      "loss": 3.713,
      "step": 165380
    },
    {
      "epoch": 0.3445625,
      "grad_norm": 0.7974991798400879,
      "learning_rate": 0.00022151027070882898,
      "loss": 3.7777,
      "step": 165390
    },
    {
      "epoch": 0.34458333333333335,
      "grad_norm": 0.9241910576820374,
      "learning_rate": 0.00022150160442187207,
      "loss": 3.7773,
      "step": 165400
    },
    {
      "epoch": 0.34460416666666666,
      "grad_norm": 0.7941826581954956,
      "learning_rate": 0.00022149293782605645,
      "loss": 3.9054,
      "step": 165410
    },
    {
      "epoch": 0.344625,
      "grad_norm": 1.0470491647720337,
      "learning_rate": 0.0002214842709214197,
      "loss": 3.6599,
      "step": 165420
    },
    {
      "epoch": 0.3446458333333333,
      "grad_norm": 0.8390608429908752,
      "learning_rate": 0.00022147560370799915,
      "loss": 3.6933,
      "step": 165430
    },
    {
      "epoch": 0.3446666666666667,
      "grad_norm": 0.7999573945999146,
      "learning_rate": 0.0002214669361858323,
      "loss": 3.7406,
      "step": 165440
    },
    {
      "epoch": 0.3446875,
      "grad_norm": 0.7456080317497253,
      "learning_rate": 0.0002214582683549566,
      "loss": 3.8841,
      "step": 165450
    },
    {
      "epoch": 0.34470833333333334,
      "grad_norm": 1.018269658088684,
      "learning_rate": 0.0002214496002154094,
      "loss": 3.8175,
      "step": 165460
    },
    {
      "epoch": 0.34472916666666664,
      "grad_norm": 1.0520672798156738,
      "learning_rate": 0.00022144093176722828,
      "loss": 3.9588,
      "step": 165470
    },
    {
      "epoch": 0.34475,
      "grad_norm": 0.7546594738960266,
      "learning_rate": 0.0002214322630104506,
      "loss": 3.9821,
      "step": 165480
    },
    {
      "epoch": 0.34477083333333336,
      "grad_norm": 0.7947196364402771,
      "learning_rate": 0.0002214235939451138,
      "loss": 3.7599,
      "step": 165490
    },
    {
      "epoch": 0.34479166666666666,
      "grad_norm": 0.6917931437492371,
      "learning_rate": 0.00022141492457125532,
      "loss": 3.7705,
      "step": 165500
    },
    {
      "epoch": 0.3448125,
      "grad_norm": 0.7311668395996094,
      "learning_rate": 0.00022140625488891268,
      "loss": 3.8698,
      "step": 165510
    },
    {
      "epoch": 0.3448333333333333,
      "grad_norm": 0.8040515184402466,
      "learning_rate": 0.00022139758489812326,
      "loss": 3.7932,
      "step": 165520
    },
    {
      "epoch": 0.3448541666666667,
      "grad_norm": 0.7504719495773315,
      "learning_rate": 0.00022138891459892452,
      "loss": 3.8478,
      "step": 165530
    },
    {
      "epoch": 0.344875,
      "grad_norm": 0.7217981219291687,
      "learning_rate": 0.000221380243991354,
      "loss": 3.8018,
      "step": 165540
    },
    {
      "epoch": 0.34489583333333335,
      "grad_norm": 0.7260850667953491,
      "learning_rate": 0.000221371573075449,
      "loss": 3.8901,
      "step": 165550
    },
    {
      "epoch": 0.34491666666666665,
      "grad_norm": 0.9830719232559204,
      "learning_rate": 0.00022136290185124707,
      "loss": 3.923,
      "step": 165560
    },
    {
      "epoch": 0.3449375,
      "grad_norm": 1.1096628904342651,
      "learning_rate": 0.00022135423031878569,
      "loss": 3.8529,
      "step": 165570
    },
    {
      "epoch": 0.3449583333333333,
      "grad_norm": 0.8018760681152344,
      "learning_rate": 0.00022134555847810224,
      "loss": 3.8559,
      "step": 165580
    },
    {
      "epoch": 0.34497916666666667,
      "grad_norm": 0.7629585266113281,
      "learning_rate": 0.00022133688632923422,
      "loss": 3.8704,
      "step": 165590
    },
    {
      "epoch": 0.345,
      "grad_norm": 0.7385061979293823,
      "learning_rate": 0.0002213282138722191,
      "loss": 3.8075,
      "step": 165600
    },
    {
      "epoch": 0.34502083333333333,
      "grad_norm": 0.9127562642097473,
      "learning_rate": 0.00022131954110709434,
      "loss": 4.0165,
      "step": 165610
    },
    {
      "epoch": 0.3450416666666667,
      "grad_norm": 0.7171964645385742,
      "learning_rate": 0.00022131086803389737,
      "loss": 3.9849,
      "step": 165620
    },
    {
      "epoch": 0.3450625,
      "grad_norm": 0.7233519554138184,
      "learning_rate": 0.00022130219465266572,
      "loss": 3.8558,
      "step": 165630
    },
    {
      "epoch": 0.34508333333333335,
      "grad_norm": 0.7737340927124023,
      "learning_rate": 0.00022129352096343676,
      "loss": 3.9091,
      "step": 165640
    },
    {
      "epoch": 0.34510416666666666,
      "grad_norm": 0.8316341638565063,
      "learning_rate": 0.000221284846966248,
      "loss": 4.1442,
      "step": 165650
    },
    {
      "epoch": 0.345125,
      "grad_norm": 0.846450924873352,
      "learning_rate": 0.00022127617266113698,
      "loss": 3.8303,
      "step": 165660
    },
    {
      "epoch": 0.3451458333333333,
      "grad_norm": 0.8296233415603638,
      "learning_rate": 0.00022126749804814107,
      "loss": 3.7134,
      "step": 165670
    },
    {
      "epoch": 0.3451666666666667,
      "grad_norm": 0.6913220286369324,
      "learning_rate": 0.0002212588231272978,
      "loss": 3.8152,
      "step": 165680
    },
    {
      "epoch": 0.3451875,
      "grad_norm": 0.7459383606910706,
      "learning_rate": 0.0002212501478986446,
      "loss": 3.6611,
      "step": 165690
    },
    {
      "epoch": 0.34520833333333334,
      "grad_norm": 0.7758973240852356,
      "learning_rate": 0.00022124147236221895,
      "loss": 3.6928,
      "step": 165700
    },
    {
      "epoch": 0.34522916666666664,
      "grad_norm": 0.95456862449646,
      "learning_rate": 0.00022123279651805838,
      "loss": 3.9219,
      "step": 165710
    },
    {
      "epoch": 0.34525,
      "grad_norm": 0.7822309136390686,
      "learning_rate": 0.0002212241203662003,
      "loss": 3.9889,
      "step": 165720
    },
    {
      "epoch": 0.34527083333333336,
      "grad_norm": 0.8036433458328247,
      "learning_rate": 0.00022121544390668222,
      "loss": 3.716,
      "step": 165730
    },
    {
      "epoch": 0.34529166666666666,
      "grad_norm": 0.7576153874397278,
      "learning_rate": 0.00022120676713954158,
      "loss": 3.7777,
      "step": 165740
    },
    {
      "epoch": 0.3453125,
      "grad_norm": 0.7663596868515015,
      "learning_rate": 0.00022119809006481594,
      "loss": 3.8081,
      "step": 165750
    },
    {
      "epoch": 0.3453333333333333,
      "grad_norm": 0.7436777949333191,
      "learning_rate": 0.0002211894126825427,
      "loss": 3.9129,
      "step": 165760
    },
    {
      "epoch": 0.3453541666666667,
      "grad_norm": 0.7237709164619446,
      "learning_rate": 0.00022118073499275938,
      "loss": 3.6976,
      "step": 165770
    },
    {
      "epoch": 0.345375,
      "grad_norm": 0.8524247407913208,
      "learning_rate": 0.00022117205699550345,
      "loss": 3.8609,
      "step": 165780
    },
    {
      "epoch": 0.34539583333333335,
      "grad_norm": 0.9662337899208069,
      "learning_rate": 0.00022116337869081243,
      "loss": 3.9457,
      "step": 165790
    },
    {
      "epoch": 0.34541666666666665,
      "grad_norm": 0.7662293314933777,
      "learning_rate": 0.0002211547000787238,
      "loss": 3.8695,
      "step": 165800
    },
    {
      "epoch": 0.3454375,
      "grad_norm": 0.8558788895606995,
      "learning_rate": 0.000221146021159275,
      "loss": 3.8181,
      "step": 165810
    },
    {
      "epoch": 0.3454583333333333,
      "grad_norm": 0.840758204460144,
      "learning_rate": 0.00022113734193250352,
      "loss": 3.9382,
      "step": 165820
    },
    {
      "epoch": 0.34547916666666667,
      "grad_norm": 0.8715843558311462,
      "learning_rate": 0.00022112866239844693,
      "loss": 4.0266,
      "step": 165830
    },
    {
      "epoch": 0.3455,
      "grad_norm": 0.7333154082298279,
      "learning_rate": 0.00022111998255714264,
      "loss": 3.7616,
      "step": 165840
    },
    {
      "epoch": 0.34552083333333333,
      "grad_norm": 0.73252272605896,
      "learning_rate": 0.0002211113024086282,
      "loss": 3.7768,
      "step": 165850
    },
    {
      "epoch": 0.3455416666666667,
      "grad_norm": 0.7518277168273926,
      "learning_rate": 0.00022110262195294112,
      "loss": 3.7712,
      "step": 165860
    },
    {
      "epoch": 0.3455625,
      "grad_norm": 0.7097359299659729,
      "learning_rate": 0.00022109394119011877,
      "loss": 3.8711,
      "step": 165870
    },
    {
      "epoch": 0.34558333333333335,
      "grad_norm": 0.7472500205039978,
      "learning_rate": 0.00022108526012019883,
      "loss": 3.9585,
      "step": 165880
    },
    {
      "epoch": 0.34560416666666666,
      "grad_norm": 0.9656019806861877,
      "learning_rate": 0.00022107657874321861,
      "loss": 3.9547,
      "step": 165890
    },
    {
      "epoch": 0.345625,
      "grad_norm": 0.8318952918052673,
      "learning_rate": 0.00022106789705921576,
      "loss": 3.7576,
      "step": 165900
    },
    {
      "epoch": 0.3456458333333333,
      "grad_norm": 0.7744044065475464,
      "learning_rate": 0.0002210592150682277,
      "loss": 3.7927,
      "step": 165910
    },
    {
      "epoch": 0.3456666666666667,
      "grad_norm": 1.0338926315307617,
      "learning_rate": 0.000221050532770292,
      "loss": 3.9051,
      "step": 165920
    },
    {
      "epoch": 0.3456875,
      "grad_norm": 0.7305043935775757,
      "learning_rate": 0.00022104185016544607,
      "loss": 3.6042,
      "step": 165930
    },
    {
      "epoch": 0.34570833333333334,
      "grad_norm": 0.9384093284606934,
      "learning_rate": 0.0002210331672537275,
      "loss": 3.8131,
      "step": 165940
    },
    {
      "epoch": 0.34572916666666664,
      "grad_norm": 0.7015949487686157,
      "learning_rate": 0.00022102448403517376,
      "loss": 3.8353,
      "step": 165950
    },
    {
      "epoch": 0.34575,
      "grad_norm": 0.7725563645362854,
      "learning_rate": 0.00022101580050982235,
      "loss": 3.7732,
      "step": 165960
    },
    {
      "epoch": 0.34577083333333336,
      "grad_norm": 0.7938124537467957,
      "learning_rate": 0.0002210071166777108,
      "loss": 3.8057,
      "step": 165970
    },
    {
      "epoch": 0.34579166666666666,
      "grad_norm": 0.922439455986023,
      "learning_rate": 0.0002209984325388766,
      "loss": 3.8742,
      "step": 165980
    },
    {
      "epoch": 0.3458125,
      "grad_norm": 0.757218599319458,
      "learning_rate": 0.00022098974809335728,
      "loss": 3.7878,
      "step": 165990
    },
    {
      "epoch": 0.3458333333333333,
      "grad_norm": 0.8170721530914307,
      "learning_rate": 0.00022098106334119037,
      "loss": 3.9761,
      "step": 166000
    },
    {
      "epoch": 0.3458333333333333,
      "eval_loss": 4.1898698806762695,
      "eval_runtime": 9.7324,
      "eval_samples_per_second": 1.027,
      "eval_steps_per_second": 0.308,
      "step": 166000
    },
    {
      "epoch": 0.3458541666666667,
      "grad_norm": 0.7305615544319153,
      "learning_rate": 0.00022097237828241334,
      "loss": 3.8084,
      "step": 166010
    },
    {
      "epoch": 0.345875,
      "grad_norm": 0.6879091262817383,
      "learning_rate": 0.00022096369291706375,
      "loss": 3.8029,
      "step": 166020
    },
    {
      "epoch": 0.34589583333333335,
      "grad_norm": 0.8827717304229736,
      "learning_rate": 0.00022095500724517904,
      "loss": 3.8024,
      "step": 166030
    },
    {
      "epoch": 0.34591666666666665,
      "grad_norm": 0.8696174025535583,
      "learning_rate": 0.00022094632126679688,
      "loss": 3.9622,
      "step": 166040
    },
    {
      "epoch": 0.3459375,
      "grad_norm": 0.7716599106788635,
      "learning_rate": 0.00022093763498195462,
      "loss": 3.8867,
      "step": 166050
    },
    {
      "epoch": 0.3459583333333333,
      "grad_norm": 1.049963355064392,
      "learning_rate": 0.00022092894839068986,
      "loss": 3.7427,
      "step": 166060
    },
    {
      "epoch": 0.34597916666666667,
      "grad_norm": 0.8991462588310242,
      "learning_rate": 0.00022092026149304016,
      "loss": 3.9131,
      "step": 166070
    },
    {
      "epoch": 0.346,
      "grad_norm": 0.8066981434822083,
      "learning_rate": 0.00022091157428904296,
      "loss": 3.7851,
      "step": 166080
    },
    {
      "epoch": 0.34602083333333333,
      "grad_norm": 0.8122389316558838,
      "learning_rate": 0.00022090288677873582,
      "loss": 3.9414,
      "step": 166090
    },
    {
      "epoch": 0.3460416666666667,
      "grad_norm": 0.703342616558075,
      "learning_rate": 0.00022089419896215634,
      "loss": 3.7093,
      "step": 166100
    },
    {
      "epoch": 0.3460625,
      "grad_norm": 0.7848589420318604,
      "learning_rate": 0.00022088551083934192,
      "loss": 3.8217,
      "step": 166110
    },
    {
      "epoch": 0.34608333333333335,
      "grad_norm": 0.7466017603874207,
      "learning_rate": 0.0002208768224103302,
      "loss": 3.8107,
      "step": 166120
    },
    {
      "epoch": 0.34610416666666666,
      "grad_norm": 0.7851238250732422,
      "learning_rate": 0.00022086813367515863,
      "loss": 3.9964,
      "step": 166130
    },
    {
      "epoch": 0.346125,
      "grad_norm": 0.7933346629142761,
      "learning_rate": 0.00022085944463386475,
      "loss": 3.7784,
      "step": 166140
    },
    {
      "epoch": 0.3461458333333333,
      "grad_norm": 0.815682053565979,
      "learning_rate": 0.00022085075528648616,
      "loss": 3.7608,
      "step": 166150
    },
    {
      "epoch": 0.3461666666666667,
      "grad_norm": 0.7710898518562317,
      "learning_rate": 0.00022084206563306033,
      "loss": 3.8734,
      "step": 166160
    },
    {
      "epoch": 0.3461875,
      "grad_norm": 0.6904056668281555,
      "learning_rate": 0.00022083337567362484,
      "loss": 3.9352,
      "step": 166170
    },
    {
      "epoch": 0.34620833333333334,
      "grad_norm": 0.961601197719574,
      "learning_rate": 0.00022082468540821721,
      "loss": 3.8426,
      "step": 166180
    },
    {
      "epoch": 0.34622916666666664,
      "grad_norm": 0.757777750492096,
      "learning_rate": 0.00022081599483687493,
      "loss": 3.9131,
      "step": 166190
    },
    {
      "epoch": 0.34625,
      "grad_norm": 0.7087739706039429,
      "learning_rate": 0.00022080730395963562,
      "loss": 3.712,
      "step": 166200
    },
    {
      "epoch": 0.34627083333333336,
      "grad_norm": 0.8745505213737488,
      "learning_rate": 0.00022079861277653678,
      "loss": 3.7936,
      "step": 166210
    },
    {
      "epoch": 0.34629166666666666,
      "grad_norm": 0.8828952312469482,
      "learning_rate": 0.00022078992128761596,
      "loss": 3.9208,
      "step": 166220
    },
    {
      "epoch": 0.3463125,
      "grad_norm": 0.7078715562820435,
      "learning_rate": 0.00022078122949291065,
      "loss": 3.8516,
      "step": 166230
    },
    {
      "epoch": 0.3463333333333333,
      "grad_norm": 0.7467676401138306,
      "learning_rate": 0.00022077253739245852,
      "loss": 3.8719,
      "step": 166240
    },
    {
      "epoch": 0.3463541666666667,
      "grad_norm": 0.6925509572029114,
      "learning_rate": 0.000220763844986297,
      "loss": 3.9019,
      "step": 166250
    },
    {
      "epoch": 0.346375,
      "grad_norm": 1.050431489944458,
      "learning_rate": 0.00022075515227446365,
      "loss": 3.875,
      "step": 166260
    },
    {
      "epoch": 0.34639583333333335,
      "grad_norm": 0.7292155027389526,
      "learning_rate": 0.0002207464592569961,
      "loss": 3.787,
      "step": 166270
    },
    {
      "epoch": 0.34641666666666665,
      "grad_norm": 0.8123593330383301,
      "learning_rate": 0.00022073776593393185,
      "loss": 3.9417,
      "step": 166280
    },
    {
      "epoch": 0.3464375,
      "grad_norm": 0.7599675059318542,
      "learning_rate": 0.00022072907230530846,
      "loss": 3.7988,
      "step": 166290
    },
    {
      "epoch": 0.3464583333333333,
      "grad_norm": 0.7407387495040894,
      "learning_rate": 0.0002207203783711634,
      "loss": 3.8984,
      "step": 166300
    },
    {
      "epoch": 0.34647916666666667,
      "grad_norm": 0.7974744439125061,
      "learning_rate": 0.0002207116841315344,
      "loss": 3.8084,
      "step": 166310
    },
    {
      "epoch": 0.3465,
      "grad_norm": 0.7204846143722534,
      "learning_rate": 0.00022070298958645884,
      "loss": 3.6514,
      "step": 166320
    },
    {
      "epoch": 0.34652083333333333,
      "grad_norm": 0.7547363042831421,
      "learning_rate": 0.00022069429473597438,
      "loss": 3.8899,
      "step": 166330
    },
    {
      "epoch": 0.3465416666666667,
      "grad_norm": 0.6866621375083923,
      "learning_rate": 0.00022068559958011855,
      "loss": 3.9448,
      "step": 166340
    },
    {
      "epoch": 0.3465625,
      "grad_norm": 0.8714684247970581,
      "learning_rate": 0.00022067690411892892,
      "loss": 3.7804,
      "step": 166350
    },
    {
      "epoch": 0.34658333333333335,
      "grad_norm": 0.7768976092338562,
      "learning_rate": 0.000220668208352443,
      "loss": 3.6937,
      "step": 166360
    },
    {
      "epoch": 0.34660416666666666,
      "grad_norm": 0.6779329180717468,
      "learning_rate": 0.00022065951228069841,
      "loss": 3.8518,
      "step": 166370
    },
    {
      "epoch": 0.346625,
      "grad_norm": 0.7659986019134521,
      "learning_rate": 0.00022065081590373273,
      "loss": 3.9132,
      "step": 166380
    },
    {
      "epoch": 0.3466458333333333,
      "grad_norm": 0.8411452174186707,
      "learning_rate": 0.0002206421192215834,
      "loss": 3.9746,
      "step": 166390
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 0.9081934690475464,
      "learning_rate": 0.00022063342223428814,
      "loss": 3.8562,
      "step": 166400
    },
    {
      "epoch": 0.3466875,
      "grad_norm": 0.712191641330719,
      "learning_rate": 0.0002206247249418845,
      "loss": 3.9736,
      "step": 166410
    },
    {
      "epoch": 0.34670833333333334,
      "grad_norm": 0.8063982725143433,
      "learning_rate": 0.00022061602734440997,
      "loss": 4.0031,
      "step": 166420
    },
    {
      "epoch": 0.34672916666666664,
      "grad_norm": 0.7465348839759827,
      "learning_rate": 0.00022060732944190211,
      "loss": 3.8145,
      "step": 166430
    },
    {
      "epoch": 0.34675,
      "grad_norm": 0.7470642328262329,
      "learning_rate": 0.0002205986312343986,
      "loss": 3.8671,
      "step": 166440
    },
    {
      "epoch": 0.3467708333333333,
      "grad_norm": 0.7548946738243103,
      "learning_rate": 0.00022058993272193692,
      "loss": 3.8971,
      "step": 166450
    },
    {
      "epoch": 0.34679166666666666,
      "grad_norm": 0.7317728400230408,
      "learning_rate": 0.00022058123390455465,
      "loss": 3.7882,
      "step": 166460
    },
    {
      "epoch": 0.3468125,
      "grad_norm": 0.8523623943328857,
      "learning_rate": 0.0002205725347822894,
      "loss": 3.6683,
      "step": 166470
    },
    {
      "epoch": 0.3468333333333333,
      "grad_norm": 0.7545601725578308,
      "learning_rate": 0.00022056383535517873,
      "loss": 3.8338,
      "step": 166480
    },
    {
      "epoch": 0.3468541666666667,
      "grad_norm": 0.7021652460098267,
      "learning_rate": 0.00022055513562326023,
      "loss": 3.7278,
      "step": 166490
    },
    {
      "epoch": 0.346875,
      "grad_norm": 0.7060204744338989,
      "learning_rate": 0.0002205464355865715,
      "loss": 3.8273,
      "step": 166500
    },
    {
      "epoch": 0.34689583333333335,
      "grad_norm": 0.9886347651481628,
      "learning_rate": 0.00022053773524515006,
      "loss": 3.9847,
      "step": 166510
    },
    {
      "epoch": 0.34691666666666665,
      "grad_norm": 0.8479509949684143,
      "learning_rate": 0.0002205290345990335,
      "loss": 3.8509,
      "step": 166520
    },
    {
      "epoch": 0.3469375,
      "grad_norm": 0.8076978325843811,
      "learning_rate": 0.00022052033364825948,
      "loss": 3.8934,
      "step": 166530
    },
    {
      "epoch": 0.3469583333333333,
      "grad_norm": 0.7407881021499634,
      "learning_rate": 0.00022051163239286548,
      "loss": 3.7274,
      "step": 166540
    },
    {
      "epoch": 0.34697916666666667,
      "grad_norm": 0.7144415378570557,
      "learning_rate": 0.0002205029308328892,
      "loss": 3.8959,
      "step": 166550
    },
    {
      "epoch": 0.347,
      "grad_norm": 0.867764413356781,
      "learning_rate": 0.0002204942289683681,
      "loss": 3.9362,
      "step": 166560
    },
    {
      "epoch": 0.34702083333333333,
      "grad_norm": 0.744040846824646,
      "learning_rate": 0.00022048552679933986,
      "loss": 3.8268,
      "step": 166570
    },
    {
      "epoch": 0.3470416666666667,
      "grad_norm": 0.8493800759315491,
      "learning_rate": 0.00022047682432584212,
      "loss": 3.8632,
      "step": 166580
    },
    {
      "epoch": 0.3470625,
      "grad_norm": 0.7348156571388245,
      "learning_rate": 0.00022046812154791226,
      "loss": 4.2007,
      "step": 166590
    },
    {
      "epoch": 0.34708333333333335,
      "grad_norm": 0.8283316493034363,
      "learning_rate": 0.00022045941846558808,
      "loss": 3.7772,
      "step": 166600
    },
    {
      "epoch": 0.34710416666666666,
      "grad_norm": 0.783449113368988,
      "learning_rate": 0.00022045071507890713,
      "loss": 3.889,
      "step": 166610
    },
    {
      "epoch": 0.347125,
      "grad_norm": 0.6792311072349548,
      "learning_rate": 0.00022044201138790695,
      "loss": 3.8332,
      "step": 166620
    },
    {
      "epoch": 0.3471458333333333,
      "grad_norm": 0.8251895904541016,
      "learning_rate": 0.00022043330739262516,
      "loss": 3.9454,
      "step": 166630
    },
    {
      "epoch": 0.3471666666666667,
      "grad_norm": 0.7804433107376099,
      "learning_rate": 0.00022042460309309938,
      "loss": 4.0045,
      "step": 166640
    },
    {
      "epoch": 0.3471875,
      "grad_norm": 0.8056877255439758,
      "learning_rate": 0.00022041589848936717,
      "loss": 3.7704,
      "step": 166650
    },
    {
      "epoch": 0.34720833333333334,
      "grad_norm": 0.8804557919502258,
      "learning_rate": 0.00022040719358146612,
      "loss": 3.753,
      "step": 166660
    },
    {
      "epoch": 0.34722916666666664,
      "grad_norm": 0.7497962117195129,
      "learning_rate": 0.0002203984883694339,
      "loss": 3.998,
      "step": 166670
    },
    {
      "epoch": 0.34725,
      "grad_norm": 0.7716672420501709,
      "learning_rate": 0.00022038978285330806,
      "loss": 3.7557,
      "step": 166680
    },
    {
      "epoch": 0.3472708333333333,
      "grad_norm": 0.7634419798851013,
      "learning_rate": 0.00022038107703312623,
      "loss": 3.9381,
      "step": 166690
    },
    {
      "epoch": 0.34729166666666667,
      "grad_norm": 0.7258294224739075,
      "learning_rate": 0.000220372370908926,
      "loss": 3.7871,
      "step": 166700
    },
    {
      "epoch": 0.3473125,
      "grad_norm": 0.842413604259491,
      "learning_rate": 0.000220363664480745,
      "loss": 3.9533,
      "step": 166710
    },
    {
      "epoch": 0.3473333333333333,
      "grad_norm": 0.8400275111198425,
      "learning_rate": 0.00022035495774862086,
      "loss": 3.7979,
      "step": 166720
    },
    {
      "epoch": 0.3473541666666667,
      "grad_norm": 0.7486433386802673,
      "learning_rate": 0.00022034625071259108,
      "loss": 3.885,
      "step": 166730
    },
    {
      "epoch": 0.347375,
      "grad_norm": 0.7486409544944763,
      "learning_rate": 0.00022033754337269336,
      "loss": 3.8096,
      "step": 166740
    },
    {
      "epoch": 0.34739583333333335,
      "grad_norm": 0.7207057476043701,
      "learning_rate": 0.0002203288357289653,
      "loss": 3.9266,
      "step": 166750
    },
    {
      "epoch": 0.34741666666666665,
      "grad_norm": 0.7421192526817322,
      "learning_rate": 0.0002203201277814445,
      "loss": 3.8386,
      "step": 166760
    },
    {
      "epoch": 0.3474375,
      "grad_norm": 0.8908392190933228,
      "learning_rate": 0.0002203114195301686,
      "loss": 3.8313,
      "step": 166770
    },
    {
      "epoch": 0.3474583333333333,
      "grad_norm": 0.788580596446991,
      "learning_rate": 0.0002203027109751752,
      "loss": 3.894,
      "step": 166780
    },
    {
      "epoch": 0.3474791666666667,
      "grad_norm": 0.751335620880127,
      "learning_rate": 0.0002202940021165019,
      "loss": 3.8817,
      "step": 166790
    },
    {
      "epoch": 0.3475,
      "grad_norm": 0.9693329930305481,
      "learning_rate": 0.00022028529295418635,
      "loss": 3.7114,
      "step": 166800
    },
    {
      "epoch": 0.34752083333333333,
      "grad_norm": 0.772932231426239,
      "learning_rate": 0.00022027658348826616,
      "loss": 4.076,
      "step": 166810
    },
    {
      "epoch": 0.3475416666666667,
      "grad_norm": 0.8030478954315186,
      "learning_rate": 0.0002202678737187789,
      "loss": 3.9603,
      "step": 166820
    },
    {
      "epoch": 0.3475625,
      "grad_norm": 0.8513970971107483,
      "learning_rate": 0.00022025916364576227,
      "loss": 3.9027,
      "step": 166830
    },
    {
      "epoch": 0.34758333333333336,
      "grad_norm": 0.7002370357513428,
      "learning_rate": 0.00022025045326925388,
      "loss": 3.6887,
      "step": 166840
    },
    {
      "epoch": 0.34760416666666666,
      "grad_norm": 0.8016495108604431,
      "learning_rate": 0.0002202417425892913,
      "loss": 3.9219,
      "step": 166850
    },
    {
      "epoch": 0.347625,
      "grad_norm": 0.7666077017784119,
      "learning_rate": 0.0002202330316059122,
      "loss": 3.8438,
      "step": 166860
    },
    {
      "epoch": 0.3476458333333333,
      "grad_norm": 0.7085832953453064,
      "learning_rate": 0.00022022432031915427,
      "loss": 3.7008,
      "step": 166870
    },
    {
      "epoch": 0.3476666666666667,
      "grad_norm": 0.768575131893158,
      "learning_rate": 0.00022021560872905501,
      "loss": 3.7916,
      "step": 166880
    },
    {
      "epoch": 0.3476875,
      "grad_norm": 0.7427250742912292,
      "learning_rate": 0.00022020689683565213,
      "loss": 3.8077,
      "step": 166890
    },
    {
      "epoch": 0.34770833333333334,
      "grad_norm": 0.8076955676078796,
      "learning_rate": 0.00022019818463898323,
      "loss": 3.9018,
      "step": 166900
    },
    {
      "epoch": 0.34772916666666664,
      "grad_norm": 0.7565464377403259,
      "learning_rate": 0.000220189472139086,
      "loss": 4.0223,
      "step": 166910
    },
    {
      "epoch": 0.34775,
      "grad_norm": 0.7079153656959534,
      "learning_rate": 0.00022018075933599802,
      "loss": 4.0785,
      "step": 166920
    },
    {
      "epoch": 0.3477708333333333,
      "grad_norm": 0.7084150910377502,
      "learning_rate": 0.00022017204622975687,
      "loss": 3.7283,
      "step": 166930
    },
    {
      "epoch": 0.34779166666666667,
      "grad_norm": 0.7622153162956238,
      "learning_rate": 0.00022016333282040036,
      "loss": 3.865,
      "step": 166940
    },
    {
      "epoch": 0.3478125,
      "grad_norm": 0.6729335784912109,
      "learning_rate": 0.00022015461910796598,
      "loss": 3.9141,
      "step": 166950
    },
    {
      "epoch": 0.3478333333333333,
      "grad_norm": 0.7801281809806824,
      "learning_rate": 0.00022014590509249137,
      "loss": 3.8397,
      "step": 166960
    },
    {
      "epoch": 0.3478541666666667,
      "grad_norm": 0.824537992477417,
      "learning_rate": 0.00022013719077401429,
      "loss": 3.7057,
      "step": 166970
    },
    {
      "epoch": 0.347875,
      "grad_norm": 0.7822725176811218,
      "learning_rate": 0.00022012847615257228,
      "loss": 3.7424,
      "step": 166980
    },
    {
      "epoch": 0.34789583333333335,
      "grad_norm": 0.7799305319786072,
      "learning_rate": 0.000220119761228203,
      "loss": 3.7747,
      "step": 166990
    },
    {
      "epoch": 0.34791666666666665,
      "grad_norm": 0.8698791265487671,
      "learning_rate": 0.00022011104600094412,
      "loss": 3.9246,
      "step": 167000
    },
    {
      "epoch": 0.34791666666666665,
      "eval_loss": 4.184502601623535,
      "eval_runtime": 9.4666,
      "eval_samples_per_second": 1.056,
      "eval_steps_per_second": 0.317,
      "step": 167000
    },
    {
      "epoch": 0.3479375,
      "grad_norm": 0.7456501722335815,
      "learning_rate": 0.00022010233047083328,
      "loss": 3.9194,
      "step": 167010
    },
    {
      "epoch": 0.3479583333333333,
      "grad_norm": 0.6884973049163818,
      "learning_rate": 0.00022009361463790812,
      "loss": 3.8891,
      "step": 167020
    },
    {
      "epoch": 0.3479791666666667,
      "grad_norm": 0.7101929783821106,
      "learning_rate": 0.00022008489850220626,
      "loss": 3.7231,
      "step": 167030
    },
    {
      "epoch": 0.348,
      "grad_norm": 0.7835579514503479,
      "learning_rate": 0.0002200761820637654,
      "loss": 3.6851,
      "step": 167040
    },
    {
      "epoch": 0.34802083333333333,
      "grad_norm": 0.7324495315551758,
      "learning_rate": 0.00022006746532262316,
      "loss": 3.703,
      "step": 167050
    },
    {
      "epoch": 0.3480416666666667,
      "grad_norm": 0.7677201628684998,
      "learning_rate": 0.00022005874827881722,
      "loss": 3.8169,
      "step": 167060
    },
    {
      "epoch": 0.3480625,
      "grad_norm": 0.7707743644714355,
      "learning_rate": 0.0002200500309323852,
      "loss": 3.9348,
      "step": 167070
    },
    {
      "epoch": 0.34808333333333336,
      "grad_norm": 0.794050395488739,
      "learning_rate": 0.00022004131328336483,
      "loss": 3.8936,
      "step": 167080
    },
    {
      "epoch": 0.34810416666666666,
      "grad_norm": 0.7138677835464478,
      "learning_rate": 0.0002200325953317936,
      "loss": 3.8529,
      "step": 167090
    },
    {
      "epoch": 0.348125,
      "grad_norm": 0.6738632321357727,
      "learning_rate": 0.00022002387707770933,
      "loss": 3.7634,
      "step": 167100
    },
    {
      "epoch": 0.3481458333333333,
      "grad_norm": 0.81169593334198,
      "learning_rate": 0.0002200151585211497,
      "loss": 3.7711,
      "step": 167110
    },
    {
      "epoch": 0.3481666666666667,
      "grad_norm": 0.7891823053359985,
      "learning_rate": 0.00022000643966215225,
      "loss": 3.901,
      "step": 167120
    },
    {
      "epoch": 0.3481875,
      "grad_norm": 0.7351655960083008,
      "learning_rate": 0.00021999772050075464,
      "loss": 3.9368,
      "step": 167130
    },
    {
      "epoch": 0.34820833333333334,
      "grad_norm": 0.7219979166984558,
      "learning_rate": 0.00021998900103699468,
      "loss": 3.8353,
      "step": 167140
    },
    {
      "epoch": 0.34822916666666665,
      "grad_norm": 0.7724326848983765,
      "learning_rate": 0.0002199802812709099,
      "loss": 3.7714,
      "step": 167150
    },
    {
      "epoch": 0.34825,
      "grad_norm": 1.0297940969467163,
      "learning_rate": 0.00021997156120253796,
      "loss": 3.7965,
      "step": 167160
    },
    {
      "epoch": 0.3482708333333333,
      "grad_norm": 0.8056216835975647,
      "learning_rate": 0.0002199628408319166,
      "loss": 3.6377,
      "step": 167170
    },
    {
      "epoch": 0.34829166666666667,
      "grad_norm": 0.9766642451286316,
      "learning_rate": 0.0002199541201590835,
      "loss": 3.8518,
      "step": 167180
    },
    {
      "epoch": 0.3483125,
      "grad_norm": 0.7815437316894531,
      "learning_rate": 0.00021994539918407624,
      "loss": 3.8493,
      "step": 167190
    },
    {
      "epoch": 0.34833333333333333,
      "grad_norm": 0.7537615299224854,
      "learning_rate": 0.00021993667790693258,
      "loss": 3.7242,
      "step": 167200
    },
    {
      "epoch": 0.3483541666666667,
      "grad_norm": 0.7966832518577576,
      "learning_rate": 0.0002199279563276901,
      "loss": 3.6579,
      "step": 167210
    },
    {
      "epoch": 0.348375,
      "grad_norm": 0.7539072632789612,
      "learning_rate": 0.0002199192344463866,
      "loss": 3.8687,
      "step": 167220
    },
    {
      "epoch": 0.34839583333333335,
      "grad_norm": 0.7936046719551086,
      "learning_rate": 0.0002199105122630596,
      "loss": 3.7545,
      "step": 167230
    },
    {
      "epoch": 0.34841666666666665,
      "grad_norm": 0.8496291637420654,
      "learning_rate": 0.0002199017897777469,
      "loss": 3.7773,
      "step": 167240
    },
    {
      "epoch": 0.3484375,
      "grad_norm": 0.7558230757713318,
      "learning_rate": 0.0002198930669904862,
      "loss": 4.0441,
      "step": 167250
    },
    {
      "epoch": 0.3484583333333333,
      "grad_norm": 0.8997763991355896,
      "learning_rate": 0.000219884343901315,
      "loss": 3.9618,
      "step": 167260
    },
    {
      "epoch": 0.3484791666666667,
      "grad_norm": 0.7261243462562561,
      "learning_rate": 0.00021987562051027114,
      "loss": 3.6943,
      "step": 167270
    },
    {
      "epoch": 0.3485,
      "grad_norm": 0.7847897410392761,
      "learning_rate": 0.00021986689681739233,
      "loss": 3.7838,
      "step": 167280
    },
    {
      "epoch": 0.34852083333333334,
      "grad_norm": 0.7520933151245117,
      "learning_rate": 0.0002198581728227161,
      "loss": 3.7621,
      "step": 167290
    },
    {
      "epoch": 0.3485416666666667,
      "grad_norm": 0.8738757371902466,
      "learning_rate": 0.00021984944852628023,
      "loss": 3.8035,
      "step": 167300
    },
    {
      "epoch": 0.3485625,
      "grad_norm": 0.7470166087150574,
      "learning_rate": 0.00021984072392812243,
      "loss": 3.9568,
      "step": 167310
    },
    {
      "epoch": 0.34858333333333336,
      "grad_norm": 0.7110574841499329,
      "learning_rate": 0.00021983199902828033,
      "loss": 3.6927,
      "step": 167320
    },
    {
      "epoch": 0.34860416666666666,
      "grad_norm": 0.7163881659507751,
      "learning_rate": 0.00021982327382679158,
      "loss": 3.7524,
      "step": 167330
    },
    {
      "epoch": 0.348625,
      "grad_norm": 0.7347975969314575,
      "learning_rate": 0.00021981454832369396,
      "loss": 3.7353,
      "step": 167340
    },
    {
      "epoch": 0.3486458333333333,
      "grad_norm": 0.7674691677093506,
      "learning_rate": 0.00021980582251902514,
      "loss": 3.8752,
      "step": 167350
    },
    {
      "epoch": 0.3486666666666667,
      "grad_norm": 0.8242669701576233,
      "learning_rate": 0.0002197970964128228,
      "loss": 3.7829,
      "step": 167360
    },
    {
      "epoch": 0.3486875,
      "grad_norm": 0.7060468792915344,
      "learning_rate": 0.0002197883700051246,
      "loss": 3.8623,
      "step": 167370
    },
    {
      "epoch": 0.34870833333333334,
      "grad_norm": 0.7166244983673096,
      "learning_rate": 0.0002197796432959683,
      "loss": 3.7775,
      "step": 167380
    },
    {
      "epoch": 0.34872916666666665,
      "grad_norm": 0.8512476682662964,
      "learning_rate": 0.00021977091628539155,
      "loss": 3.7322,
      "step": 167390
    },
    {
      "epoch": 0.34875,
      "grad_norm": 0.9476060271263123,
      "learning_rate": 0.00021976218897343206,
      "loss": 3.8033,
      "step": 167400
    },
    {
      "epoch": 0.3487708333333333,
      "grad_norm": 0.8838501572608948,
      "learning_rate": 0.00021975346136012756,
      "loss": 3.7832,
      "step": 167410
    },
    {
      "epoch": 0.34879166666666667,
      "grad_norm": 0.9013411998748779,
      "learning_rate": 0.00021974473344551568,
      "loss": 3.8537,
      "step": 167420
    },
    {
      "epoch": 0.3488125,
      "grad_norm": 0.7952670454978943,
      "learning_rate": 0.00021973600522963413,
      "loss": 4.0272,
      "step": 167430
    },
    {
      "epoch": 0.34883333333333333,
      "grad_norm": 0.7013702392578125,
      "learning_rate": 0.00021972727671252067,
      "loss": 3.996,
      "step": 167440
    },
    {
      "epoch": 0.3488541666666667,
      "grad_norm": 0.7787192463874817,
      "learning_rate": 0.000219718547894213,
      "loss": 3.8063,
      "step": 167450
    },
    {
      "epoch": 0.348875,
      "grad_norm": 0.6545696258544922,
      "learning_rate": 0.00021970981877474875,
      "loss": 3.9392,
      "step": 167460
    },
    {
      "epoch": 0.34889583333333335,
      "grad_norm": 0.7715843915939331,
      "learning_rate": 0.0002197010893541657,
      "loss": 3.8711,
      "step": 167470
    },
    {
      "epoch": 0.34891666666666665,
      "grad_norm": 0.7604669332504272,
      "learning_rate": 0.00021969235963250155,
      "loss": 3.9712,
      "step": 167480
    },
    {
      "epoch": 0.3489375,
      "grad_norm": 0.7876217365264893,
      "learning_rate": 0.000219683629609794,
      "loss": 3.761,
      "step": 167490
    },
    {
      "epoch": 0.3489583333333333,
      "grad_norm": 0.8010431528091431,
      "learning_rate": 0.00021967489928608074,
      "loss": 3.6264,
      "step": 167500
    },
    {
      "epoch": 0.3489791666666667,
      "grad_norm": 0.7595979571342468,
      "learning_rate": 0.00021966616866139944,
      "loss": 3.7374,
      "step": 167510
    },
    {
      "epoch": 0.349,
      "grad_norm": 0.7116988897323608,
      "learning_rate": 0.00021965743773578794,
      "loss": 3.9061,
      "step": 167520
    },
    {
      "epoch": 0.34902083333333334,
      "grad_norm": 0.7391478419303894,
      "learning_rate": 0.00021964870650928382,
      "loss": 3.9082,
      "step": 167530
    },
    {
      "epoch": 0.34904166666666664,
      "grad_norm": 0.8752535581588745,
      "learning_rate": 0.00021963997498192494,
      "loss": 3.7594,
      "step": 167540
    },
    {
      "epoch": 0.3490625,
      "grad_norm": 0.7237616777420044,
      "learning_rate": 0.00021963124315374884,
      "loss": 3.7995,
      "step": 167550
    },
    {
      "epoch": 0.34908333333333336,
      "grad_norm": 0.82927006483078,
      "learning_rate": 0.0002196225110247934,
      "loss": 3.8101,
      "step": 167560
    },
    {
      "epoch": 0.34910416666666666,
      "grad_norm": 0.7436612248420715,
      "learning_rate": 0.00021961377859509626,
      "loss": 3.7944,
      "step": 167570
    },
    {
      "epoch": 0.349125,
      "grad_norm": 0.8391726613044739,
      "learning_rate": 0.00021960504586469512,
      "loss": 3.7741,
      "step": 167580
    },
    {
      "epoch": 0.3491458333333333,
      "grad_norm": 0.9465711116790771,
      "learning_rate": 0.00021959631283362775,
      "loss": 3.8704,
      "step": 167590
    },
    {
      "epoch": 0.3491666666666667,
      "grad_norm": 0.7632681131362915,
      "learning_rate": 0.00021958757950193186,
      "loss": 3.7583,
      "step": 167600
    },
    {
      "epoch": 0.3491875,
      "grad_norm": 0.7571573853492737,
      "learning_rate": 0.00021957884586964516,
      "loss": 3.7733,
      "step": 167610
    },
    {
      "epoch": 0.34920833333333334,
      "grad_norm": 0.7010571360588074,
      "learning_rate": 0.00021957011193680543,
      "loss": 3.9381,
      "step": 167620
    },
    {
      "epoch": 0.34922916666666665,
      "grad_norm": 0.8042372465133667,
      "learning_rate": 0.0002195613777034503,
      "loss": 3.9495,
      "step": 167630
    },
    {
      "epoch": 0.34925,
      "grad_norm": 0.7018886804580688,
      "learning_rate": 0.00021955264316961758,
      "loss": 3.9006,
      "step": 167640
    },
    {
      "epoch": 0.3492708333333333,
      "grad_norm": 0.8553451895713806,
      "learning_rate": 0.00021954390833534498,
      "loss": 3.7641,
      "step": 167650
    },
    {
      "epoch": 0.34929166666666667,
      "grad_norm": 0.8763352632522583,
      "learning_rate": 0.0002195351732006702,
      "loss": 4.013,
      "step": 167660
    },
    {
      "epoch": 0.3493125,
      "grad_norm": 0.8052722811698914,
      "learning_rate": 0.000219526437765631,
      "loss": 3.7733,
      "step": 167670
    },
    {
      "epoch": 0.34933333333333333,
      "grad_norm": 0.6916831731796265,
      "learning_rate": 0.00021951770203026513,
      "loss": 3.781,
      "step": 167680
    },
    {
      "epoch": 0.3493541666666667,
      "grad_norm": 0.8122615814208984,
      "learning_rate": 0.00021950896599461027,
      "loss": 3.7442,
      "step": 167690
    },
    {
      "epoch": 0.349375,
      "grad_norm": 0.9117591977119446,
      "learning_rate": 0.00021950022965870424,
      "loss": 3.8074,
      "step": 167700
    },
    {
      "epoch": 0.34939583333333335,
      "grad_norm": 0.836524486541748,
      "learning_rate": 0.0002194914930225847,
      "loss": 3.8454,
      "step": 167710
    },
    {
      "epoch": 0.34941666666666665,
      "grad_norm": 0.7264679074287415,
      "learning_rate": 0.00021948275608628937,
      "loss": 3.9307,
      "step": 167720
    },
    {
      "epoch": 0.3494375,
      "grad_norm": 0.7932240962982178,
      "learning_rate": 0.0002194740188498561,
      "loss": 3.6646,
      "step": 167730
    },
    {
      "epoch": 0.3494583333333333,
      "grad_norm": 1.179918885231018,
      "learning_rate": 0.00021946528131332253,
      "loss": 3.9362,
      "step": 167740
    },
    {
      "epoch": 0.3494791666666667,
      "grad_norm": 0.6810434460639954,
      "learning_rate": 0.00021945654347672647,
      "loss": 3.7912,
      "step": 167750
    },
    {
      "epoch": 0.3495,
      "grad_norm": 0.7435696125030518,
      "learning_rate": 0.00021944780534010564,
      "loss": 3.7853,
      "step": 167760
    },
    {
      "epoch": 0.34952083333333334,
      "grad_norm": 0.7612322568893433,
      "learning_rate": 0.00021943906690349775,
      "loss": 3.8097,
      "step": 167770
    },
    {
      "epoch": 0.34954166666666664,
      "grad_norm": 0.6977894902229309,
      "learning_rate": 0.0002194303281669406,
      "loss": 3.8987,
      "step": 167780
    },
    {
      "epoch": 0.3495625,
      "grad_norm": 0.778747022151947,
      "learning_rate": 0.00021942158913047194,
      "loss": 3.8451,
      "step": 167790
    },
    {
      "epoch": 0.34958333333333336,
      "grad_norm": 0.9185960292816162,
      "learning_rate": 0.0002194128497941294,
      "loss": 3.8764,
      "step": 167800
    },
    {
      "epoch": 0.34960416666666666,
      "grad_norm": 0.8325834274291992,
      "learning_rate": 0.0002194041101579509,
      "loss": 4.0595,
      "step": 167810
    },
    {
      "epoch": 0.349625,
      "grad_norm": 0.7243712544441223,
      "learning_rate": 0.00021939537022197414,
      "loss": 3.7814,
      "step": 167820
    },
    {
      "epoch": 0.3496458333333333,
      "grad_norm": 0.7517541646957397,
      "learning_rate": 0.00021938662998623675,
      "loss": 3.6823,
      "step": 167830
    },
    {
      "epoch": 0.3496666666666667,
      "grad_norm": 0.8396955728530884,
      "learning_rate": 0.00021937788945077669,
      "loss": 3.8501,
      "step": 167840
    },
    {
      "epoch": 0.3496875,
      "grad_norm": 0.9327895045280457,
      "learning_rate": 0.00021936914861563157,
      "loss": 3.8502,
      "step": 167850
    },
    {
      "epoch": 0.34970833333333334,
      "grad_norm": 0.7561688423156738,
      "learning_rate": 0.00021936040748083918,
      "loss": 3.7213,
      "step": 167860
    },
    {
      "epoch": 0.34972916666666665,
      "grad_norm": 0.769102156162262,
      "learning_rate": 0.00021935166604643728,
      "loss": 3.9644,
      "step": 167870
    },
    {
      "epoch": 0.34975,
      "grad_norm": 0.8512886166572571,
      "learning_rate": 0.00021934292431246365,
      "loss": 3.7942,
      "step": 167880
    },
    {
      "epoch": 0.3497708333333333,
      "grad_norm": 0.8119280934333801,
      "learning_rate": 0.000219334182278956,
      "loss": 3.8978,
      "step": 167890
    },
    {
      "epoch": 0.34979166666666667,
      "grad_norm": 0.924683690071106,
      "learning_rate": 0.00021932543994595215,
      "loss": 3.92,
      "step": 167900
    },
    {
      "epoch": 0.3498125,
      "grad_norm": 0.7941591143608093,
      "learning_rate": 0.00021931669731348983,
      "loss": 3.7657,
      "step": 167910
    },
    {
      "epoch": 0.34983333333333333,
      "grad_norm": 0.6774385571479797,
      "learning_rate": 0.00021930795438160683,
      "loss": 3.7735,
      "step": 167920
    },
    {
      "epoch": 0.3498541666666667,
      "grad_norm": 0.6579151749610901,
      "learning_rate": 0.0002192992111503409,
      "loss": 3.9403,
      "step": 167930
    },
    {
      "epoch": 0.349875,
      "grad_norm": 0.7126381397247314,
      "learning_rate": 0.00021929046761972983,
      "loss": 3.8006,
      "step": 167940
    },
    {
      "epoch": 0.34989583333333335,
      "grad_norm": 0.7358299493789673,
      "learning_rate": 0.00021928172378981133,
      "loss": 3.7295,
      "step": 167950
    },
    {
      "epoch": 0.34991666666666665,
      "grad_norm": 0.6874696612358093,
      "learning_rate": 0.00021927297966062317,
      "loss": 3.7549,
      "step": 167960
    },
    {
      "epoch": 0.3499375,
      "grad_norm": 0.8318476676940918,
      "learning_rate": 0.00021926423523220323,
      "loss": 3.9879,
      "step": 167970
    },
    {
      "epoch": 0.3499583333333333,
      "grad_norm": 0.7626111507415771,
      "learning_rate": 0.00021925549050458922,
      "loss": 3.8108,
      "step": 167980
    },
    {
      "epoch": 0.3499791666666667,
      "grad_norm": 0.8810161352157593,
      "learning_rate": 0.00021924674547781886,
      "loss": 3.8038,
      "step": 167990
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7614760994911194,
      "learning_rate": 0.00021923800015192997,
      "loss": 3.7704,
      "step": 168000
    },
    {
      "epoch": 0.35,
      "eval_loss": 4.1973090171813965,
      "eval_runtime": 9.5951,
      "eval_samples_per_second": 1.042,
      "eval_steps_per_second": 0.313,
      "step": 168000
    },
    {
      "epoch": 0.35002083333333334,
      "grad_norm": 0.8154656291007996,
      "learning_rate": 0.00021922925452696036,
      "loss": 3.8972,
      "step": 168010
    },
    {
      "epoch": 0.35004166666666664,
      "grad_norm": 0.75162273645401,
      "learning_rate": 0.00021922050860294774,
      "loss": 3.7435,
      "step": 168020
    },
    {
      "epoch": 0.3500625,
      "grad_norm": 0.7109634876251221,
      "learning_rate": 0.0002192117623799299,
      "loss": 3.8555,
      "step": 168030
    },
    {
      "epoch": 0.35008333333333336,
      "grad_norm": 0.7539191246032715,
      "learning_rate": 0.00021920301585794469,
      "loss": 3.7598,
      "step": 168040
    },
    {
      "epoch": 0.35010416666666666,
      "grad_norm": 0.7808381915092468,
      "learning_rate": 0.00021919426903702983,
      "loss": 3.6924,
      "step": 168050
    },
    {
      "epoch": 0.350125,
      "grad_norm": 0.8064906597137451,
      "learning_rate": 0.00021918552191722314,
      "loss": 3.8814,
      "step": 168060
    },
    {
      "epoch": 0.3501458333333333,
      "grad_norm": 0.7512993216514587,
      "learning_rate": 0.00021917677449856233,
      "loss": 3.7184,
      "step": 168070
    },
    {
      "epoch": 0.3501666666666667,
      "grad_norm": 0.8619134426116943,
      "learning_rate": 0.00021916802678108527,
      "loss": 3.6848,
      "step": 168080
    },
    {
      "epoch": 0.3501875,
      "grad_norm": 0.7729658484458923,
      "learning_rate": 0.0002191592787648297,
      "loss": 3.9533,
      "step": 168090
    },
    {
      "epoch": 0.35020833333333334,
      "grad_norm": 0.8228874206542969,
      "learning_rate": 0.0002191505304498334,
      "loss": 3.7848,
      "step": 168100
    },
    {
      "epoch": 0.35022916666666665,
      "grad_norm": 0.7168615460395813,
      "learning_rate": 0.00021914178183613423,
      "loss": 3.8388,
      "step": 168110
    },
    {
      "epoch": 0.35025,
      "grad_norm": 0.8084043860435486,
      "learning_rate": 0.00021913303292376993,
      "loss": 3.7588,
      "step": 168120
    },
    {
      "epoch": 0.3502708333333333,
      "grad_norm": 0.8527881503105164,
      "learning_rate": 0.00021912428371277827,
      "loss": 3.6674,
      "step": 168130
    },
    {
      "epoch": 0.35029166666666667,
      "grad_norm": 0.9302334785461426,
      "learning_rate": 0.00021911553420319704,
      "loss": 3.8175,
      "step": 168140
    },
    {
      "epoch": 0.3503125,
      "grad_norm": 0.7881948947906494,
      "learning_rate": 0.00021910678439506412,
      "loss": 3.8596,
      "step": 168150
    },
    {
      "epoch": 0.35033333333333333,
      "grad_norm": 0.8246210217475891,
      "learning_rate": 0.0002190980342884172,
      "loss": 3.8262,
      "step": 168160
    },
    {
      "epoch": 0.3503541666666667,
      "grad_norm": 0.8277216553688049,
      "learning_rate": 0.0002190892838832941,
      "loss": 3.872,
      "step": 168170
    },
    {
      "epoch": 0.350375,
      "grad_norm": 0.6659982204437256,
      "learning_rate": 0.0002190805331797327,
      "loss": 3.7635,
      "step": 168180
    },
    {
      "epoch": 0.35039583333333335,
      "grad_norm": 0.8727331161499023,
      "learning_rate": 0.00021907178217777073,
      "loss": 3.91,
      "step": 168190
    },
    {
      "epoch": 0.35041666666666665,
      "grad_norm": 0.7513010501861572,
      "learning_rate": 0.00021906303087744594,
      "loss": 3.6445,
      "step": 168200
    },
    {
      "epoch": 0.3504375,
      "grad_norm": 0.7289113402366638,
      "learning_rate": 0.0002190542792787963,
      "loss": 3.7929,
      "step": 168210
    },
    {
      "epoch": 0.3504583333333333,
      "grad_norm": 0.8109714984893799,
      "learning_rate": 0.00021904552738185942,
      "loss": 3.7597,
      "step": 168220
    },
    {
      "epoch": 0.3504791666666667,
      "grad_norm": 0.8177506923675537,
      "learning_rate": 0.0002190367751866732,
      "loss": 3.8478,
      "step": 168230
    },
    {
      "epoch": 0.3505,
      "grad_norm": 0.6743994951248169,
      "learning_rate": 0.00021902802269327547,
      "loss": 3.7507,
      "step": 168240
    },
    {
      "epoch": 0.35052083333333334,
      "grad_norm": 0.8011075854301453,
      "learning_rate": 0.000219019269901704,
      "loss": 3.7902,
      "step": 168250
    },
    {
      "epoch": 0.35054166666666664,
      "grad_norm": 0.779731810092926,
      "learning_rate": 0.00021901051681199658,
      "loss": 3.7771,
      "step": 168260
    },
    {
      "epoch": 0.3505625,
      "grad_norm": 0.8930521607398987,
      "learning_rate": 0.00021900176342419105,
      "loss": 3.8621,
      "step": 168270
    },
    {
      "epoch": 0.35058333333333336,
      "grad_norm": 0.6899304389953613,
      "learning_rate": 0.00021899300973832525,
      "loss": 4.104,
      "step": 168280
    },
    {
      "epoch": 0.35060416666666666,
      "grad_norm": 0.7154614925384521,
      "learning_rate": 0.00021898425575443697,
      "loss": 3.8529,
      "step": 168290
    },
    {
      "epoch": 0.350625,
      "grad_norm": 0.6825525164604187,
      "learning_rate": 0.0002189755014725639,
      "loss": 3.7551,
      "step": 168300
    },
    {
      "epoch": 0.3506458333333333,
      "grad_norm": 0.8786755800247192,
      "learning_rate": 0.00021896674689274407,
      "loss": 3.7336,
      "step": 168310
    },
    {
      "epoch": 0.3506666666666667,
      "grad_norm": 0.753951907157898,
      "learning_rate": 0.00021895799201501515,
      "loss": 3.7009,
      "step": 168320
    },
    {
      "epoch": 0.3506875,
      "grad_norm": 0.7305511832237244,
      "learning_rate": 0.000218949236839415,
      "loss": 3.8671,
      "step": 168330
    },
    {
      "epoch": 0.35070833333333334,
      "grad_norm": 0.7608426809310913,
      "learning_rate": 0.00021894048136598146,
      "loss": 3.9482,
      "step": 168340
    },
    {
      "epoch": 0.35072916666666665,
      "grad_norm": 0.7585217952728271,
      "learning_rate": 0.00021893172559475234,
      "loss": 3.857,
      "step": 168350
    },
    {
      "epoch": 0.35075,
      "grad_norm": 0.7313397526741028,
      "learning_rate": 0.00021892296952576545,
      "loss": 3.9116,
      "step": 168360
    },
    {
      "epoch": 0.3507708333333333,
      "grad_norm": 0.7613368630409241,
      "learning_rate": 0.00021891421315905856,
      "loss": 3.7679,
      "step": 168370
    },
    {
      "epoch": 0.35079166666666667,
      "grad_norm": 0.7652255892753601,
      "learning_rate": 0.00021890545649466957,
      "loss": 3.8641,
      "step": 168380
    },
    {
      "epoch": 0.3508125,
      "grad_norm": 0.7801837921142578,
      "learning_rate": 0.0002188966995326363,
      "loss": 3.7637,
      "step": 168390
    },
    {
      "epoch": 0.35083333333333333,
      "grad_norm": 0.780910313129425,
      "learning_rate": 0.00021888794227299657,
      "loss": 4.0891,
      "step": 168400
    },
    {
      "epoch": 0.3508541666666667,
      "grad_norm": 0.7589619755744934,
      "learning_rate": 0.0002188791847157882,
      "loss": 3.8662,
      "step": 168410
    },
    {
      "epoch": 0.350875,
      "grad_norm": 0.8955235481262207,
      "learning_rate": 0.00021887042686104897,
      "loss": 3.8277,
      "step": 168420
    },
    {
      "epoch": 0.35089583333333335,
      "grad_norm": 0.7657552361488342,
      "learning_rate": 0.00021886166870881677,
      "loss": 3.9464,
      "step": 168430
    },
    {
      "epoch": 0.35091666666666665,
      "grad_norm": 0.8772437572479248,
      "learning_rate": 0.00021885291025912942,
      "loss": 4.0467,
      "step": 168440
    },
    {
      "epoch": 0.3509375,
      "grad_norm": 0.842696487903595,
      "learning_rate": 0.0002188441515120248,
      "loss": 3.9516,
      "step": 168450
    },
    {
      "epoch": 0.3509583333333333,
      "grad_norm": 0.6986722350120544,
      "learning_rate": 0.00021883539246754063,
      "loss": 3.8444,
      "step": 168460
    },
    {
      "epoch": 0.3509791666666667,
      "grad_norm": 0.7434565424919128,
      "learning_rate": 0.00021882663312571481,
      "loss": 3.8378,
      "step": 168470
    },
    {
      "epoch": 0.351,
      "grad_norm": 0.782898485660553,
      "learning_rate": 0.00021881787348658523,
      "loss": 3.9564,
      "step": 168480
    },
    {
      "epoch": 0.35102083333333334,
      "grad_norm": 0.6747316718101501,
      "learning_rate": 0.00021880911355018966,
      "loss": 3.8937,
      "step": 168490
    },
    {
      "epoch": 0.35104166666666664,
      "grad_norm": 0.7799602150917053,
      "learning_rate": 0.00021880035331656592,
      "loss": 3.8884,
      "step": 168500
    },
    {
      "epoch": 0.3510625,
      "grad_norm": 0.7241820693016052,
      "learning_rate": 0.00021879159278575196,
      "loss": 3.7054,
      "step": 168510
    },
    {
      "epoch": 0.35108333333333336,
      "grad_norm": 0.7885885238647461,
      "learning_rate": 0.0002187828319577855,
      "loss": 3.7106,
      "step": 168520
    },
    {
      "epoch": 0.35110416666666666,
      "grad_norm": 0.6763389110565186,
      "learning_rate": 0.00021877407083270442,
      "loss": 3.8608,
      "step": 168530
    },
    {
      "epoch": 0.351125,
      "grad_norm": 0.6843334436416626,
      "learning_rate": 0.0002187653094105466,
      "loss": 3.6108,
      "step": 168540
    },
    {
      "epoch": 0.3511458333333333,
      "grad_norm": 0.780225932598114,
      "learning_rate": 0.0002187565476913499,
      "loss": 3.7249,
      "step": 168550
    },
    {
      "epoch": 0.3511666666666667,
      "grad_norm": 0.9243070483207703,
      "learning_rate": 0.00021874778567515206,
      "loss": 3.8099,
      "step": 168560
    },
    {
      "epoch": 0.3511875,
      "grad_norm": 0.6986493468284607,
      "learning_rate": 0.00021873902336199102,
      "loss": 3.7484,
      "step": 168570
    },
    {
      "epoch": 0.35120833333333334,
      "grad_norm": 0.7093654274940491,
      "learning_rate": 0.0002187302607519046,
      "loss": 3.8846,
      "step": 168580
    },
    {
      "epoch": 0.35122916666666665,
      "grad_norm": 1.087119221687317,
      "learning_rate": 0.00021872149784493068,
      "loss": 3.8777,
      "step": 168590
    },
    {
      "epoch": 0.35125,
      "grad_norm": 1.0300750732421875,
      "learning_rate": 0.0002187127346411071,
      "loss": 3.9927,
      "step": 168600
    },
    {
      "epoch": 0.3512708333333333,
      "grad_norm": 0.7661721706390381,
      "learning_rate": 0.00021870397114047167,
      "loss": 3.7093,
      "step": 168610
    },
    {
      "epoch": 0.35129166666666667,
      "grad_norm": 0.7736000418663025,
      "learning_rate": 0.0002186952073430623,
      "loss": 3.7583,
      "step": 168620
    },
    {
      "epoch": 0.3513125,
      "grad_norm": 0.7749875783920288,
      "learning_rate": 0.00021868644324891682,
      "loss": 3.8418,
      "step": 168630
    },
    {
      "epoch": 0.35133333333333333,
      "grad_norm": 0.7996122241020203,
      "learning_rate": 0.00021867767885807307,
      "loss": 3.7493,
      "step": 168640
    },
    {
      "epoch": 0.3513541666666667,
      "grad_norm": 0.74534672498703,
      "learning_rate": 0.00021866891417056898,
      "loss": 3.827,
      "step": 168650
    },
    {
      "epoch": 0.351375,
      "grad_norm": 0.7289767861366272,
      "learning_rate": 0.00021866014918644239,
      "loss": 3.5869,
      "step": 168660
    },
    {
      "epoch": 0.35139583333333335,
      "grad_norm": 0.7958475351333618,
      "learning_rate": 0.00021865138390573103,
      "loss": 3.8815,
      "step": 168670
    },
    {
      "epoch": 0.35141666666666665,
      "grad_norm": 0.6835991740226746,
      "learning_rate": 0.00021864261832847296,
      "loss": 3.7749,
      "step": 168680
    },
    {
      "epoch": 0.3514375,
      "grad_norm": 0.7299275994300842,
      "learning_rate": 0.0002186338524547059,
      "loss": 3.7391,
      "step": 168690
    },
    {
      "epoch": 0.3514583333333333,
      "grad_norm": 0.8943256139755249,
      "learning_rate": 0.00021862508628446776,
      "loss": 3.8544,
      "step": 168700
    },
    {
      "epoch": 0.3514791666666667,
      "grad_norm": 0.7661338448524475,
      "learning_rate": 0.00021861631981779644,
      "loss": 3.6464,
      "step": 168710
    },
    {
      "epoch": 0.3515,
      "grad_norm": 0.8453572988510132,
      "learning_rate": 0.00021860755305472976,
      "loss": 3.7598,
      "step": 168720
    },
    {
      "epoch": 0.35152083333333334,
      "grad_norm": 0.8785160183906555,
      "learning_rate": 0.0002185987859953056,
      "loss": 4.0608,
      "step": 168730
    },
    {
      "epoch": 0.35154166666666664,
      "grad_norm": 0.8334219455718994,
      "learning_rate": 0.00021859001863956185,
      "loss": 3.9209,
      "step": 168740
    },
    {
      "epoch": 0.3515625,
      "grad_norm": 0.8605513572692871,
      "learning_rate": 0.00021858125098753634,
      "loss": 3.8482,
      "step": 168750
    },
    {
      "epoch": 0.35158333333333336,
      "grad_norm": 0.7961806058883667,
      "learning_rate": 0.00021857248303926703,
      "loss": 3.6698,
      "step": 168760
    },
    {
      "epoch": 0.35160416666666666,
      "grad_norm": 0.9168233275413513,
      "learning_rate": 0.00021856371479479168,
      "loss": 3.7598,
      "step": 168770
    },
    {
      "epoch": 0.351625,
      "grad_norm": 0.730363130569458,
      "learning_rate": 0.00021855494625414826,
      "loss": 3.827,
      "step": 168780
    },
    {
      "epoch": 0.3516458333333333,
      "grad_norm": 0.7339237332344055,
      "learning_rate": 0.0002185461774173746,
      "loss": 3.7059,
      "step": 168790
    },
    {
      "epoch": 0.3516666666666667,
      "grad_norm": 0.7007289528846741,
      "learning_rate": 0.00021853740828450856,
      "loss": 3.6184,
      "step": 168800
    },
    {
      "epoch": 0.3516875,
      "grad_norm": 1.0567899942398071,
      "learning_rate": 0.00021852863885558807,
      "loss": 3.6608,
      "step": 168810
    },
    {
      "epoch": 0.35170833333333335,
      "grad_norm": 0.7475533485412598,
      "learning_rate": 0.000218519869130651,
      "loss": 3.9655,
      "step": 168820
    },
    {
      "epoch": 0.35172916666666665,
      "grad_norm": 0.7141680121421814,
      "learning_rate": 0.00021851109910973518,
      "loss": 3.9063,
      "step": 168830
    },
    {
      "epoch": 0.35175,
      "grad_norm": 0.7679862976074219,
      "learning_rate": 0.00021850232879287853,
      "loss": 3.8514,
      "step": 168840
    },
    {
      "epoch": 0.3517708333333333,
      "grad_norm": 1.2963800430297852,
      "learning_rate": 0.00021849355818011898,
      "loss": 3.9355,
      "step": 168850
    },
    {
      "epoch": 0.35179166666666667,
      "grad_norm": 0.8864924311637878,
      "learning_rate": 0.00021848478727149435,
      "loss": 3.8621,
      "step": 168860
    },
    {
      "epoch": 0.3518125,
      "grad_norm": 0.7488850951194763,
      "learning_rate": 0.0002184760160670425,
      "loss": 3.863,
      "step": 168870
    },
    {
      "epoch": 0.35183333333333333,
      "grad_norm": 0.9835378527641296,
      "learning_rate": 0.00021846724456680146,
      "loss": 3.8457,
      "step": 168880
    },
    {
      "epoch": 0.3518541666666667,
      "grad_norm": 0.8401551842689514,
      "learning_rate": 0.00021845847277080895,
      "loss": 3.7234,
      "step": 168890
    },
    {
      "epoch": 0.351875,
      "grad_norm": 0.7882599234580994,
      "learning_rate": 0.00021844970067910294,
      "loss": 3.7741,
      "step": 168900
    },
    {
      "epoch": 0.35189583333333335,
      "grad_norm": 0.7497324347496033,
      "learning_rate": 0.00021844092829172135,
      "loss": 3.6841,
      "step": 168910
    },
    {
      "epoch": 0.35191666666666666,
      "grad_norm": 1.0822237730026245,
      "learning_rate": 0.00021843215560870204,
      "loss": 3.5496,
      "step": 168920
    },
    {
      "epoch": 0.3519375,
      "grad_norm": 0.8902716636657715,
      "learning_rate": 0.00021842338263008287,
      "loss": 3.926,
      "step": 168930
    },
    {
      "epoch": 0.3519583333333333,
      "grad_norm": 0.8402057886123657,
      "learning_rate": 0.0002184146093559018,
      "loss": 3.7623,
      "step": 168940
    },
    {
      "epoch": 0.3519791666666667,
      "grad_norm": 0.8802101016044617,
      "learning_rate": 0.0002184058357861967,
      "loss": 3.7605,
      "step": 168950
    },
    {
      "epoch": 0.352,
      "grad_norm": 0.7756428122520447,
      "learning_rate": 0.00021839706192100544,
      "loss": 3.7932,
      "step": 168960
    },
    {
      "epoch": 0.35202083333333334,
      "grad_norm": 0.7689589262008667,
      "learning_rate": 0.00021838828776036596,
      "loss": 3.8365,
      "step": 168970
    },
    {
      "epoch": 0.35204166666666664,
      "grad_norm": 0.8396580815315247,
      "learning_rate": 0.00021837951330431614,
      "loss": 3.8978,
      "step": 168980
    },
    {
      "epoch": 0.3520625,
      "grad_norm": 0.789513885974884,
      "learning_rate": 0.00021837073855289393,
      "loss": 3.8867,
      "step": 168990
    },
    {
      "epoch": 0.35208333333333336,
      "grad_norm": 0.7001689076423645,
      "learning_rate": 0.00021836196350613713,
      "loss": 3.848,
      "step": 169000
    },
    {
      "epoch": 0.35208333333333336,
      "eval_loss": 4.1927900314331055,
      "eval_runtime": 9.3128,
      "eval_samples_per_second": 1.074,
      "eval_steps_per_second": 0.322,
      "step": 169000
    },
    {
      "epoch": 0.35210416666666666,
      "grad_norm": 0.6902575492858887,
      "learning_rate": 0.00021835318816408372,
      "loss": 3.9215,
      "step": 169010
    },
    {
      "epoch": 0.352125,
      "grad_norm": 0.8167562484741211,
      "learning_rate": 0.00021834441252677165,
      "loss": 3.6981,
      "step": 169020
    },
    {
      "epoch": 0.3521458333333333,
      "grad_norm": 0.8487328290939331,
      "learning_rate": 0.0002183356365942387,
      "loss": 3.8733,
      "step": 169030
    },
    {
      "epoch": 0.3521666666666667,
      "grad_norm": 0.9210008978843689,
      "learning_rate": 0.0002183268603665229,
      "loss": 3.8296,
      "step": 169040
    },
    {
      "epoch": 0.3521875,
      "grad_norm": 0.8262609839439392,
      "learning_rate": 0.00021831808384366208,
      "loss": 3.8661,
      "step": 169050
    },
    {
      "epoch": 0.35220833333333335,
      "grad_norm": 0.9338645339012146,
      "learning_rate": 0.00021830930702569417,
      "loss": 3.7295,
      "step": 169060
    },
    {
      "epoch": 0.35222916666666665,
      "grad_norm": 0.7972855567932129,
      "learning_rate": 0.0002183005299126571,
      "loss": 3.8945,
      "step": 169070
    },
    {
      "epoch": 0.35225,
      "grad_norm": 0.8481482267379761,
      "learning_rate": 0.00021829175250458885,
      "loss": 3.8805,
      "step": 169080
    },
    {
      "epoch": 0.3522708333333333,
      "grad_norm": 0.7369168996810913,
      "learning_rate": 0.00021828297480152716,
      "loss": 3.7838,
      "step": 169090
    },
    {
      "epoch": 0.35229166666666667,
      "grad_norm": 0.9283992648124695,
      "learning_rate": 0.00021827419680351008,
      "loss": 3.8215,
      "step": 169100
    },
    {
      "epoch": 0.3523125,
      "grad_norm": 0.8861141204833984,
      "learning_rate": 0.00021826541851057552,
      "loss": 3.9288,
      "step": 169110
    },
    {
      "epoch": 0.35233333333333333,
      "grad_norm": 0.7892493009567261,
      "learning_rate": 0.00021825663992276135,
      "loss": 3.9182,
      "step": 169120
    },
    {
      "epoch": 0.3523541666666667,
      "grad_norm": 0.8681371808052063,
      "learning_rate": 0.0002182478610401055,
      "loss": 3.8123,
      "step": 169130
    },
    {
      "epoch": 0.352375,
      "grad_norm": 0.9405843019485474,
      "learning_rate": 0.0002182390818626459,
      "loss": 3.8779,
      "step": 169140
    },
    {
      "epoch": 0.35239583333333335,
      "grad_norm": 0.8989017009735107,
      "learning_rate": 0.00021823030239042054,
      "loss": 3.9579,
      "step": 169150
    },
    {
      "epoch": 0.35241666666666666,
      "grad_norm": 0.808483898639679,
      "learning_rate": 0.00021822152262346723,
      "loss": 3.7376,
      "step": 169160
    },
    {
      "epoch": 0.3524375,
      "grad_norm": 0.7289925217628479,
      "learning_rate": 0.00021821274256182395,
      "loss": 3.7863,
      "step": 169170
    },
    {
      "epoch": 0.3524583333333333,
      "grad_norm": 1.039617657661438,
      "learning_rate": 0.00021820396220552862,
      "loss": 3.5439,
      "step": 169180
    },
    {
      "epoch": 0.3524791666666667,
      "grad_norm": 0.8995776176452637,
      "learning_rate": 0.0002181951815546192,
      "loss": 3.8625,
      "step": 169190
    },
    {
      "epoch": 0.3525,
      "grad_norm": 0.7502321004867554,
      "learning_rate": 0.00021818640060913353,
      "loss": 3.8671,
      "step": 169200
    },
    {
      "epoch": 0.35252083333333334,
      "grad_norm": 0.7400725483894348,
      "learning_rate": 0.00021817761936910964,
      "loss": 3.6463,
      "step": 169210
    },
    {
      "epoch": 0.35254166666666664,
      "grad_norm": 0.7594953179359436,
      "learning_rate": 0.00021816883783458543,
      "loss": 3.8731,
      "step": 169220
    },
    {
      "epoch": 0.3525625,
      "grad_norm": 0.6913808584213257,
      "learning_rate": 0.00021816005600559882,
      "loss": 3.6787,
      "step": 169230
    },
    {
      "epoch": 0.35258333333333336,
      "grad_norm": 0.717353105545044,
      "learning_rate": 0.00021815127388218771,
      "loss": 3.7118,
      "step": 169240
    },
    {
      "epoch": 0.35260416666666666,
      "grad_norm": 0.7685366272926331,
      "learning_rate": 0.00021814249146439013,
      "loss": 3.8051,
      "step": 169250
    },
    {
      "epoch": 0.352625,
      "grad_norm": 0.8894745111465454,
      "learning_rate": 0.00021813370875224393,
      "loss": 3.8334,
      "step": 169260
    },
    {
      "epoch": 0.3526458333333333,
      "grad_norm": 0.8827130198478699,
      "learning_rate": 0.0002181249257457871,
      "loss": 3.8672,
      "step": 169270
    },
    {
      "epoch": 0.3526666666666667,
      "grad_norm": 0.8582818508148193,
      "learning_rate": 0.00021811614244505754,
      "loss": 3.8053,
      "step": 169280
    },
    {
      "epoch": 0.3526875,
      "grad_norm": 0.7569517493247986,
      "learning_rate": 0.00021810735885009316,
      "loss": 3.9159,
      "step": 169290
    },
    {
      "epoch": 0.35270833333333335,
      "grad_norm": 0.6708624362945557,
      "learning_rate": 0.00021809857496093199,
      "loss": 3.9932,
      "step": 169300
    },
    {
      "epoch": 0.35272916666666665,
      "grad_norm": 0.7354157567024231,
      "learning_rate": 0.00021808979077761194,
      "loss": 3.9041,
      "step": 169310
    },
    {
      "epoch": 0.35275,
      "grad_norm": 0.7436581254005432,
      "learning_rate": 0.00021808100630017093,
      "loss": 3.7908,
      "step": 169320
    },
    {
      "epoch": 0.3527708333333333,
      "grad_norm": 0.7069351673126221,
      "learning_rate": 0.00021807222152864694,
      "loss": 3.9267,
      "step": 169330
    },
    {
      "epoch": 0.35279166666666667,
      "grad_norm": 0.7651156187057495,
      "learning_rate": 0.00021806343646307787,
      "loss": 3.7668,
      "step": 169340
    },
    {
      "epoch": 0.3528125,
      "grad_norm": 0.7032870650291443,
      "learning_rate": 0.00021805465110350173,
      "loss": 3.8155,
      "step": 169350
    },
    {
      "epoch": 0.35283333333333333,
      "grad_norm": 0.859806478023529,
      "learning_rate": 0.00021804586544995645,
      "loss": 3.8151,
      "step": 169360
    },
    {
      "epoch": 0.3528541666666667,
      "grad_norm": 0.882222056388855,
      "learning_rate": 0.0002180370795024799,
      "loss": 3.954,
      "step": 169370
    },
    {
      "epoch": 0.352875,
      "grad_norm": 0.744295597076416,
      "learning_rate": 0.00021802829326111013,
      "loss": 3.7511,
      "step": 169380
    },
    {
      "epoch": 0.35289583333333335,
      "grad_norm": 0.9316070079803467,
      "learning_rate": 0.00021801950672588506,
      "loss": 3.8029,
      "step": 169390
    },
    {
      "epoch": 0.35291666666666666,
      "grad_norm": 0.7592847347259521,
      "learning_rate": 0.0002180107198968426,
      "loss": 3.9071,
      "step": 169400
    },
    {
      "epoch": 0.3529375,
      "grad_norm": 0.7189452052116394,
      "learning_rate": 0.00021800193277402084,
      "loss": 3.8864,
      "step": 169410
    },
    {
      "epoch": 0.3529583333333333,
      "grad_norm": 0.7448237538337708,
      "learning_rate": 0.00021799314535745764,
      "loss": 3.7987,
      "step": 169420
    },
    {
      "epoch": 0.3529791666666667,
      "grad_norm": 0.7717031836509705,
      "learning_rate": 0.00021798435764719092,
      "loss": 3.7947,
      "step": 169430
    },
    {
      "epoch": 0.353,
      "grad_norm": 0.8097174167633057,
      "learning_rate": 0.0002179755696432587,
      "loss": 3.7346,
      "step": 169440
    },
    {
      "epoch": 0.35302083333333334,
      "grad_norm": 0.8521766066551208,
      "learning_rate": 0.0002179667813456989,
      "loss": 4.0351,
      "step": 169450
    },
    {
      "epoch": 0.35304166666666664,
      "grad_norm": 0.714692234992981,
      "learning_rate": 0.00021795799275454953,
      "loss": 3.795,
      "step": 169460
    },
    {
      "epoch": 0.3530625,
      "grad_norm": 0.8911398649215698,
      "learning_rate": 0.00021794920386984852,
      "loss": 3.7758,
      "step": 169470
    },
    {
      "epoch": 0.35308333333333336,
      "grad_norm": 0.7789497971534729,
      "learning_rate": 0.00021794041469163386,
      "loss": 4.012,
      "step": 169480
    },
    {
      "epoch": 0.35310416666666666,
      "grad_norm": 0.7288556694984436,
      "learning_rate": 0.0002179316252199435,
      "loss": 3.8461,
      "step": 169490
    },
    {
      "epoch": 0.353125,
      "grad_norm": 0.9227260947227478,
      "learning_rate": 0.00021792283545481541,
      "loss": 3.9777,
      "step": 169500
    },
    {
      "epoch": 0.3531458333333333,
      "grad_norm": 0.7522095441818237,
      "learning_rate": 0.00021791404539628755,
      "loss": 3.9029,
      "step": 169510
    },
    {
      "epoch": 0.3531666666666667,
      "grad_norm": 0.7815640568733215,
      "learning_rate": 0.0002179052550443979,
      "loss": 3.7809,
      "step": 169520
    },
    {
      "epoch": 0.3531875,
      "grad_norm": 0.8127781748771667,
      "learning_rate": 0.00021789646439918442,
      "loss": 3.6408,
      "step": 169530
    },
    {
      "epoch": 0.35320833333333335,
      "grad_norm": 0.7056199312210083,
      "learning_rate": 0.0002178876734606851,
      "loss": 3.7859,
      "step": 169540
    },
    {
      "epoch": 0.35322916666666665,
      "grad_norm": 0.7978252172470093,
      "learning_rate": 0.00021787888222893784,
      "loss": 3.8201,
      "step": 169550
    },
    {
      "epoch": 0.35325,
      "grad_norm": 0.9166446924209595,
      "learning_rate": 0.00021787009070398078,
      "loss": 3.8626,
      "step": 169560
    },
    {
      "epoch": 0.3532708333333333,
      "grad_norm": 0.7803662419319153,
      "learning_rate": 0.00021786129888585172,
      "loss": 3.9031,
      "step": 169570
    },
    {
      "epoch": 0.35329166666666667,
      "grad_norm": 0.8215962648391724,
      "learning_rate": 0.00021785250677458878,
      "loss": 3.8239,
      "step": 169580
    },
    {
      "epoch": 0.3533125,
      "grad_norm": 0.9009436964988708,
      "learning_rate": 0.00021784371437022984,
      "loss": 3.7919,
      "step": 169590
    },
    {
      "epoch": 0.35333333333333333,
      "grad_norm": 0.8614298105239868,
      "learning_rate": 0.00021783492167281283,
      "loss": 3.9863,
      "step": 169600
    },
    {
      "epoch": 0.3533541666666667,
      "grad_norm": 0.79803866147995,
      "learning_rate": 0.0002178261286823759,
      "loss": 3.7934,
      "step": 169610
    },
    {
      "epoch": 0.353375,
      "grad_norm": 0.8129898905754089,
      "learning_rate": 0.00021781733539895693,
      "loss": 3.827,
      "step": 169620
    },
    {
      "epoch": 0.35339583333333335,
      "grad_norm": 0.7329975962638855,
      "learning_rate": 0.0002178085418225939,
      "loss": 3.9049,
      "step": 169630
    },
    {
      "epoch": 0.35341666666666666,
      "grad_norm": 0.7052565813064575,
      "learning_rate": 0.00021779974795332478,
      "loss": 3.834,
      "step": 169640
    },
    {
      "epoch": 0.3534375,
      "grad_norm": 0.9082964062690735,
      "learning_rate": 0.00021779095379118762,
      "loss": 3.7587,
      "step": 169650
    },
    {
      "epoch": 0.3534583333333333,
      "grad_norm": 0.9457945823669434,
      "learning_rate": 0.00021778215933622038,
      "loss": 3.7905,
      "step": 169660
    },
    {
      "epoch": 0.3534791666666667,
      "grad_norm": 0.7487189173698425,
      "learning_rate": 0.00021777336458846103,
      "loss": 3.9852,
      "step": 169670
    },
    {
      "epoch": 0.3535,
      "grad_norm": 0.7942312359809875,
      "learning_rate": 0.00021776456954794755,
      "loss": 3.8837,
      "step": 169680
    },
    {
      "epoch": 0.35352083333333334,
      "grad_norm": 0.7665529251098633,
      "learning_rate": 0.00021775577421471798,
      "loss": 3.9096,
      "step": 169690
    },
    {
      "epoch": 0.35354166666666664,
      "grad_norm": 0.8510206937789917,
      "learning_rate": 0.00021774697858881027,
      "loss": 3.9366,
      "step": 169700
    },
    {
      "epoch": 0.3535625,
      "grad_norm": 0.8436992168426514,
      "learning_rate": 0.00021773818267026244,
      "loss": 3.65,
      "step": 169710
    },
    {
      "epoch": 0.35358333333333336,
      "grad_norm": 0.6912271976470947,
      "learning_rate": 0.0002177293864591125,
      "loss": 3.6385,
      "step": 169720
    },
    {
      "epoch": 0.35360416666666666,
      "grad_norm": 0.7905610203742981,
      "learning_rate": 0.00021772058995539839,
      "loss": 3.647,
      "step": 169730
    },
    {
      "epoch": 0.353625,
      "grad_norm": 0.8234629034996033,
      "learning_rate": 0.0002177117931591581,
      "loss": 3.8159,
      "step": 169740
    },
    {
      "epoch": 0.3536458333333333,
      "grad_norm": 0.8020646572113037,
      "learning_rate": 0.00021770299607042973,
      "loss": 3.9783,
      "step": 169750
    },
    {
      "epoch": 0.3536666666666667,
      "grad_norm": 0.7847670316696167,
      "learning_rate": 0.0002176941986892512,
      "loss": 3.7709,
      "step": 169760
    },
    {
      "epoch": 0.3536875,
      "grad_norm": 0.7566909790039062,
      "learning_rate": 0.00021768540101566047,
      "loss": 3.8367,
      "step": 169770
    },
    {
      "epoch": 0.35370833333333335,
      "grad_norm": 0.6981525421142578,
      "learning_rate": 0.00021767660304969566,
      "loss": 4.0003,
      "step": 169780
    },
    {
      "epoch": 0.35372916666666665,
      "grad_norm": 0.7057076096534729,
      "learning_rate": 0.0002176678047913947,
      "loss": 3.8869,
      "step": 169790
    },
    {
      "epoch": 0.35375,
      "grad_norm": 0.7103716731071472,
      "learning_rate": 0.00021765900624079562,
      "loss": 3.7057,
      "step": 169800
    },
    {
      "epoch": 0.3537708333333333,
      "grad_norm": 0.6952957510948181,
      "learning_rate": 0.00021765020739793642,
      "loss": 3.8206,
      "step": 169810
    },
    {
      "epoch": 0.35379166666666667,
      "grad_norm": 0.7810378074645996,
      "learning_rate": 0.00021764140826285505,
      "loss": 3.7592,
      "step": 169820
    },
    {
      "epoch": 0.3538125,
      "grad_norm": 0.8735611438751221,
      "learning_rate": 0.00021763260883558963,
      "loss": 3.7248,
      "step": 169830
    },
    {
      "epoch": 0.35383333333333333,
      "grad_norm": 0.7723455429077148,
      "learning_rate": 0.00021762380911617807,
      "loss": 3.782,
      "step": 169840
    },
    {
      "epoch": 0.3538541666666667,
      "grad_norm": 0.7826094031333923,
      "learning_rate": 0.00021761500910465843,
      "loss": 3.8988,
      "step": 169850
    },
    {
      "epoch": 0.353875,
      "grad_norm": 0.9207131862640381,
      "learning_rate": 0.00021760620880106874,
      "loss": 3.7378,
      "step": 169860
    },
    {
      "epoch": 0.35389583333333335,
      "grad_norm": 0.808520495891571,
      "learning_rate": 0.00021759740820544697,
      "loss": 3.8307,
      "step": 169870
    },
    {
      "epoch": 0.35391666666666666,
      "grad_norm": 0.8119993209838867,
      "learning_rate": 0.00021758860731783112,
      "loss": 3.922,
      "step": 169880
    },
    {
      "epoch": 0.3539375,
      "grad_norm": 0.6917045712471008,
      "learning_rate": 0.0002175798061382593,
      "loss": 4.0023,
      "step": 169890
    },
    {
      "epoch": 0.3539583333333333,
      "grad_norm": 0.7790599465370178,
      "learning_rate": 0.00021757100466676942,
      "loss": 4.0416,
      "step": 169900
    },
    {
      "epoch": 0.3539791666666667,
      "grad_norm": 0.7876489758491516,
      "learning_rate": 0.00021756220290339957,
      "loss": 3.7798,
      "step": 169910
    },
    {
      "epoch": 0.354,
      "grad_norm": 0.9040383696556091,
      "learning_rate": 0.00021755340084818775,
      "loss": 3.6352,
      "step": 169920
    },
    {
      "epoch": 0.35402083333333334,
      "grad_norm": 0.7407520413398743,
      "learning_rate": 0.00021754459850117198,
      "loss": 3.677,
      "step": 169930
    },
    {
      "epoch": 0.35404166666666664,
      "grad_norm": 0.8185041546821594,
      "learning_rate": 0.00021753579586239022,
      "loss": 3.9835,
      "step": 169940
    },
    {
      "epoch": 0.3540625,
      "grad_norm": 0.7647123336791992,
      "learning_rate": 0.00021752699293188063,
      "loss": 3.9717,
      "step": 169950
    },
    {
      "epoch": 0.35408333333333336,
      "grad_norm": 0.7791711091995239,
      "learning_rate": 0.00021751818970968116,
      "loss": 3.8561,
      "step": 169960
    },
    {
      "epoch": 0.35410416666666666,
      "grad_norm": 0.7463107109069824,
      "learning_rate": 0.00021750938619582977,
      "loss": 3.8676,
      "step": 169970
    },
    {
      "epoch": 0.354125,
      "grad_norm": 0.8642618656158447,
      "learning_rate": 0.00021750058239036461,
      "loss": 4.0424,
      "step": 169980
    },
    {
      "epoch": 0.3541458333333333,
      "grad_norm": 0.8355994820594788,
      "learning_rate": 0.00021749177829332364,
      "loss": 3.8175,
      "step": 169990
    },
    {
      "epoch": 0.3541666666666667,
      "grad_norm": 0.7148061990737915,
      "learning_rate": 0.0002174829739047449,
      "loss": 3.9466,
      "step": 170000
    },
    {
      "epoch": 0.3541666666666667,
      "eval_loss": 4.186801910400391,
      "eval_runtime": 10.0617,
      "eval_samples_per_second": 0.994,
      "eval_steps_per_second": 0.298,
      "step": 170000
    },
    {
      "epoch": 0.3541875,
      "grad_norm": 0.7795248627662659,
      "learning_rate": 0.00021747416922466642,
      "loss": 3.9467,
      "step": 170010
    },
    {
      "epoch": 0.35420833333333335,
      "grad_norm": 0.907346248626709,
      "learning_rate": 0.00021746536425312624,
      "loss": 3.9463,
      "step": 170020
    },
    {
      "epoch": 0.35422916666666665,
      "grad_norm": 0.8165323734283447,
      "learning_rate": 0.00021745655899016239,
      "loss": 3.8967,
      "step": 170030
    },
    {
      "epoch": 0.35425,
      "grad_norm": 0.746246874332428,
      "learning_rate": 0.0002174477534358129,
      "loss": 3.9356,
      "step": 170040
    },
    {
      "epoch": 0.3542708333333333,
      "grad_norm": 0.7406617999076843,
      "learning_rate": 0.00021743894759011583,
      "loss": 3.9082,
      "step": 170050
    },
    {
      "epoch": 0.35429166666666667,
      "grad_norm": 0.7056885361671448,
      "learning_rate": 0.00021743014145310922,
      "loss": 3.8822,
      "step": 170060
    },
    {
      "epoch": 0.3543125,
      "grad_norm": 0.7329480648040771,
      "learning_rate": 0.00021742133502483104,
      "loss": 3.7883,
      "step": 170070
    },
    {
      "epoch": 0.35433333333333333,
      "grad_norm": 0.8410901427268982,
      "learning_rate": 0.00021741252830531938,
      "loss": 3.9954,
      "step": 170080
    },
    {
      "epoch": 0.3543541666666667,
      "grad_norm": 0.8827375173568726,
      "learning_rate": 0.00021740372129461235,
      "loss": 3.9124,
      "step": 170090
    },
    {
      "epoch": 0.354375,
      "grad_norm": 0.8363715410232544,
      "learning_rate": 0.00021739491399274785,
      "loss": 4.0791,
      "step": 170100
    },
    {
      "epoch": 0.35439583333333335,
      "grad_norm": 0.751895546913147,
      "learning_rate": 0.000217386106399764,
      "loss": 3.9558,
      "step": 170110
    },
    {
      "epoch": 0.35441666666666666,
      "grad_norm": 0.8064751029014587,
      "learning_rate": 0.00021737729851569888,
      "loss": 3.9663,
      "step": 170120
    },
    {
      "epoch": 0.3544375,
      "grad_norm": 0.8099102973937988,
      "learning_rate": 0.00021736849034059052,
      "loss": 3.6206,
      "step": 170130
    },
    {
      "epoch": 0.3544583333333333,
      "grad_norm": 0.8266770839691162,
      "learning_rate": 0.0002173596818744769,
      "loss": 3.8608,
      "step": 170140
    },
    {
      "epoch": 0.3544791666666667,
      "grad_norm": 0.7433342337608337,
      "learning_rate": 0.00021735087311739614,
      "loss": 3.9402,
      "step": 170150
    },
    {
      "epoch": 0.3545,
      "grad_norm": 0.7811728715896606,
      "learning_rate": 0.00021734206406938628,
      "loss": 3.8176,
      "step": 170160
    },
    {
      "epoch": 0.35452083333333334,
      "grad_norm": 0.8531693816184998,
      "learning_rate": 0.00021733325473048532,
      "loss": 3.8084,
      "step": 170170
    },
    {
      "epoch": 0.35454166666666664,
      "grad_norm": 0.7095775604248047,
      "learning_rate": 0.00021732444510073136,
      "loss": 3.7178,
      "step": 170180
    },
    {
      "epoch": 0.3545625,
      "grad_norm": 0.9292476773262024,
      "learning_rate": 0.00021731563518016247,
      "loss": 3.8317,
      "step": 170190
    },
    {
      "epoch": 0.3545833333333333,
      "grad_norm": 0.842892587184906,
      "learning_rate": 0.00021730682496881666,
      "loss": 3.8124,
      "step": 170200
    },
    {
      "epoch": 0.35460416666666666,
      "grad_norm": 0.7712689638137817,
      "learning_rate": 0.00021729801446673203,
      "loss": 3.9039,
      "step": 170210
    },
    {
      "epoch": 0.354625,
      "grad_norm": 0.7765947580337524,
      "learning_rate": 0.0002172892036739466,
      "loss": 3.9664,
      "step": 170220
    },
    {
      "epoch": 0.3546458333333333,
      "grad_norm": 0.9089552164077759,
      "learning_rate": 0.00021728039259049847,
      "loss": 3.9546,
      "step": 170230
    },
    {
      "epoch": 0.3546666666666667,
      "grad_norm": 1.0879616737365723,
      "learning_rate": 0.00021727158121642563,
      "loss": 3.7053,
      "step": 170240
    },
    {
      "epoch": 0.3546875,
      "grad_norm": 0.7305189967155457,
      "learning_rate": 0.0002172627695517662,
      "loss": 3.8965,
      "step": 170250
    },
    {
      "epoch": 0.35470833333333335,
      "grad_norm": 0.6358845233917236,
      "learning_rate": 0.00021725395759655827,
      "loss": 3.7705,
      "step": 170260
    },
    {
      "epoch": 0.35472916666666665,
      "grad_norm": 0.8809435367584229,
      "learning_rate": 0.0002172451453508398,
      "loss": 3.8552,
      "step": 170270
    },
    {
      "epoch": 0.35475,
      "grad_norm": 0.9004581570625305,
      "learning_rate": 0.00021723633281464896,
      "loss": 3.8177,
      "step": 170280
    },
    {
      "epoch": 0.3547708333333333,
      "grad_norm": 0.755210280418396,
      "learning_rate": 0.0002172275199880238,
      "loss": 3.7766,
      "step": 170290
    },
    {
      "epoch": 0.35479166666666667,
      "grad_norm": 0.7437055110931396,
      "learning_rate": 0.00021721870687100233,
      "loss": 3.9068,
      "step": 170300
    },
    {
      "epoch": 0.3548125,
      "grad_norm": 0.859151303768158,
      "learning_rate": 0.00021720989346362264,
      "loss": 3.697,
      "step": 170310
    },
    {
      "epoch": 0.35483333333333333,
      "grad_norm": 0.6698724627494812,
      "learning_rate": 0.00021720107976592285,
      "loss": 3.8924,
      "step": 170320
    },
    {
      "epoch": 0.3548541666666667,
      "grad_norm": 0.788696825504303,
      "learning_rate": 0.00021719226577794097,
      "loss": 3.9125,
      "step": 170330
    },
    {
      "epoch": 0.354875,
      "grad_norm": 0.8094238042831421,
      "learning_rate": 0.0002171834514997151,
      "loss": 3.8785,
      "step": 170340
    },
    {
      "epoch": 0.35489583333333335,
      "grad_norm": 0.688413143157959,
      "learning_rate": 0.00021717463693128331,
      "loss": 3.8272,
      "step": 170350
    },
    {
      "epoch": 0.35491666666666666,
      "grad_norm": 0.7322277426719666,
      "learning_rate": 0.0002171658220726837,
      "loss": 3.8106,
      "step": 170360
    },
    {
      "epoch": 0.3549375,
      "grad_norm": 0.6806495785713196,
      "learning_rate": 0.0002171570069239543,
      "loss": 3.777,
      "step": 170370
    },
    {
      "epoch": 0.3549583333333333,
      "grad_norm": 0.8494377732276917,
      "learning_rate": 0.00021714819148513324,
      "loss": 3.7514,
      "step": 170380
    },
    {
      "epoch": 0.3549791666666667,
      "grad_norm": 0.9161635041236877,
      "learning_rate": 0.00021713937575625856,
      "loss": 3.7395,
      "step": 170390
    },
    {
      "epoch": 0.355,
      "grad_norm": 0.9808797240257263,
      "learning_rate": 0.00021713055973736833,
      "loss": 3.7752,
      "step": 170400
    },
    {
      "epoch": 0.35502083333333334,
      "grad_norm": 0.9133126735687256,
      "learning_rate": 0.0002171217434285007,
      "loss": 3.9353,
      "step": 170410
    },
    {
      "epoch": 0.35504166666666664,
      "grad_norm": 1.0163300037384033,
      "learning_rate": 0.00021711292682969366,
      "loss": 3.9113,
      "step": 170420
    },
    {
      "epoch": 0.3550625,
      "grad_norm": 0.819246768951416,
      "learning_rate": 0.0002171041099409854,
      "loss": 3.8608,
      "step": 170430
    },
    {
      "epoch": 0.3550833333333333,
      "grad_norm": 0.8387649059295654,
      "learning_rate": 0.00021709529276241386,
      "loss": 3.7487,
      "step": 170440
    },
    {
      "epoch": 0.35510416666666667,
      "grad_norm": 0.9025372266769409,
      "learning_rate": 0.0002170864752940173,
      "loss": 3.7472,
      "step": 170450
    },
    {
      "epoch": 0.355125,
      "grad_norm": 0.7382306456565857,
      "learning_rate": 0.00021707765753583368,
      "loss": 3.8421,
      "step": 170460
    },
    {
      "epoch": 0.3551458333333333,
      "grad_norm": 0.8994043469429016,
      "learning_rate": 0.0002170688394879011,
      "loss": 3.7913,
      "step": 170470
    },
    {
      "epoch": 0.3551666666666667,
      "grad_norm": 0.8370248079299927,
      "learning_rate": 0.00021706002115025775,
      "loss": 3.783,
      "step": 170480
    },
    {
      "epoch": 0.3551875,
      "grad_norm": 0.8027362823486328,
      "learning_rate": 0.00021705120252294162,
      "loss": 3.9008,
      "step": 170490
    },
    {
      "epoch": 0.35520833333333335,
      "grad_norm": 0.796913206577301,
      "learning_rate": 0.0002170423836059908,
      "loss": 3.6297,
      "step": 170500
    },
    {
      "epoch": 0.35522916666666665,
      "grad_norm": 0.8544180989265442,
      "learning_rate": 0.00021703356439944346,
      "loss": 3.956,
      "step": 170510
    },
    {
      "epoch": 0.35525,
      "grad_norm": 0.9014685750007629,
      "learning_rate": 0.00021702474490333762,
      "loss": 3.9153,
      "step": 170520
    },
    {
      "epoch": 0.3552708333333333,
      "grad_norm": 0.7765244841575623,
      "learning_rate": 0.00021701592511771148,
      "loss": 3.8934,
      "step": 170530
    },
    {
      "epoch": 0.3552916666666667,
      "grad_norm": 0.7719725966453552,
      "learning_rate": 0.00021700710504260302,
      "loss": 3.8012,
      "step": 170540
    },
    {
      "epoch": 0.3553125,
      "grad_norm": 0.7712368965148926,
      "learning_rate": 0.00021699828467805038,
      "loss": 3.9235,
      "step": 170550
    },
    {
      "epoch": 0.35533333333333333,
      "grad_norm": 0.734866201877594,
      "learning_rate": 0.0002169894640240917,
      "loss": 3.7141,
      "step": 170560
    },
    {
      "epoch": 0.3553541666666667,
      "grad_norm": 1.0474754571914673,
      "learning_rate": 0.00021698064308076504,
      "loss": 3.7279,
      "step": 170570
    },
    {
      "epoch": 0.355375,
      "grad_norm": 0.783966600894928,
      "learning_rate": 0.0002169718218481085,
      "loss": 3.9752,
      "step": 170580
    },
    {
      "epoch": 0.35539583333333336,
      "grad_norm": 0.777582049369812,
      "learning_rate": 0.00021696300032616024,
      "loss": 3.8207,
      "step": 170590
    },
    {
      "epoch": 0.35541666666666666,
      "grad_norm": 0.6418943405151367,
      "learning_rate": 0.00021695417851495832,
      "loss": 3.9069,
      "step": 170600
    },
    {
      "epoch": 0.3554375,
      "grad_norm": 0.7556145787239075,
      "learning_rate": 0.00021694535641454083,
      "loss": 3.6623,
      "step": 170610
    },
    {
      "epoch": 0.3554583333333333,
      "grad_norm": 0.8166166543960571,
      "learning_rate": 0.0002169365340249459,
      "loss": 3.8488,
      "step": 170620
    },
    {
      "epoch": 0.3554791666666667,
      "grad_norm": 0.6677391529083252,
      "learning_rate": 0.00021692771134621165,
      "loss": 3.9632,
      "step": 170630
    },
    {
      "epoch": 0.3555,
      "grad_norm": 0.7161117196083069,
      "learning_rate": 0.00021691888837837612,
      "loss": 3.7165,
      "step": 170640
    },
    {
      "epoch": 0.35552083333333334,
      "grad_norm": 0.8611802458763123,
      "learning_rate": 0.00021691006512147756,
      "loss": 3.9847,
      "step": 170650
    },
    {
      "epoch": 0.35554166666666664,
      "grad_norm": 0.9797833561897278,
      "learning_rate": 0.00021690124157555397,
      "loss": 4.0015,
      "step": 170660
    },
    {
      "epoch": 0.3555625,
      "grad_norm": 0.7651471495628357,
      "learning_rate": 0.0002168924177406435,
      "loss": 3.8505,
      "step": 170670
    },
    {
      "epoch": 0.3555833333333333,
      "grad_norm": 0.7694520354270935,
      "learning_rate": 0.00021688359361678424,
      "loss": 3.9153,
      "step": 170680
    },
    {
      "epoch": 0.35560416666666667,
      "grad_norm": 0.929772675037384,
      "learning_rate": 0.00021687476920401438,
      "loss": 3.9508,
      "step": 170690
    },
    {
      "epoch": 0.355625,
      "grad_norm": 0.7989639043807983,
      "learning_rate": 0.00021686594450237196,
      "loss": 3.8546,
      "step": 170700
    },
    {
      "epoch": 0.3556458333333333,
      "grad_norm": 0.8614038228988647,
      "learning_rate": 0.0002168571195118951,
      "loss": 3.8048,
      "step": 170710
    },
    {
      "epoch": 0.3556666666666667,
      "grad_norm": 0.7689480781555176,
      "learning_rate": 0.000216848294232622,
      "loss": 3.8854,
      "step": 170720
    },
    {
      "epoch": 0.3556875,
      "grad_norm": 0.6642798781394958,
      "learning_rate": 0.00021683946866459075,
      "loss": 3.7499,
      "step": 170730
    },
    {
      "epoch": 0.35570833333333335,
      "grad_norm": 0.7759451866149902,
      "learning_rate": 0.00021683064280783934,
      "loss": 3.7883,
      "step": 170740
    },
    {
      "epoch": 0.35572916666666665,
      "grad_norm": 0.7321460843086243,
      "learning_rate": 0.0002168218166624061,
      "loss": 3.8947,
      "step": 170750
    },
    {
      "epoch": 0.35575,
      "grad_norm": 0.9117176532745361,
      "learning_rate": 0.00021681299022832903,
      "loss": 3.784,
      "step": 170760
    },
    {
      "epoch": 0.3557708333333333,
      "grad_norm": 0.7772862911224365,
      "learning_rate": 0.00021680416350564627,
      "loss": 3.7982,
      "step": 170770
    },
    {
      "epoch": 0.3557916666666667,
      "grad_norm": 0.7059112191200256,
      "learning_rate": 0.000216795336494396,
      "loss": 3.9069,
      "step": 170780
    },
    {
      "epoch": 0.3558125,
      "grad_norm": 0.9035604596138,
      "learning_rate": 0.00021678650919461633,
      "loss": 3.6462,
      "step": 170790
    },
    {
      "epoch": 0.35583333333333333,
      "grad_norm": 0.7229377031326294,
      "learning_rate": 0.00021677768160634537,
      "loss": 3.8107,
      "step": 170800
    },
    {
      "epoch": 0.3558541666666667,
      "grad_norm": 0.8743301630020142,
      "learning_rate": 0.0002167688537296212,
      "loss": 3.8114,
      "step": 170810
    },
    {
      "epoch": 0.355875,
      "grad_norm": 0.8480757474899292,
      "learning_rate": 0.00021676002556448204,
      "loss": 3.8031,
      "step": 170820
    },
    {
      "epoch": 0.35589583333333336,
      "grad_norm": 0.808906614780426,
      "learning_rate": 0.00021675119711096606,
      "loss": 3.8477,
      "step": 170830
    },
    {
      "epoch": 0.35591666666666666,
      "grad_norm": 0.7724742889404297,
      "learning_rate": 0.00021674236836911122,
      "loss": 4.0262,
      "step": 170840
    },
    {
      "epoch": 0.3559375,
      "grad_norm": 0.7477691173553467,
      "learning_rate": 0.00021673353933895583,
      "loss": 3.8368,
      "step": 170850
    },
    {
      "epoch": 0.3559583333333333,
      "grad_norm": 0.8029183745384216,
      "learning_rate": 0.00021672471002053798,
      "loss": 3.943,
      "step": 170860
    },
    {
      "epoch": 0.3559791666666667,
      "grad_norm": 0.8262468576431274,
      "learning_rate": 0.0002167158804138958,
      "loss": 3.7172,
      "step": 170870
    },
    {
      "epoch": 0.356,
      "grad_norm": 0.7614443302154541,
      "learning_rate": 0.00021670705051906737,
      "loss": 3.7852,
      "step": 170880
    },
    {
      "epoch": 0.35602083333333334,
      "grad_norm": 0.867024838924408,
      "learning_rate": 0.00021669822033609093,
      "loss": 3.8373,
      "step": 170890
    },
    {
      "epoch": 0.35604166666666665,
      "grad_norm": 0.6917765140533447,
      "learning_rate": 0.00021668938986500454,
      "loss": 3.751,
      "step": 170900
    },
    {
      "epoch": 0.3560625,
      "grad_norm": 1.0738850831985474,
      "learning_rate": 0.00021668055910584638,
      "loss": 3.7837,
      "step": 170910
    },
    {
      "epoch": 0.3560833333333333,
      "grad_norm": 0.7275873422622681,
      "learning_rate": 0.00021667172805865464,
      "loss": 3.9893,
      "step": 170920
    },
    {
      "epoch": 0.35610416666666667,
      "grad_norm": 0.8390825390815735,
      "learning_rate": 0.00021666289672346743,
      "loss": 3.7955,
      "step": 170930
    },
    {
      "epoch": 0.356125,
      "grad_norm": 0.7613808512687683,
      "learning_rate": 0.00021665406510032285,
      "loss": 3.7937,
      "step": 170940
    },
    {
      "epoch": 0.35614583333333333,
      "grad_norm": 0.8091893792152405,
      "learning_rate": 0.0002166452331892591,
      "loss": 3.8108,
      "step": 170950
    },
    {
      "epoch": 0.3561666666666667,
      "grad_norm": 0.7702656984329224,
      "learning_rate": 0.00021663640099031436,
      "loss": 3.806,
      "step": 170960
    },
    {
      "epoch": 0.3561875,
      "grad_norm": 0.7999383211135864,
      "learning_rate": 0.0002166275685035267,
      "loss": 4.0361,
      "step": 170970
    },
    {
      "epoch": 0.35620833333333335,
      "grad_norm": 0.775665819644928,
      "learning_rate": 0.00021661873572893434,
      "loss": 3.6866,
      "step": 170980
    },
    {
      "epoch": 0.35622916666666665,
      "grad_norm": 0.6766105890274048,
      "learning_rate": 0.00021660990266657545,
      "loss": 4.0602,
      "step": 170990
    },
    {
      "epoch": 0.35625,
      "grad_norm": 0.7407442927360535,
      "learning_rate": 0.0002166010693164881,
      "loss": 3.9217,
      "step": 171000
    },
    {
      "epoch": 0.35625,
      "eval_loss": 4.18755578994751,
      "eval_runtime": 9.5732,
      "eval_samples_per_second": 1.045,
      "eval_steps_per_second": 0.313,
      "step": 171000
    },
    {
      "epoch": 0.3562708333333333,
      "grad_norm": 0.8304513692855835,
      "learning_rate": 0.00021659223567871048,
      "loss": 3.8491,
      "step": 171010
    },
    {
      "epoch": 0.3562916666666667,
      "grad_norm": 1.2318509817123413,
      "learning_rate": 0.0002165834017532808,
      "loss": 3.9812,
      "step": 171020
    },
    {
      "epoch": 0.3563125,
      "grad_norm": 0.8923653960227966,
      "learning_rate": 0.00021657456754023714,
      "loss": 3.9311,
      "step": 171030
    },
    {
      "epoch": 0.35633333333333334,
      "grad_norm": 0.7015069127082825,
      "learning_rate": 0.00021656573303961775,
      "loss": 3.7381,
      "step": 171040
    },
    {
      "epoch": 0.3563541666666667,
      "grad_norm": 0.9467960596084595,
      "learning_rate": 0.0002165568982514607,
      "loss": 3.8319,
      "step": 171050
    },
    {
      "epoch": 0.356375,
      "grad_norm": 0.7249768376350403,
      "learning_rate": 0.00021654806317580422,
      "loss": 3.7259,
      "step": 171060
    },
    {
      "epoch": 0.35639583333333336,
      "grad_norm": 0.8324422240257263,
      "learning_rate": 0.00021653922781268643,
      "loss": 3.7674,
      "step": 171070
    },
    {
      "epoch": 0.35641666666666666,
      "grad_norm": 0.8388000130653381,
      "learning_rate": 0.0002165303921621455,
      "loss": 3.9711,
      "step": 171080
    },
    {
      "epoch": 0.3564375,
      "grad_norm": 0.7928637862205505,
      "learning_rate": 0.00021652155622421963,
      "loss": 3.8818,
      "step": 171090
    },
    {
      "epoch": 0.3564583333333333,
      "grad_norm": 0.8074384331703186,
      "learning_rate": 0.000216512719998947,
      "loss": 4.0532,
      "step": 171100
    },
    {
      "epoch": 0.3564791666666667,
      "grad_norm": 0.7916064858436584,
      "learning_rate": 0.00021650388348636566,
      "loss": 3.9831,
      "step": 171110
    },
    {
      "epoch": 0.3565,
      "grad_norm": 0.8695293068885803,
      "learning_rate": 0.00021649504668651393,
      "loss": 3.9036,
      "step": 171120
    },
    {
      "epoch": 0.35652083333333334,
      "grad_norm": 0.8282192349433899,
      "learning_rate": 0.00021648620959942996,
      "loss": 3.8883,
      "step": 171130
    },
    {
      "epoch": 0.35654166666666665,
      "grad_norm": 0.9058412313461304,
      "learning_rate": 0.0002164773722251518,
      "loss": 3.7786,
      "step": 171140
    },
    {
      "epoch": 0.3565625,
      "grad_norm": 0.7086280584335327,
      "learning_rate": 0.00021646853456371774,
      "loss": 3.7086,
      "step": 171150
    },
    {
      "epoch": 0.3565833333333333,
      "grad_norm": 0.8588946461677551,
      "learning_rate": 0.00021645969661516592,
      "loss": 3.8616,
      "step": 171160
    },
    {
      "epoch": 0.35660416666666667,
      "grad_norm": 0.847454309463501,
      "learning_rate": 0.00021645085837953456,
      "loss": 3.8102,
      "step": 171170
    },
    {
      "epoch": 0.356625,
      "grad_norm": 0.8167685270309448,
      "learning_rate": 0.00021644201985686172,
      "loss": 3.734,
      "step": 171180
    },
    {
      "epoch": 0.35664583333333333,
      "grad_norm": 0.7123497724533081,
      "learning_rate": 0.00021643318104718569,
      "loss": 3.7341,
      "step": 171190
    },
    {
      "epoch": 0.3566666666666667,
      "grad_norm": 0.795920729637146,
      "learning_rate": 0.00021642434195054462,
      "loss": 3.8658,
      "step": 171200
    },
    {
      "epoch": 0.3566875,
      "grad_norm": 0.878296434879303,
      "learning_rate": 0.00021641550256697666,
      "loss": 3.8275,
      "step": 171210
    },
    {
      "epoch": 0.35670833333333335,
      "grad_norm": 0.8962071537971497,
      "learning_rate": 0.00021640666289652005,
      "loss": 3.8977,
      "step": 171220
    },
    {
      "epoch": 0.35672916666666665,
      "grad_norm": 0.8558365702629089,
      "learning_rate": 0.0002163978229392129,
      "loss": 3.8115,
      "step": 171230
    },
    {
      "epoch": 0.35675,
      "grad_norm": 1.1789648532867432,
      "learning_rate": 0.0002163889826950935,
      "loss": 3.9637,
      "step": 171240
    },
    {
      "epoch": 0.3567708333333333,
      "grad_norm": 0.7988648414611816,
      "learning_rate": 0.0002163801421641999,
      "loss": 3.9124,
      "step": 171250
    },
    {
      "epoch": 0.3567916666666667,
      "grad_norm": 0.7232549786567688,
      "learning_rate": 0.0002163713013465704,
      "loss": 3.7947,
      "step": 171260
    },
    {
      "epoch": 0.3568125,
      "grad_norm": 0.8436225652694702,
      "learning_rate": 0.00021636246024224316,
      "loss": 3.9348,
      "step": 171270
    },
    {
      "epoch": 0.35683333333333334,
      "grad_norm": 0.7213591933250427,
      "learning_rate": 0.00021635361885125634,
      "loss": 3.7684,
      "step": 171280
    },
    {
      "epoch": 0.35685416666666664,
      "grad_norm": 0.8987612128257751,
      "learning_rate": 0.00021634477717364812,
      "loss": 3.8188,
      "step": 171290
    },
    {
      "epoch": 0.356875,
      "grad_norm": 0.8905730247497559,
      "learning_rate": 0.0002163359352094568,
      "loss": 3.7354,
      "step": 171300
    },
    {
      "epoch": 0.35689583333333336,
      "grad_norm": 0.783611536026001,
      "learning_rate": 0.00021632709295872044,
      "loss": 3.6527,
      "step": 171310
    },
    {
      "epoch": 0.35691666666666666,
      "grad_norm": 0.9746171832084656,
      "learning_rate": 0.00021631825042147735,
      "loss": 3.9896,
      "step": 171320
    },
    {
      "epoch": 0.3569375,
      "grad_norm": 0.7909724712371826,
      "learning_rate": 0.0002163094075977656,
      "loss": 3.7635,
      "step": 171330
    },
    {
      "epoch": 0.3569583333333333,
      "grad_norm": 0.736318826675415,
      "learning_rate": 0.00021630056448762347,
      "loss": 3.8551,
      "step": 171340
    },
    {
      "epoch": 0.3569791666666667,
      "grad_norm": 1.112504482269287,
      "learning_rate": 0.00021629172109108918,
      "loss": 4.107,
      "step": 171350
    },
    {
      "epoch": 0.357,
      "grad_norm": 0.7568802833557129,
      "learning_rate": 0.00021628287740820088,
      "loss": 3.9474,
      "step": 171360
    },
    {
      "epoch": 0.35702083333333334,
      "grad_norm": 1.0727335214614868,
      "learning_rate": 0.00021627403343899682,
      "loss": 3.7223,
      "step": 171370
    },
    {
      "epoch": 0.35704166666666665,
      "grad_norm": 0.7222302556037903,
      "learning_rate": 0.0002162651891835151,
      "loss": 3.8084,
      "step": 171380
    },
    {
      "epoch": 0.3570625,
      "grad_norm": 0.7180094718933105,
      "learning_rate": 0.000216256344641794,
      "loss": 3.9555,
      "step": 171390
    },
    {
      "epoch": 0.3570833333333333,
      "grad_norm": 0.6568045616149902,
      "learning_rate": 0.00021624749981387175,
      "loss": 3.8292,
      "step": 171400
    },
    {
      "epoch": 0.35710416666666667,
      "grad_norm": 0.8413197994232178,
      "learning_rate": 0.00021623865469978652,
      "loss": 3.7279,
      "step": 171410
    },
    {
      "epoch": 0.357125,
      "grad_norm": 0.7544125914573669,
      "learning_rate": 0.00021622980929957654,
      "loss": 3.8054,
      "step": 171420
    },
    {
      "epoch": 0.35714583333333333,
      "grad_norm": 0.9302235245704651,
      "learning_rate": 0.00021622096361327995,
      "loss": 4.0605,
      "step": 171430
    },
    {
      "epoch": 0.3571666666666667,
      "grad_norm": 1.3506582975387573,
      "learning_rate": 0.00021621211764093502,
      "loss": 3.8677,
      "step": 171440
    },
    {
      "epoch": 0.3571875,
      "grad_norm": 0.6610692739486694,
      "learning_rate": 0.00021620327138257997,
      "loss": 3.6566,
      "step": 171450
    },
    {
      "epoch": 0.35720833333333335,
      "grad_norm": 0.7187556028366089,
      "learning_rate": 0.000216194424838253,
      "loss": 3.7599,
      "step": 171460
    },
    {
      "epoch": 0.35722916666666665,
      "grad_norm": 0.8223905563354492,
      "learning_rate": 0.00021618557800799228,
      "loss": 3.7855,
      "step": 171470
    },
    {
      "epoch": 0.35725,
      "grad_norm": 0.8488779664039612,
      "learning_rate": 0.0002161767308918361,
      "loss": 3.8227,
      "step": 171480
    },
    {
      "epoch": 0.3572708333333333,
      "grad_norm": 0.7980243563652039,
      "learning_rate": 0.00021616788348982263,
      "loss": 3.8226,
      "step": 171490
    },
    {
      "epoch": 0.3572916666666667,
      "grad_norm": 0.757426917552948,
      "learning_rate": 0.0002161590358019901,
      "loss": 3.6433,
      "step": 171500
    },
    {
      "epoch": 0.3573125,
      "grad_norm": 0.8082382678985596,
      "learning_rate": 0.00021615018782837668,
      "loss": 3.9417,
      "step": 171510
    },
    {
      "epoch": 0.35733333333333334,
      "grad_norm": 0.7918637990951538,
      "learning_rate": 0.00021614133956902068,
      "loss": 3.6814,
      "step": 171520
    },
    {
      "epoch": 0.35735416666666664,
      "grad_norm": 0.7734049558639526,
      "learning_rate": 0.00021613249102396027,
      "loss": 3.9655,
      "step": 171530
    },
    {
      "epoch": 0.357375,
      "grad_norm": 0.8908967971801758,
      "learning_rate": 0.0002161236421932336,
      "loss": 3.6478,
      "step": 171540
    },
    {
      "epoch": 0.35739583333333336,
      "grad_norm": 0.8012228012084961,
      "learning_rate": 0.00021611479307687907,
      "loss": 3.8885,
      "step": 171550
    },
    {
      "epoch": 0.35741666666666666,
      "grad_norm": 0.8213210701942444,
      "learning_rate": 0.00021610594367493476,
      "loss": 3.6893,
      "step": 171560
    },
    {
      "epoch": 0.3574375,
      "grad_norm": 0.7922405004501343,
      "learning_rate": 0.00021609709398743895,
      "loss": 3.8224,
      "step": 171570
    },
    {
      "epoch": 0.3574583333333333,
      "grad_norm": 0.7487998604774475,
      "learning_rate": 0.00021608824401442983,
      "loss": 3.7862,
      "step": 171580
    },
    {
      "epoch": 0.3574791666666667,
      "grad_norm": 0.7487429976463318,
      "learning_rate": 0.00021607939375594567,
      "loss": 3.7901,
      "step": 171590
    },
    {
      "epoch": 0.3575,
      "grad_norm": 0.9003725051879883,
      "learning_rate": 0.0002160705432120247,
      "loss": 3.9568,
      "step": 171600
    },
    {
      "epoch": 0.35752083333333334,
      "grad_norm": 0.8158960938453674,
      "learning_rate": 0.00021606169238270516,
      "loss": 3.78,
      "step": 171610
    },
    {
      "epoch": 0.35754166666666665,
      "grad_norm": 0.7608544826507568,
      "learning_rate": 0.00021605284126802518,
      "loss": 3.8687,
      "step": 171620
    },
    {
      "epoch": 0.3575625,
      "grad_norm": 0.7247287034988403,
      "learning_rate": 0.00021604398986802313,
      "loss": 3.8577,
      "step": 171630
    },
    {
      "epoch": 0.3575833333333333,
      "grad_norm": 0.7930618524551392,
      "learning_rate": 0.00021603513818273714,
      "loss": 3.7889,
      "step": 171640
    },
    {
      "epoch": 0.35760416666666667,
      "grad_norm": 0.7824210524559021,
      "learning_rate": 0.00021602628621220554,
      "loss": 3.7141,
      "step": 171650
    },
    {
      "epoch": 0.357625,
      "grad_norm": 0.8271633982658386,
      "learning_rate": 0.0002160174339564665,
      "loss": 3.8211,
      "step": 171660
    },
    {
      "epoch": 0.35764583333333333,
      "grad_norm": 0.7354556918144226,
      "learning_rate": 0.0002160085814155583,
      "loss": 3.7639,
      "step": 171670
    },
    {
      "epoch": 0.3576666666666667,
      "grad_norm": 0.8248004913330078,
      "learning_rate": 0.00021599972858951912,
      "loss": 3.9335,
      "step": 171680
    },
    {
      "epoch": 0.3576875,
      "grad_norm": 0.9584904909133911,
      "learning_rate": 0.00021599087547838727,
      "loss": 3.9293,
      "step": 171690
    },
    {
      "epoch": 0.35770833333333335,
      "grad_norm": 0.7717171907424927,
      "learning_rate": 0.00021598202208220093,
      "loss": 3.9781,
      "step": 171700
    },
    {
      "epoch": 0.35772916666666665,
      "grad_norm": 0.9035296440124512,
      "learning_rate": 0.00021597316840099833,
      "loss": 4.0054,
      "step": 171710
    },
    {
      "epoch": 0.35775,
      "grad_norm": 0.7236071825027466,
      "learning_rate": 0.00021596431443481786,
      "loss": 3.6889,
      "step": 171720
    },
    {
      "epoch": 0.3577708333333333,
      "grad_norm": 0.8212850689888,
      "learning_rate": 0.00021595546018369761,
      "loss": 3.857,
      "step": 171730
    },
    {
      "epoch": 0.3577916666666667,
      "grad_norm": 0.6819809079170227,
      "learning_rate": 0.0002159466056476759,
      "loss": 3.8071,
      "step": 171740
    },
    {
      "epoch": 0.3578125,
      "grad_norm": 0.7835896611213684,
      "learning_rate": 0.00021593775082679093,
      "loss": 3.8534,
      "step": 171750
    },
    {
      "epoch": 0.35783333333333334,
      "grad_norm": 0.7591816782951355,
      "learning_rate": 0.00021592889572108096,
      "loss": 3.919,
      "step": 171760
    },
    {
      "epoch": 0.35785416666666664,
      "grad_norm": 0.7814102172851562,
      "learning_rate": 0.00021592004033058428,
      "loss": 3.7948,
      "step": 171770
    },
    {
      "epoch": 0.357875,
      "grad_norm": 0.7852138876914978,
      "learning_rate": 0.00021591118465533914,
      "loss": 3.8709,
      "step": 171780
    },
    {
      "epoch": 0.35789583333333336,
      "grad_norm": 0.8437865376472473,
      "learning_rate": 0.00021590232869538373,
      "loss": 3.8933,
      "step": 171790
    },
    {
      "epoch": 0.35791666666666666,
      "grad_norm": 0.8362000584602356,
      "learning_rate": 0.0002158934724507564,
      "loss": 3.8515,
      "step": 171800
    },
    {
      "epoch": 0.3579375,
      "grad_norm": 0.9784328937530518,
      "learning_rate": 0.0002158846159214953,
      "loss": 3.7765,
      "step": 171810
    },
    {
      "epoch": 0.3579583333333333,
      "grad_norm": 0.9096226692199707,
      "learning_rate": 0.00021587575910763876,
      "loss": 3.7328,
      "step": 171820
    },
    {
      "epoch": 0.3579791666666667,
      "grad_norm": 0.9783459305763245,
      "learning_rate": 0.00021586690200922504,
      "loss": 3.7534,
      "step": 171830
    },
    {
      "epoch": 0.358,
      "grad_norm": 0.748715877532959,
      "learning_rate": 0.0002158580446262923,
      "loss": 3.828,
      "step": 171840
    },
    {
      "epoch": 0.35802083333333334,
      "grad_norm": 0.7314077615737915,
      "learning_rate": 0.00021584918695887893,
      "loss": 3.9027,
      "step": 171850
    },
    {
      "epoch": 0.35804166666666665,
      "grad_norm": 1.5628870725631714,
      "learning_rate": 0.00021584032900702314,
      "loss": 3.8478,
      "step": 171860
    },
    {
      "epoch": 0.3580625,
      "grad_norm": 0.6328599452972412,
      "learning_rate": 0.0002158314707707632,
      "loss": 3.6522,
      "step": 171870
    },
    {
      "epoch": 0.3580833333333333,
      "grad_norm": 0.6267707347869873,
      "learning_rate": 0.00021582261225013732,
      "loss": 3.9443,
      "step": 171880
    },
    {
      "epoch": 0.35810416666666667,
      "grad_norm": 0.7064700126647949,
      "learning_rate": 0.00021581375344518385,
      "loss": 3.7361,
      "step": 171890
    },
    {
      "epoch": 0.358125,
      "grad_norm": 0.8515565991401672,
      "learning_rate": 0.000215804894355941,
      "loss": 3.8802,
      "step": 171900
    },
    {
      "epoch": 0.35814583333333333,
      "grad_norm": 0.9321005344390869,
      "learning_rate": 0.00021579603498244704,
      "loss": 3.6993,
      "step": 171910
    },
    {
      "epoch": 0.3581666666666667,
      "grad_norm": 0.8554807901382446,
      "learning_rate": 0.00021578717532474027,
      "loss": 3.6866,
      "step": 171920
    },
    {
      "epoch": 0.3581875,
      "grad_norm": 0.7819696664810181,
      "learning_rate": 0.00021577831538285895,
      "loss": 3.8831,
      "step": 171930
    },
    {
      "epoch": 0.35820833333333335,
      "grad_norm": 0.7605883479118347,
      "learning_rate": 0.00021576945515684135,
      "loss": 3.7289,
      "step": 171940
    },
    {
      "epoch": 0.35822916666666665,
      "grad_norm": 0.7260411977767944,
      "learning_rate": 0.0002157605946467257,
      "loss": 3.8781,
      "step": 171950
    },
    {
      "epoch": 0.35825,
      "grad_norm": 0.8590160608291626,
      "learning_rate": 0.00021575173385255034,
      "loss": 3.8624,
      "step": 171960
    },
    {
      "epoch": 0.3582708333333333,
      "grad_norm": 0.7000700235366821,
      "learning_rate": 0.00021574287277435352,
      "loss": 3.9454,
      "step": 171970
    },
    {
      "epoch": 0.3582916666666667,
      "grad_norm": 1.0628392696380615,
      "learning_rate": 0.0002157340114121735,
      "loss": 3.637,
      "step": 171980
    },
    {
      "epoch": 0.3583125,
      "grad_norm": 0.8345934748649597,
      "learning_rate": 0.00021572514976604852,
      "loss": 3.7158,
      "step": 171990
    },
    {
      "epoch": 0.35833333333333334,
      "grad_norm": 0.9021788835525513,
      "learning_rate": 0.000215716287836017,
      "loss": 3.8834,
      "step": 172000
    },
    {
      "epoch": 0.35833333333333334,
      "eval_loss": 4.182962417602539,
      "eval_runtime": 8.8052,
      "eval_samples_per_second": 1.136,
      "eval_steps_per_second": 0.341,
      "step": 172000
    },
    {
      "epoch": 0.35835416666666664,
      "grad_norm": 0.7099658250808716,
      "learning_rate": 0.00021570742562211707,
      "loss": 4.0222,
      "step": 172010
    },
    {
      "epoch": 0.358375,
      "grad_norm": 0.738755464553833,
      "learning_rate": 0.0002156985631243871,
      "loss": 3.8181,
      "step": 172020
    },
    {
      "epoch": 0.35839583333333336,
      "grad_norm": 0.893866240978241,
      "learning_rate": 0.00021568970034286538,
      "loss": 3.7465,
      "step": 172030
    },
    {
      "epoch": 0.35841666666666666,
      "grad_norm": 0.757277250289917,
      "learning_rate": 0.00021568083727759006,
      "loss": 3.9952,
      "step": 172040
    },
    {
      "epoch": 0.3584375,
      "grad_norm": 0.8176021575927734,
      "learning_rate": 0.00021567197392859954,
      "loss": 3.7388,
      "step": 172050
    },
    {
      "epoch": 0.3584583333333333,
      "grad_norm": 0.8149394392967224,
      "learning_rate": 0.00021566311029593216,
      "loss": 4.0024,
      "step": 172060
    },
    {
      "epoch": 0.3584791666666667,
      "grad_norm": 0.8256047368049622,
      "learning_rate": 0.0002156542463796261,
      "loss": 3.818,
      "step": 172070
    },
    {
      "epoch": 0.3585,
      "grad_norm": 0.7602208852767944,
      "learning_rate": 0.00021564538217971966,
      "loss": 3.7717,
      "step": 172080
    },
    {
      "epoch": 0.35852083333333334,
      "grad_norm": 0.9354182481765747,
      "learning_rate": 0.0002156365176962512,
      "loss": 3.8318,
      "step": 172090
    },
    {
      "epoch": 0.35854166666666665,
      "grad_norm": 0.9073694944381714,
      "learning_rate": 0.00021562765292925892,
      "loss": 3.8782,
      "step": 172100
    },
    {
      "epoch": 0.3585625,
      "grad_norm": 0.7649795413017273,
      "learning_rate": 0.00021561878787878115,
      "loss": 3.7841,
      "step": 172110
    },
    {
      "epoch": 0.3585833333333333,
      "grad_norm": 0.7404212951660156,
      "learning_rate": 0.00021560992254485622,
      "loss": 3.7692,
      "step": 172120
    },
    {
      "epoch": 0.35860416666666667,
      "grad_norm": 0.6642829775810242,
      "learning_rate": 0.0002156010569275224,
      "loss": 4.0442,
      "step": 172130
    },
    {
      "epoch": 0.358625,
      "grad_norm": 0.7589015960693359,
      "learning_rate": 0.00021559219102681792,
      "loss": 3.796,
      "step": 172140
    },
    {
      "epoch": 0.35864583333333333,
      "grad_norm": 0.7267858386039734,
      "learning_rate": 0.00021558332484278119,
      "loss": 3.7892,
      "step": 172150
    },
    {
      "epoch": 0.3586666666666667,
      "grad_norm": 0.7246034741401672,
      "learning_rate": 0.00021557445837545045,
      "loss": 3.8149,
      "step": 172160
    },
    {
      "epoch": 0.3586875,
      "grad_norm": 0.7475232481956482,
      "learning_rate": 0.000215565591624864,
      "loss": 3.7694,
      "step": 172170
    },
    {
      "epoch": 0.35870833333333335,
      "grad_norm": 0.7970476746559143,
      "learning_rate": 0.00021555672459106016,
      "loss": 4.1167,
      "step": 172180
    },
    {
      "epoch": 0.35872916666666665,
      "grad_norm": 0.9500547051429749,
      "learning_rate": 0.0002155478572740772,
      "loss": 3.9014,
      "step": 172190
    },
    {
      "epoch": 0.35875,
      "grad_norm": 0.8960497379302979,
      "learning_rate": 0.00021553898967395347,
      "loss": 3.878,
      "step": 172200
    },
    {
      "epoch": 0.3587708333333333,
      "grad_norm": 0.688600480556488,
      "learning_rate": 0.0002155301217907272,
      "loss": 3.8904,
      "step": 172210
    },
    {
      "epoch": 0.3587916666666667,
      "grad_norm": 0.731257438659668,
      "learning_rate": 0.0002155212536244368,
      "loss": 3.7867,
      "step": 172220
    },
    {
      "epoch": 0.3588125,
      "grad_norm": 0.7948300242424011,
      "learning_rate": 0.0002155123851751205,
      "loss": 3.9021,
      "step": 172230
    },
    {
      "epoch": 0.35883333333333334,
      "grad_norm": 0.8723411560058594,
      "learning_rate": 0.00021550351644281663,
      "loss": 3.8859,
      "step": 172240
    },
    {
      "epoch": 0.35885416666666664,
      "grad_norm": 0.7615489959716797,
      "learning_rate": 0.00021549464742756349,
      "loss": 3.7869,
      "step": 172250
    },
    {
      "epoch": 0.358875,
      "grad_norm": 0.8925516605377197,
      "learning_rate": 0.0002154857781293994,
      "loss": 3.9309,
      "step": 172260
    },
    {
      "epoch": 0.35889583333333336,
      "grad_norm": 0.7192209362983704,
      "learning_rate": 0.00021547690854836264,
      "loss": 3.6966,
      "step": 172270
    },
    {
      "epoch": 0.35891666666666666,
      "grad_norm": 0.763090193271637,
      "learning_rate": 0.00021546803868449155,
      "loss": 3.8141,
      "step": 172280
    },
    {
      "epoch": 0.3589375,
      "grad_norm": 0.6952021718025208,
      "learning_rate": 0.0002154591685378245,
      "loss": 3.8793,
      "step": 172290
    },
    {
      "epoch": 0.3589583333333333,
      "grad_norm": 0.8012551069259644,
      "learning_rate": 0.00021545029810839973,
      "loss": 3.8629,
      "step": 172300
    },
    {
      "epoch": 0.3589791666666667,
      "grad_norm": 0.7500174045562744,
      "learning_rate": 0.00021544142739625557,
      "loss": 3.9362,
      "step": 172310
    },
    {
      "epoch": 0.359,
      "grad_norm": 0.8105443120002747,
      "learning_rate": 0.00021543255640143035,
      "loss": 3.9294,
      "step": 172320
    },
    {
      "epoch": 0.35902083333333334,
      "grad_norm": 0.6618889570236206,
      "learning_rate": 0.00021542368512396238,
      "loss": 3.8547,
      "step": 172330
    },
    {
      "epoch": 0.35904166666666665,
      "grad_norm": 0.9740716814994812,
      "learning_rate": 0.00021541481356388998,
      "loss": 3.8993,
      "step": 172340
    },
    {
      "epoch": 0.3590625,
      "grad_norm": 0.8076968193054199,
      "learning_rate": 0.00021540594172125152,
      "loss": 3.6612,
      "step": 172350
    },
    {
      "epoch": 0.3590833333333333,
      "grad_norm": 0.7674676775932312,
      "learning_rate": 0.00021539706959608528,
      "loss": 3.8935,
      "step": 172360
    },
    {
      "epoch": 0.35910416666666667,
      "grad_norm": 0.7519121170043945,
      "learning_rate": 0.00021538819718842954,
      "loss": 3.8209,
      "step": 172370
    },
    {
      "epoch": 0.359125,
      "grad_norm": 0.696465253829956,
      "learning_rate": 0.00021537932449832263,
      "loss": 3.8589,
      "step": 172380
    },
    {
      "epoch": 0.35914583333333333,
      "grad_norm": 1.0555740594863892,
      "learning_rate": 0.00021537045152580307,
      "loss": 3.9282,
      "step": 172390
    },
    {
      "epoch": 0.3591666666666667,
      "grad_norm": 0.8408905863761902,
      "learning_rate": 0.0002153615782709089,
      "loss": 3.806,
      "step": 172400
    },
    {
      "epoch": 0.3591875,
      "grad_norm": 0.7814883589744568,
      "learning_rate": 0.0002153527047336786,
      "loss": 3.8521,
      "step": 172410
    },
    {
      "epoch": 0.35920833333333335,
      "grad_norm": 0.7098687291145325,
      "learning_rate": 0.00021534383091415056,
      "loss": 3.8864,
      "step": 172420
    },
    {
      "epoch": 0.35922916666666665,
      "grad_norm": 0.8234918117523193,
      "learning_rate": 0.00021533495681236298,
      "loss": 3.9274,
      "step": 172430
    },
    {
      "epoch": 0.35925,
      "grad_norm": 0.7118993401527405,
      "learning_rate": 0.00021532608242835424,
      "loss": 3.8021,
      "step": 172440
    },
    {
      "epoch": 0.3592708333333333,
      "grad_norm": 0.7616719007492065,
      "learning_rate": 0.0002153172077621627,
      "loss": 4.0258,
      "step": 172450
    },
    {
      "epoch": 0.3592916666666667,
      "grad_norm": 0.8001294136047363,
      "learning_rate": 0.00021530833281382667,
      "loss": 3.8098,
      "step": 172460
    },
    {
      "epoch": 0.3593125,
      "grad_norm": 0.903435468673706,
      "learning_rate": 0.0002152994575833845,
      "loss": 3.7374,
      "step": 172470
    },
    {
      "epoch": 0.35933333333333334,
      "grad_norm": 0.8238526582717896,
      "learning_rate": 0.00021529058207087447,
      "loss": 3.7945,
      "step": 172480
    },
    {
      "epoch": 0.35935416666666664,
      "grad_norm": 0.7944992184638977,
      "learning_rate": 0.00021528170627633505,
      "loss": 3.9885,
      "step": 172490
    },
    {
      "epoch": 0.359375,
      "grad_norm": 0.70240718126297,
      "learning_rate": 0.0002152728301998045,
      "loss": 3.8352,
      "step": 172500
    },
    {
      "epoch": 0.35939583333333336,
      "grad_norm": 0.7943750023841858,
      "learning_rate": 0.00021526395384132107,
      "loss": 3.8639,
      "step": 172510
    },
    {
      "epoch": 0.35941666666666666,
      "grad_norm": 0.7722283601760864,
      "learning_rate": 0.00021525507720092328,
      "loss": 3.6984,
      "step": 172520
    },
    {
      "epoch": 0.3594375,
      "grad_norm": 0.8082718253135681,
      "learning_rate": 0.00021524620027864937,
      "loss": 3.8734,
      "step": 172530
    },
    {
      "epoch": 0.3594583333333333,
      "grad_norm": 0.6860023736953735,
      "learning_rate": 0.00021523732307453762,
      "loss": 3.9386,
      "step": 172540
    },
    {
      "epoch": 0.3594791666666667,
      "grad_norm": 0.8571170568466187,
      "learning_rate": 0.00021522844558862655,
      "loss": 3.7851,
      "step": 172550
    },
    {
      "epoch": 0.3595,
      "grad_norm": 0.9240877628326416,
      "learning_rate": 0.0002152195678209544,
      "loss": 3.7789,
      "step": 172560
    },
    {
      "epoch": 0.35952083333333335,
      "grad_norm": 0.7961441278457642,
      "learning_rate": 0.00021521068977155953,
      "loss": 3.9387,
      "step": 172570
    },
    {
      "epoch": 0.35954166666666665,
      "grad_norm": 0.8384986519813538,
      "learning_rate": 0.00021520181144048025,
      "loss": 3.805,
      "step": 172580
    },
    {
      "epoch": 0.3595625,
      "grad_norm": 0.7672069072723389,
      "learning_rate": 0.00021519293282775502,
      "loss": 3.7985,
      "step": 172590
    },
    {
      "epoch": 0.3595833333333333,
      "grad_norm": 0.7252169251441956,
      "learning_rate": 0.0002151840539334221,
      "loss": 3.6659,
      "step": 172600
    },
    {
      "epoch": 0.35960416666666667,
      "grad_norm": 0.8227660655975342,
      "learning_rate": 0.00021517517475751983,
      "loss": 3.948,
      "step": 172610
    },
    {
      "epoch": 0.359625,
      "grad_norm": 0.7771202325820923,
      "learning_rate": 0.0002151662953000866,
      "loss": 4.017,
      "step": 172620
    },
    {
      "epoch": 0.35964583333333333,
      "grad_norm": 0.7645701766014099,
      "learning_rate": 0.00021515741556116084,
      "loss": 3.8548,
      "step": 172630
    },
    {
      "epoch": 0.3596666666666667,
      "grad_norm": 0.8652695417404175,
      "learning_rate": 0.00021514853554078077,
      "loss": 4.0147,
      "step": 172640
    },
    {
      "epoch": 0.3596875,
      "grad_norm": 0.8333269357681274,
      "learning_rate": 0.00021513965523898486,
      "loss": 3.6716,
      "step": 172650
    },
    {
      "epoch": 0.35970833333333335,
      "grad_norm": 0.7241805195808411,
      "learning_rate": 0.0002151307746558114,
      "loss": 3.7938,
      "step": 172660
    },
    {
      "epoch": 0.35972916666666666,
      "grad_norm": 0.8197162747383118,
      "learning_rate": 0.0002151218937912988,
      "loss": 3.9279,
      "step": 172670
    },
    {
      "epoch": 0.35975,
      "grad_norm": 0.7600200176239014,
      "learning_rate": 0.00021511301264548534,
      "loss": 3.792,
      "step": 172680
    },
    {
      "epoch": 0.3597708333333333,
      "grad_norm": 0.8367019891738892,
      "learning_rate": 0.00021510413121840946,
      "loss": 3.9405,
      "step": 172690
    },
    {
      "epoch": 0.3597916666666667,
      "grad_norm": 0.7875810265541077,
      "learning_rate": 0.00021509524951010954,
      "loss": 3.6615,
      "step": 172700
    },
    {
      "epoch": 0.3598125,
      "grad_norm": 0.7222664952278137,
      "learning_rate": 0.00021508636752062385,
      "loss": 3.8609,
      "step": 172710
    },
    {
      "epoch": 0.35983333333333334,
      "grad_norm": 0.8029804825782776,
      "learning_rate": 0.00021507748524999087,
      "loss": 3.9048,
      "step": 172720
    },
    {
      "epoch": 0.35985416666666664,
      "grad_norm": 0.7026904821395874,
      "learning_rate": 0.0002150686026982489,
      "loss": 3.8744,
      "step": 172730
    },
    {
      "epoch": 0.359875,
      "grad_norm": 0.7384897470474243,
      "learning_rate": 0.00021505971986543633,
      "loss": 3.9299,
      "step": 172740
    },
    {
      "epoch": 0.35989583333333336,
      "grad_norm": 0.7671816945075989,
      "learning_rate": 0.0002150508367515915,
      "loss": 3.7798,
      "step": 172750
    },
    {
      "epoch": 0.35991666666666666,
      "grad_norm": 0.8438202142715454,
      "learning_rate": 0.00021504195335675283,
      "loss": 3.7842,
      "step": 172760
    },
    {
      "epoch": 0.3599375,
      "grad_norm": 0.7321922183036804,
      "learning_rate": 0.00021503306968095865,
      "loss": 3.831,
      "step": 172770
    },
    {
      "epoch": 0.3599583333333333,
      "grad_norm": 0.8353050351142883,
      "learning_rate": 0.00021502418572424728,
      "loss": 3.8673,
      "step": 172780
    },
    {
      "epoch": 0.3599791666666667,
      "grad_norm": 0.7341970205307007,
      "learning_rate": 0.0002150153014866573,
      "loss": 3.7666,
      "step": 172790
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.760597825050354,
      "learning_rate": 0.00021500641696822688,
      "loss": 3.6492,
      "step": 172800
    },
    {
      "epoch": 0.36002083333333335,
      "grad_norm": 0.7371609210968018,
      "learning_rate": 0.00021499753216899447,
      "loss": 3.7154,
      "step": 172810
    },
    {
      "epoch": 0.36004166666666665,
      "grad_norm": 0.8135586380958557,
      "learning_rate": 0.00021498864708899846,
      "loss": 3.7728,
      "step": 172820
    },
    {
      "epoch": 0.3600625,
      "grad_norm": 0.7635663151741028,
      "learning_rate": 0.0002149797617282772,
      "loss": 3.9262,
      "step": 172830
    },
    {
      "epoch": 0.3600833333333333,
      "grad_norm": 0.9412742853164673,
      "learning_rate": 0.0002149708760868691,
      "loss": 3.7008,
      "step": 172840
    },
    {
      "epoch": 0.36010416666666667,
      "grad_norm": 0.6805936694145203,
      "learning_rate": 0.00021496199016481253,
      "loss": 3.8432,
      "step": 172850
    },
    {
      "epoch": 0.360125,
      "grad_norm": 0.8095265030860901,
      "learning_rate": 0.0002149531039621459,
      "loss": 3.7881,
      "step": 172860
    },
    {
      "epoch": 0.36014583333333333,
      "grad_norm": 0.8659197092056274,
      "learning_rate": 0.0002149442174789076,
      "loss": 3.8681,
      "step": 172870
    },
    {
      "epoch": 0.3601666666666667,
      "grad_norm": 0.8213841915130615,
      "learning_rate": 0.0002149353307151359,
      "loss": 3.9469,
      "step": 172880
    },
    {
      "epoch": 0.3601875,
      "grad_norm": 0.7259864807128906,
      "learning_rate": 0.0002149264436708693,
      "loss": 3.6391,
      "step": 172890
    },
    {
      "epoch": 0.36020833333333335,
      "grad_norm": 0.7142928838729858,
      "learning_rate": 0.00021491755634614622,
      "loss": 3.8787,
      "step": 172900
    },
    {
      "epoch": 0.36022916666666666,
      "grad_norm": 1.091983437538147,
      "learning_rate": 0.0002149086687410049,
      "loss": 3.7108,
      "step": 172910
    },
    {
      "epoch": 0.36025,
      "grad_norm": 0.7487744092941284,
      "learning_rate": 0.0002148997808554839,
      "loss": 3.798,
      "step": 172920
    },
    {
      "epoch": 0.3602708333333333,
      "grad_norm": 0.7416728734970093,
      "learning_rate": 0.00021489089268962152,
      "loss": 3.8923,
      "step": 172930
    },
    {
      "epoch": 0.3602916666666667,
      "grad_norm": 0.7996923327445984,
      "learning_rate": 0.00021488200424345615,
      "loss": 3.8209,
      "step": 172940
    },
    {
      "epoch": 0.3603125,
      "grad_norm": 0.852712869644165,
      "learning_rate": 0.00021487311551702623,
      "loss": 3.7633,
      "step": 172950
    },
    {
      "epoch": 0.36033333333333334,
      "grad_norm": 0.8685268759727478,
      "learning_rate": 0.0002148642265103701,
      "loss": 3.7331,
      "step": 172960
    },
    {
      "epoch": 0.36035416666666664,
      "grad_norm": 0.8743142485618591,
      "learning_rate": 0.00021485533722352625,
      "loss": 3.8944,
      "step": 172970
    },
    {
      "epoch": 0.360375,
      "grad_norm": 0.7775306701660156,
      "learning_rate": 0.00021484644765653292,
      "loss": 3.8212,
      "step": 172980
    },
    {
      "epoch": 0.36039583333333336,
      "grad_norm": 0.7782946825027466,
      "learning_rate": 0.00021483755780942867,
      "loss": 3.6289,
      "step": 172990
    },
    {
      "epoch": 0.36041666666666666,
      "grad_norm": 0.8034882545471191,
      "learning_rate": 0.0002148286676822518,
      "loss": 3.9101,
      "step": 173000
    },
    {
      "epoch": 0.36041666666666666,
      "eval_loss": 4.183069229125977,
      "eval_runtime": 8.1888,
      "eval_samples_per_second": 1.221,
      "eval_steps_per_second": 0.366,
      "step": 173000
    },
    {
      "epoch": 0.3604375,
      "grad_norm": 0.9691511988639832,
      "learning_rate": 0.00021481977727504076,
      "loss": 3.764,
      "step": 173010
    },
    {
      "epoch": 0.3604583333333333,
      "grad_norm": 0.7032763361930847,
      "learning_rate": 0.00021481088658783395,
      "loss": 3.8208,
      "step": 173020
    },
    {
      "epoch": 0.3604791666666667,
      "grad_norm": 0.7482962608337402,
      "learning_rate": 0.00021480199562066976,
      "loss": 3.8028,
      "step": 173030
    },
    {
      "epoch": 0.3605,
      "grad_norm": 0.7413915395736694,
      "learning_rate": 0.00021479310437358656,
      "loss": 3.8335,
      "step": 173040
    },
    {
      "epoch": 0.36052083333333335,
      "grad_norm": 0.7171005010604858,
      "learning_rate": 0.00021478421284662285,
      "loss": 3.7337,
      "step": 173050
    },
    {
      "epoch": 0.36054166666666665,
      "grad_norm": 0.7309428453445435,
      "learning_rate": 0.00021477532103981697,
      "loss": 3.7504,
      "step": 173060
    },
    {
      "epoch": 0.3605625,
      "grad_norm": 0.8347238898277283,
      "learning_rate": 0.00021476642895320737,
      "loss": 3.921,
      "step": 173070
    },
    {
      "epoch": 0.3605833333333333,
      "grad_norm": 1.2391899824142456,
      "learning_rate": 0.00021475753658683236,
      "loss": 3.8462,
      "step": 173080
    },
    {
      "epoch": 0.36060416666666667,
      "grad_norm": 0.8357405662536621,
      "learning_rate": 0.0002147486439407305,
      "loss": 3.8738,
      "step": 173090
    },
    {
      "epoch": 0.360625,
      "grad_norm": 0.8320116400718689,
      "learning_rate": 0.00021473975101494007,
      "loss": 3.8177,
      "step": 173100
    },
    {
      "epoch": 0.36064583333333333,
      "grad_norm": 0.7364988923072815,
      "learning_rate": 0.00021473085780949954,
      "loss": 4.0076,
      "step": 173110
    },
    {
      "epoch": 0.3606666666666667,
      "grad_norm": 0.7374359369277954,
      "learning_rate": 0.00021472196432444738,
      "loss": 3.7498,
      "step": 173120
    },
    {
      "epoch": 0.3606875,
      "grad_norm": 0.8942479491233826,
      "learning_rate": 0.00021471307055982193,
      "loss": 3.8821,
      "step": 173130
    },
    {
      "epoch": 0.36070833333333335,
      "grad_norm": 0.700987696647644,
      "learning_rate": 0.00021470417651566162,
      "loss": 3.9007,
      "step": 173140
    },
    {
      "epoch": 0.36072916666666666,
      "grad_norm": 0.778391420841217,
      "learning_rate": 0.0002146952821920049,
      "loss": 3.7229,
      "step": 173150
    },
    {
      "epoch": 0.36075,
      "grad_norm": 0.7097838521003723,
      "learning_rate": 0.00021468638758889014,
      "loss": 3.8566,
      "step": 173160
    },
    {
      "epoch": 0.3607708333333333,
      "grad_norm": 0.7826396822929382,
      "learning_rate": 0.00021467749270635578,
      "loss": 4.0033,
      "step": 173170
    },
    {
      "epoch": 0.3607916666666667,
      "grad_norm": 1.012168049812317,
      "learning_rate": 0.0002146685975444403,
      "loss": 3.9638,
      "step": 173180
    },
    {
      "epoch": 0.3608125,
      "grad_norm": 0.8070304989814758,
      "learning_rate": 0.00021465970210318204,
      "loss": 4.0272,
      "step": 173190
    },
    {
      "epoch": 0.36083333333333334,
      "grad_norm": 0.6870342493057251,
      "learning_rate": 0.00021465080638261946,
      "loss": 3.8475,
      "step": 173200
    },
    {
      "epoch": 0.36085416666666664,
      "grad_norm": 0.7883138060569763,
      "learning_rate": 0.00021464191038279102,
      "loss": 3.8592,
      "step": 173210
    },
    {
      "epoch": 0.360875,
      "grad_norm": 0.9034003019332886,
      "learning_rate": 0.00021463301410373507,
      "loss": 3.9212,
      "step": 173220
    },
    {
      "epoch": 0.36089583333333336,
      "grad_norm": 0.7926760911941528,
      "learning_rate": 0.00021462411754549012,
      "loss": 4.0136,
      "step": 173230
    },
    {
      "epoch": 0.36091666666666666,
      "grad_norm": 0.7538738250732422,
      "learning_rate": 0.00021461522070809457,
      "loss": 3.87,
      "step": 173240
    },
    {
      "epoch": 0.3609375,
      "grad_norm": 0.742840588092804,
      "learning_rate": 0.0002146063235915868,
      "loss": 3.8442,
      "step": 173250
    },
    {
      "epoch": 0.3609583333333333,
      "grad_norm": 0.8104553818702698,
      "learning_rate": 0.00021459742619600532,
      "loss": 3.7991,
      "step": 173260
    },
    {
      "epoch": 0.3609791666666667,
      "grad_norm": 0.7594017386436462,
      "learning_rate": 0.0002145885285213885,
      "loss": 3.7865,
      "step": 173270
    },
    {
      "epoch": 0.361,
      "grad_norm": 0.9672141671180725,
      "learning_rate": 0.0002145796305677748,
      "loss": 3.9058,
      "step": 173280
    },
    {
      "epoch": 0.36102083333333335,
      "grad_norm": 0.7603241205215454,
      "learning_rate": 0.0002145707323352027,
      "loss": 3.8175,
      "step": 173290
    },
    {
      "epoch": 0.36104166666666665,
      "grad_norm": 0.7253960967063904,
      "learning_rate": 0.00021456183382371054,
      "loss": 3.8908,
      "step": 173300
    },
    {
      "epoch": 0.3610625,
      "grad_norm": 0.6905977129936218,
      "learning_rate": 0.00021455293503333688,
      "loss": 3.8828,
      "step": 173310
    },
    {
      "epoch": 0.3610833333333333,
      "grad_norm": 0.7740605473518372,
      "learning_rate": 0.00021454403596412005,
      "loss": 3.8124,
      "step": 173320
    },
    {
      "epoch": 0.36110416666666667,
      "grad_norm": 0.7736459970474243,
      "learning_rate": 0.00021453513661609853,
      "loss": 3.7407,
      "step": 173330
    },
    {
      "epoch": 0.361125,
      "grad_norm": 0.8859019875526428,
      "learning_rate": 0.00021452623698931078,
      "loss": 3.9086,
      "step": 173340
    },
    {
      "epoch": 0.36114583333333333,
      "grad_norm": 0.8580084443092346,
      "learning_rate": 0.00021451733708379524,
      "loss": 3.8596,
      "step": 173350
    },
    {
      "epoch": 0.3611666666666667,
      "grad_norm": 0.832912802696228,
      "learning_rate": 0.0002145084368995903,
      "loss": 3.9022,
      "step": 173360
    },
    {
      "epoch": 0.3611875,
      "grad_norm": 0.9263466596603394,
      "learning_rate": 0.00021449953643673446,
      "loss": 3.8632,
      "step": 173370
    },
    {
      "epoch": 0.36120833333333335,
      "grad_norm": 0.8105006217956543,
      "learning_rate": 0.00021449063569526616,
      "loss": 3.7146,
      "step": 173380
    },
    {
      "epoch": 0.36122916666666666,
      "grad_norm": 0.8357862830162048,
      "learning_rate": 0.00021448173467522388,
      "loss": 3.8696,
      "step": 173390
    },
    {
      "epoch": 0.36125,
      "grad_norm": 0.7875608205795288,
      "learning_rate": 0.000214472833376646,
      "loss": 3.7808,
      "step": 173400
    },
    {
      "epoch": 0.3612708333333333,
      "grad_norm": 0.8260411024093628,
      "learning_rate": 0.00021446393179957096,
      "loss": 3.8234,
      "step": 173410
    },
    {
      "epoch": 0.3612916666666667,
      "grad_norm": 0.740384042263031,
      "learning_rate": 0.0002144550299440373,
      "loss": 3.9895,
      "step": 173420
    },
    {
      "epoch": 0.3613125,
      "grad_norm": 0.6854060888290405,
      "learning_rate": 0.00021444612781008343,
      "loss": 3.7839,
      "step": 173430
    },
    {
      "epoch": 0.36133333333333334,
      "grad_norm": 0.7747597098350525,
      "learning_rate": 0.00021443722539774777,
      "loss": 3.871,
      "step": 173440
    },
    {
      "epoch": 0.36135416666666664,
      "grad_norm": 0.8377516269683838,
      "learning_rate": 0.00021442832270706876,
      "loss": 3.8879,
      "step": 173450
    },
    {
      "epoch": 0.361375,
      "grad_norm": 0.7950534224510193,
      "learning_rate": 0.00021441941973808495,
      "loss": 3.9585,
      "step": 173460
    },
    {
      "epoch": 0.36139583333333336,
      "grad_norm": 0.7078619599342346,
      "learning_rate": 0.00021441051649083478,
      "loss": 3.851,
      "step": 173470
    },
    {
      "epoch": 0.36141666666666666,
      "grad_norm": 0.8701768517494202,
      "learning_rate": 0.00021440161296535658,
      "loss": 3.9288,
      "step": 173480
    },
    {
      "epoch": 0.3614375,
      "grad_norm": 0.7976685166358948,
      "learning_rate": 0.000214392709161689,
      "loss": 3.8074,
      "step": 173490
    },
    {
      "epoch": 0.3614583333333333,
      "grad_norm": 0.8096340894699097,
      "learning_rate": 0.00021438380507987037,
      "loss": 3.8557,
      "step": 173500
    },
    {
      "epoch": 0.3614791666666667,
      "grad_norm": 0.7394839525222778,
      "learning_rate": 0.00021437490071993918,
      "loss": 3.8509,
      "step": 173510
    },
    {
      "epoch": 0.3615,
      "grad_norm": 0.7914524078369141,
      "learning_rate": 0.00021436599608193392,
      "loss": 4.023,
      "step": 173520
    },
    {
      "epoch": 0.36152083333333335,
      "grad_norm": 0.6598624587059021,
      "learning_rate": 0.000214357091165893,
      "loss": 3.9936,
      "step": 173530
    },
    {
      "epoch": 0.36154166666666665,
      "grad_norm": 0.819900393486023,
      "learning_rate": 0.00021434818597185492,
      "loss": 3.8081,
      "step": 173540
    },
    {
      "epoch": 0.3615625,
      "grad_norm": 0.7902030348777771,
      "learning_rate": 0.0002143392804998582,
      "loss": 3.6547,
      "step": 173550
    },
    {
      "epoch": 0.3615833333333333,
      "grad_norm": 0.8197981119155884,
      "learning_rate": 0.0002143303747499412,
      "loss": 3.8265,
      "step": 173560
    },
    {
      "epoch": 0.36160416666666667,
      "grad_norm": 0.7817078232765198,
      "learning_rate": 0.0002143214687221425,
      "loss": 3.899,
      "step": 173570
    },
    {
      "epoch": 0.361625,
      "grad_norm": 0.7681764364242554,
      "learning_rate": 0.00021431256241650045,
      "loss": 3.9428,
      "step": 173580
    },
    {
      "epoch": 0.36164583333333333,
      "grad_norm": 0.7284320592880249,
      "learning_rate": 0.0002143036558330536,
      "loss": 3.9912,
      "step": 173590
    },
    {
      "epoch": 0.3616666666666667,
      "grad_norm": 0.9176732897758484,
      "learning_rate": 0.00021429474897184046,
      "loss": 3.7621,
      "step": 173600
    },
    {
      "epoch": 0.3616875,
      "grad_norm": 0.8095069527626038,
      "learning_rate": 0.0002142858418328994,
      "loss": 3.8676,
      "step": 173610
    },
    {
      "epoch": 0.36170833333333335,
      "grad_norm": 0.821141242980957,
      "learning_rate": 0.00021427693441626898,
      "loss": 4.0965,
      "step": 173620
    },
    {
      "epoch": 0.36172916666666666,
      "grad_norm": 1.4167091846466064,
      "learning_rate": 0.00021426802672198765,
      "loss": 3.9085,
      "step": 173630
    },
    {
      "epoch": 0.36175,
      "grad_norm": 1.2782062292099,
      "learning_rate": 0.00021425911875009386,
      "loss": 3.8864,
      "step": 173640
    },
    {
      "epoch": 0.3617708333333333,
      "grad_norm": 0.836696445941925,
      "learning_rate": 0.0002142502105006261,
      "loss": 3.9395,
      "step": 173650
    },
    {
      "epoch": 0.3617916666666667,
      "grad_norm": 0.7380242943763733,
      "learning_rate": 0.00021424130197362292,
      "loss": 3.8202,
      "step": 173660
    },
    {
      "epoch": 0.3618125,
      "grad_norm": 0.7574782371520996,
      "learning_rate": 0.0002142323931691227,
      "loss": 3.8617,
      "step": 173670
    },
    {
      "epoch": 0.36183333333333334,
      "grad_norm": 0.9224895238876343,
      "learning_rate": 0.00021422348408716398,
      "loss": 3.7804,
      "step": 173680
    },
    {
      "epoch": 0.36185416666666664,
      "grad_norm": 0.7796165943145752,
      "learning_rate": 0.00021421457472778523,
      "loss": 3.7438,
      "step": 173690
    },
    {
      "epoch": 0.361875,
      "grad_norm": 0.8022103905677795,
      "learning_rate": 0.00021420566509102492,
      "loss": 3.9285,
      "step": 173700
    },
    {
      "epoch": 0.36189583333333336,
      "grad_norm": 0.7981953620910645,
      "learning_rate": 0.0002141967551769216,
      "loss": 3.882,
      "step": 173710
    },
    {
      "epoch": 0.36191666666666666,
      "grad_norm": 1.0136469602584839,
      "learning_rate": 0.00021418784498551365,
      "loss": 3.746,
      "step": 173720
    },
    {
      "epoch": 0.3619375,
      "grad_norm": 0.9709267020225525,
      "learning_rate": 0.0002141789345168396,
      "loss": 3.7752,
      "step": 173730
    },
    {
      "epoch": 0.3619583333333333,
      "grad_norm": 0.8656055331230164,
      "learning_rate": 0.00021417002377093806,
      "loss": 3.8642,
      "step": 173740
    },
    {
      "epoch": 0.3619791666666667,
      "grad_norm": 0.7830133438110352,
      "learning_rate": 0.0002141611127478473,
      "loss": 3.7884,
      "step": 173750
    },
    {
      "epoch": 0.362,
      "grad_norm": 0.819376528263092,
      "learning_rate": 0.000214152201447606,
      "loss": 3.9444,
      "step": 173760
    },
    {
      "epoch": 0.36202083333333335,
      "grad_norm": 0.8930636644363403,
      "learning_rate": 0.0002141432898702526,
      "loss": 3.9136,
      "step": 173770
    },
    {
      "epoch": 0.36204166666666665,
      "grad_norm": 1.0379247665405273,
      "learning_rate": 0.00021413437801582548,
      "loss": 4.0068,
      "step": 173780
    },
    {
      "epoch": 0.3620625,
      "grad_norm": 0.74359130859375,
      "learning_rate": 0.0002141254658843633,
      "loss": 3.801,
      "step": 173790
    },
    {
      "epoch": 0.3620833333333333,
      "grad_norm": 0.7892487645149231,
      "learning_rate": 0.00021411655347590452,
      "loss": 4.0191,
      "step": 173800
    },
    {
      "epoch": 0.36210416666666667,
      "grad_norm": 1.0048719644546509,
      "learning_rate": 0.00021410764079048757,
      "loss": 3.6562,
      "step": 173810
    },
    {
      "epoch": 0.362125,
      "grad_norm": 0.8702419996261597,
      "learning_rate": 0.000214098727828151,
      "loss": 3.731,
      "step": 173820
    },
    {
      "epoch": 0.36214583333333333,
      "grad_norm": 0.9997832179069519,
      "learning_rate": 0.0002140898145889333,
      "loss": 3.8538,
      "step": 173830
    },
    {
      "epoch": 0.3621666666666667,
      "grad_norm": 0.8364064693450928,
      "learning_rate": 0.00021408090107287293,
      "loss": 4.0611,
      "step": 173840
    },
    {
      "epoch": 0.3621875,
      "grad_norm": 0.8103625774383545,
      "learning_rate": 0.00021407198728000848,
      "loss": 3.7182,
      "step": 173850
    },
    {
      "epoch": 0.36220833333333335,
      "grad_norm": 0.7114724516868591,
      "learning_rate": 0.00021406307321037837,
      "loss": 3.9275,
      "step": 173860
    },
    {
      "epoch": 0.36222916666666666,
      "grad_norm": 0.6896224021911621,
      "learning_rate": 0.00021405415886402115,
      "loss": 3.8372,
      "step": 173870
    },
    {
      "epoch": 0.36225,
      "grad_norm": 0.8687444925308228,
      "learning_rate": 0.00021404524424097535,
      "loss": 3.9418,
      "step": 173880
    },
    {
      "epoch": 0.3622708333333333,
      "grad_norm": 0.7000634074211121,
      "learning_rate": 0.00021403632934127942,
      "loss": 3.7173,
      "step": 173890
    },
    {
      "epoch": 0.3622916666666667,
      "grad_norm": 0.7547842860221863,
      "learning_rate": 0.0002140274141649719,
      "loss": 3.7988,
      "step": 173900
    },
    {
      "epoch": 0.3623125,
      "grad_norm": 0.7214356660842896,
      "learning_rate": 0.00021401849871209127,
      "loss": 3.9364,
      "step": 173910
    },
    {
      "epoch": 0.36233333333333334,
      "grad_norm": 0.6929609179496765,
      "learning_rate": 0.00021400958298267608,
      "loss": 4.0755,
      "step": 173920
    },
    {
      "epoch": 0.36235416666666664,
      "grad_norm": 0.6901552081108093,
      "learning_rate": 0.00021400066697676486,
      "loss": 3.8006,
      "step": 173930
    },
    {
      "epoch": 0.362375,
      "grad_norm": 0.7867290377616882,
      "learning_rate": 0.00021399175069439607,
      "loss": 3.9307,
      "step": 173940
    },
    {
      "epoch": 0.3623958333333333,
      "grad_norm": 0.9227710366249084,
      "learning_rate": 0.00021398283413560823,
      "loss": 3.8767,
      "step": 173950
    },
    {
      "epoch": 0.36241666666666666,
      "grad_norm": 0.7266890406608582,
      "learning_rate": 0.00021397391730043988,
      "loss": 3.8436,
      "step": 173960
    },
    {
      "epoch": 0.3624375,
      "grad_norm": 0.742337167263031,
      "learning_rate": 0.00021396500018892956,
      "loss": 3.7247,
      "step": 173970
    },
    {
      "epoch": 0.3624583333333333,
      "grad_norm": 0.7545481324195862,
      "learning_rate": 0.0002139560828011157,
      "loss": 3.8985,
      "step": 173980
    },
    {
      "epoch": 0.3624791666666667,
      "grad_norm": 0.900727391242981,
      "learning_rate": 0.00021394716513703697,
      "loss": 3.8872,
      "step": 173990
    },
    {
      "epoch": 0.3625,
      "grad_norm": 0.953364908695221,
      "learning_rate": 0.0002139382471967317,
      "loss": 3.863,
      "step": 174000
    },
    {
      "epoch": 0.3625,
      "eval_loss": 4.187802314758301,
      "eval_runtime": 9.9835,
      "eval_samples_per_second": 1.002,
      "eval_steps_per_second": 0.3,
      "step": 174000
    },
    {
      "epoch": 0.36252083333333335,
      "grad_norm": 0.8700656294822693,
      "learning_rate": 0.00021392932898023858,
      "loss": 3.6566,
      "step": 174010
    },
    {
      "epoch": 0.36254166666666665,
      "grad_norm": 0.7507103681564331,
      "learning_rate": 0.00021392041048759602,
      "loss": 3.6547,
      "step": 174020
    },
    {
      "epoch": 0.3625625,
      "grad_norm": 0.63811856508255,
      "learning_rate": 0.0002139114917188426,
      "loss": 4.0774,
      "step": 174030
    },
    {
      "epoch": 0.3625833333333333,
      "grad_norm": 0.7206482291221619,
      "learning_rate": 0.00021390257267401682,
      "loss": 4.0106,
      "step": 174040
    },
    {
      "epoch": 0.36260416666666667,
      "grad_norm": 0.8475908637046814,
      "learning_rate": 0.00021389365335315727,
      "loss": 3.8359,
      "step": 174050
    },
    {
      "epoch": 0.362625,
      "grad_norm": 0.7905451655387878,
      "learning_rate": 0.0002138847337563024,
      "loss": 3.9291,
      "step": 174060
    },
    {
      "epoch": 0.36264583333333333,
      "grad_norm": 0.6911901831626892,
      "learning_rate": 0.00021387581388349075,
      "loss": 3.512,
      "step": 174070
    },
    {
      "epoch": 0.3626666666666667,
      "grad_norm": 0.7720345854759216,
      "learning_rate": 0.00021386689373476087,
      "loss": 3.7729,
      "step": 174080
    },
    {
      "epoch": 0.3626875,
      "grad_norm": 0.8084156513214111,
      "learning_rate": 0.0002138579733101513,
      "loss": 3.8458,
      "step": 174090
    },
    {
      "epoch": 0.36270833333333335,
      "grad_norm": 0.7271729111671448,
      "learning_rate": 0.00021384905260970056,
      "loss": 3.9084,
      "step": 174100
    },
    {
      "epoch": 0.36272916666666666,
      "grad_norm": 0.7435886859893799,
      "learning_rate": 0.00021384013163344722,
      "loss": 3.8318,
      "step": 174110
    },
    {
      "epoch": 0.36275,
      "grad_norm": 0.7675225734710693,
      "learning_rate": 0.00021383121038142972,
      "loss": 3.8962,
      "step": 174120
    },
    {
      "epoch": 0.3627708333333333,
      "grad_norm": 0.7852985262870789,
      "learning_rate": 0.00021382228885368672,
      "loss": 3.9338,
      "step": 174130
    },
    {
      "epoch": 0.3627916666666667,
      "grad_norm": 0.7484261989593506,
      "learning_rate": 0.00021381336705025665,
      "loss": 3.7518,
      "step": 174140
    },
    {
      "epoch": 0.3628125,
      "grad_norm": 0.7873123288154602,
      "learning_rate": 0.00021380444497117807,
      "loss": 3.8203,
      "step": 174150
    },
    {
      "epoch": 0.36283333333333334,
      "grad_norm": 0.8037921190261841,
      "learning_rate": 0.00021379552261648963,
      "loss": 4.114,
      "step": 174160
    },
    {
      "epoch": 0.36285416666666664,
      "grad_norm": 0.7303909659385681,
      "learning_rate": 0.00021378659998622971,
      "loss": 3.8494,
      "step": 174170
    },
    {
      "epoch": 0.362875,
      "grad_norm": 0.8475949168205261,
      "learning_rate": 0.00021377767708043697,
      "loss": 3.7193,
      "step": 174180
    },
    {
      "epoch": 0.3628958333333333,
      "grad_norm": 0.8660258054733276,
      "learning_rate": 0.00021376875389914987,
      "loss": 3.8131,
      "step": 174190
    },
    {
      "epoch": 0.36291666666666667,
      "grad_norm": 0.8258076310157776,
      "learning_rate": 0.00021375983044240703,
      "loss": 3.834,
      "step": 174200
    },
    {
      "epoch": 0.3629375,
      "grad_norm": 0.78227698802948,
      "learning_rate": 0.00021375090671024694,
      "loss": 3.8664,
      "step": 174210
    },
    {
      "epoch": 0.3629583333333333,
      "grad_norm": 0.7837732434272766,
      "learning_rate": 0.00021374198270270817,
      "loss": 3.7654,
      "step": 174220
    },
    {
      "epoch": 0.3629791666666667,
      "grad_norm": 0.7732692360877991,
      "learning_rate": 0.00021373305841982927,
      "loss": 3.733,
      "step": 174230
    },
    {
      "epoch": 0.363,
      "grad_norm": 0.7494699954986572,
      "learning_rate": 0.00021372413386164878,
      "loss": 3.7477,
      "step": 174240
    },
    {
      "epoch": 0.36302083333333335,
      "grad_norm": 0.7317653298377991,
      "learning_rate": 0.00021371520902820526,
      "loss": 3.7287,
      "step": 174250
    },
    {
      "epoch": 0.36304166666666665,
      "grad_norm": 0.7766045928001404,
      "learning_rate": 0.00021370628391953724,
      "loss": 3.8417,
      "step": 174260
    },
    {
      "epoch": 0.3630625,
      "grad_norm": 0.8706588745117188,
      "learning_rate": 0.00021369735853568334,
      "loss": 3.6597,
      "step": 174270
    },
    {
      "epoch": 0.3630833333333333,
      "grad_norm": 0.8786354064941406,
      "learning_rate": 0.00021368843287668203,
      "loss": 3.9935,
      "step": 174280
    },
    {
      "epoch": 0.3631041666666667,
      "grad_norm": 0.8633915781974792,
      "learning_rate": 0.0002136795069425719,
      "loss": 3.6389,
      "step": 174290
    },
    {
      "epoch": 0.363125,
      "grad_norm": 0.9032469987869263,
      "learning_rate": 0.0002136705807333915,
      "loss": 3.9138,
      "step": 174300
    },
    {
      "epoch": 0.36314583333333333,
      "grad_norm": 0.7397841811180115,
      "learning_rate": 0.0002136616542491794,
      "loss": 3.8308,
      "step": 174310
    },
    {
      "epoch": 0.3631666666666667,
      "grad_norm": 0.8054574131965637,
      "learning_rate": 0.00021365272748997415,
      "loss": 3.8907,
      "step": 174320
    },
    {
      "epoch": 0.3631875,
      "grad_norm": 0.8026958107948303,
      "learning_rate": 0.00021364380045581433,
      "loss": 3.7939,
      "step": 174330
    },
    {
      "epoch": 0.36320833333333336,
      "grad_norm": 0.9511683583259583,
      "learning_rate": 0.00021363487314673846,
      "loss": 3.7895,
      "step": 174340
    },
    {
      "epoch": 0.36322916666666666,
      "grad_norm": 0.9046026468276978,
      "learning_rate": 0.0002136259455627851,
      "loss": 3.6724,
      "step": 174350
    },
    {
      "epoch": 0.36325,
      "grad_norm": 0.7409270405769348,
      "learning_rate": 0.00021361701770399293,
      "loss": 3.8168,
      "step": 174360
    },
    {
      "epoch": 0.3632708333333333,
      "grad_norm": 0.759605348110199,
      "learning_rate": 0.00021360808957040036,
      "loss": 3.8741,
      "step": 174370
    },
    {
      "epoch": 0.3632916666666667,
      "grad_norm": 0.7283762097358704,
      "learning_rate": 0.000213599161162046,
      "loss": 3.8546,
      "step": 174380
    },
    {
      "epoch": 0.3633125,
      "grad_norm": 0.7066693902015686,
      "learning_rate": 0.00021359023247896847,
      "loss": 3.7496,
      "step": 174390
    },
    {
      "epoch": 0.36333333333333334,
      "grad_norm": 0.7391772270202637,
      "learning_rate": 0.0002135813035212063,
      "loss": 4.1114,
      "step": 174400
    },
    {
      "epoch": 0.36335416666666664,
      "grad_norm": 0.9024907350540161,
      "learning_rate": 0.00021357237428879807,
      "loss": 3.6706,
      "step": 174410
    },
    {
      "epoch": 0.363375,
      "grad_norm": 0.7156978845596313,
      "learning_rate": 0.00021356344478178237,
      "loss": 3.9141,
      "step": 174420
    },
    {
      "epoch": 0.3633958333333333,
      "grad_norm": 0.7651075720787048,
      "learning_rate": 0.00021355451500019773,
      "loss": 3.9902,
      "step": 174430
    },
    {
      "epoch": 0.36341666666666667,
      "grad_norm": 1.0825092792510986,
      "learning_rate": 0.00021354558494408277,
      "loss": 3.701,
      "step": 174440
    },
    {
      "epoch": 0.3634375,
      "grad_norm": 0.8118139505386353,
      "learning_rate": 0.00021353665461347598,
      "loss": 3.8575,
      "step": 174450
    },
    {
      "epoch": 0.3634583333333333,
      "grad_norm": 0.7562085390090942,
      "learning_rate": 0.00021352772400841602,
      "loss": 3.8727,
      "step": 174460
    },
    {
      "epoch": 0.3634791666666667,
      "grad_norm": 0.7074707746505737,
      "learning_rate": 0.00021351879312894145,
      "loss": 3.7435,
      "step": 174470
    },
    {
      "epoch": 0.3635,
      "grad_norm": 0.7040911912918091,
      "learning_rate": 0.00021350986197509077,
      "loss": 3.8601,
      "step": 174480
    },
    {
      "epoch": 0.36352083333333335,
      "grad_norm": 0.7320538759231567,
      "learning_rate": 0.00021350093054690268,
      "loss": 3.8195,
      "step": 174490
    },
    {
      "epoch": 0.36354166666666665,
      "grad_norm": 0.7480383515357971,
      "learning_rate": 0.00021349199884441574,
      "loss": 3.7778,
      "step": 174500
    },
    {
      "epoch": 0.3635625,
      "grad_norm": 0.7915358543395996,
      "learning_rate": 0.00021348306686766848,
      "loss": 3.7577,
      "step": 174510
    },
    {
      "epoch": 0.3635833333333333,
      "grad_norm": 0.7220608592033386,
      "learning_rate": 0.00021347413461669944,
      "loss": 3.7903,
      "step": 174520
    },
    {
      "epoch": 0.3636041666666667,
      "grad_norm": 0.8020449280738831,
      "learning_rate": 0.0002134652020915473,
      "loss": 3.8886,
      "step": 174530
    },
    {
      "epoch": 0.363625,
      "grad_norm": 0.7110230326652527,
      "learning_rate": 0.00021345626929225063,
      "loss": 3.9065,
      "step": 174540
    },
    {
      "epoch": 0.36364583333333333,
      "grad_norm": 0.8068051934242249,
      "learning_rate": 0.00021344733621884792,
      "loss": 3.796,
      "step": 174550
    },
    {
      "epoch": 0.3636666666666667,
      "grad_norm": 0.8334967494010925,
      "learning_rate": 0.00021343840287137793,
      "loss": 3.841,
      "step": 174560
    },
    {
      "epoch": 0.3636875,
      "grad_norm": 0.7875044345855713,
      "learning_rate": 0.0002134294692498791,
      "loss": 3.7804,
      "step": 174570
    },
    {
      "epoch": 0.36370833333333336,
      "grad_norm": 0.7620620727539062,
      "learning_rate": 0.00021342053535439008,
      "loss": 3.9666,
      "step": 174580
    },
    {
      "epoch": 0.36372916666666666,
      "grad_norm": 0.864814281463623,
      "learning_rate": 0.00021341160118494945,
      "loss": 3.8571,
      "step": 174590
    },
    {
      "epoch": 0.36375,
      "grad_norm": 0.7749935388565063,
      "learning_rate": 0.0002134026667415958,
      "loss": 3.8737,
      "step": 174600
    },
    {
      "epoch": 0.3637708333333333,
      "grad_norm": 0.7450400590896606,
      "learning_rate": 0.00021339373202436773,
      "loss": 3.8976,
      "step": 174610
    },
    {
      "epoch": 0.3637916666666667,
      "grad_norm": 0.8068118691444397,
      "learning_rate": 0.0002133847970333038,
      "loss": 3.7108,
      "step": 174620
    },
    {
      "epoch": 0.3638125,
      "grad_norm": 0.8612778782844543,
      "learning_rate": 0.00021337586176844268,
      "loss": 3.9224,
      "step": 174630
    },
    {
      "epoch": 0.36383333333333334,
      "grad_norm": 0.7837597727775574,
      "learning_rate": 0.00021336692622982295,
      "loss": 3.8216,
      "step": 174640
    },
    {
      "epoch": 0.36385416666666665,
      "grad_norm": 1.2110806703567505,
      "learning_rate": 0.00021335799041748306,
      "loss": 3.8164,
      "step": 174650
    },
    {
      "epoch": 0.363875,
      "grad_norm": 1.0225600004196167,
      "learning_rate": 0.00021334905433146185,
      "loss": 3.833,
      "step": 174660
    },
    {
      "epoch": 0.3638958333333333,
      "grad_norm": 0.7667766213417053,
      "learning_rate": 0.00021334011797179776,
      "loss": 3.9412,
      "step": 174670
    },
    {
      "epoch": 0.36391666666666667,
      "grad_norm": 0.8386001586914062,
      "learning_rate": 0.00021333118133852943,
      "loss": 3.6124,
      "step": 174680
    },
    {
      "epoch": 0.3639375,
      "grad_norm": 1.0782872438430786,
      "learning_rate": 0.00021332224443169543,
      "loss": 3.8911,
      "step": 174690
    },
    {
      "epoch": 0.36395833333333333,
      "grad_norm": 0.8304665684700012,
      "learning_rate": 0.00021331330725133448,
      "loss": 3.8675,
      "step": 174700
    },
    {
      "epoch": 0.3639791666666667,
      "grad_norm": 0.855630099773407,
      "learning_rate": 0.00021330436979748508,
      "loss": 3.9011,
      "step": 174710
    },
    {
      "epoch": 0.364,
      "grad_norm": 0.7531416416168213,
      "learning_rate": 0.0002132954320701858,
      "loss": 3.7992,
      "step": 174720
    },
    {
      "epoch": 0.36402083333333335,
      "grad_norm": 0.7193562984466553,
      "learning_rate": 0.00021328649406947533,
      "loss": 3.7256,
      "step": 174730
    },
    {
      "epoch": 0.36404166666666665,
      "grad_norm": 0.8333221673965454,
      "learning_rate": 0.0002132775557953923,
      "loss": 3.8223,
      "step": 174740
    },
    {
      "epoch": 0.3640625,
      "grad_norm": 0.9148529767990112,
      "learning_rate": 0.00021326861724797527,
      "loss": 4.0197,
      "step": 174750
    },
    {
      "epoch": 0.3640833333333333,
      "grad_norm": 0.8367631435394287,
      "learning_rate": 0.0002132596784272628,
      "loss": 3.894,
      "step": 174760
    },
    {
      "epoch": 0.3641041666666667,
      "grad_norm": 0.7908941507339478,
      "learning_rate": 0.0002132507393332936,
      "loss": 3.7859,
      "step": 174770
    },
    {
      "epoch": 0.364125,
      "grad_norm": 1.1759858131408691,
      "learning_rate": 0.00021324179996610624,
      "loss": 3.9903,
      "step": 174780
    },
    {
      "epoch": 0.36414583333333334,
      "grad_norm": 0.7537374496459961,
      "learning_rate": 0.00021323286032573935,
      "loss": 3.8008,
      "step": 174790
    },
    {
      "epoch": 0.3641666666666667,
      "grad_norm": 0.868524968624115,
      "learning_rate": 0.0002132239204122315,
      "loss": 3.8179,
      "step": 174800
    },
    {
      "epoch": 0.3641875,
      "grad_norm": 0.841977059841156,
      "learning_rate": 0.00021321498022562138,
      "loss": 3.7114,
      "step": 174810
    },
    {
      "epoch": 0.36420833333333336,
      "grad_norm": 0.7124457955360413,
      "learning_rate": 0.0002132060397659475,
      "loss": 3.8315,
      "step": 174820
    },
    {
      "epoch": 0.36422916666666666,
      "grad_norm": 0.9768667817115784,
      "learning_rate": 0.0002131970990332486,
      "loss": 3.8247,
      "step": 174830
    },
    {
      "epoch": 0.36425,
      "grad_norm": 0.7824466824531555,
      "learning_rate": 0.00021318815802756324,
      "loss": 3.7785,
      "step": 174840
    },
    {
      "epoch": 0.3642708333333333,
      "grad_norm": 0.742760181427002,
      "learning_rate": 0.00021317921674893,
      "loss": 3.8988,
      "step": 174850
    },
    {
      "epoch": 0.3642916666666667,
      "grad_norm": 0.7804973721504211,
      "learning_rate": 0.00021317027519738766,
      "loss": 3.814,
      "step": 174860
    },
    {
      "epoch": 0.3643125,
      "grad_norm": 0.8736733198165894,
      "learning_rate": 0.00021316133337297464,
      "loss": 3.821,
      "step": 174870
    },
    {
      "epoch": 0.36433333333333334,
      "grad_norm": 4.063634395599365,
      "learning_rate": 0.0002131523912757297,
      "loss": 3.8023,
      "step": 174880
    },
    {
      "epoch": 0.36435416666666665,
      "grad_norm": 0.9086807370185852,
      "learning_rate": 0.00021314344890569146,
      "loss": 3.8494,
      "step": 174890
    },
    {
      "epoch": 0.364375,
      "grad_norm": 0.724098801612854,
      "learning_rate": 0.00021313450626289846,
      "loss": 3.8727,
      "step": 174900
    },
    {
      "epoch": 0.3643958333333333,
      "grad_norm": 0.7533203959465027,
      "learning_rate": 0.0002131255633473894,
      "loss": 3.7961,
      "step": 174910
    },
    {
      "epoch": 0.36441666666666667,
      "grad_norm": 1.264714241027832,
      "learning_rate": 0.0002131166201592029,
      "loss": 3.8217,
      "step": 174920
    },
    {
      "epoch": 0.3644375,
      "grad_norm": 0.7409120798110962,
      "learning_rate": 0.00021310767669837754,
      "loss": 3.8789,
      "step": 174930
    },
    {
      "epoch": 0.36445833333333333,
      "grad_norm": 0.7163465023040771,
      "learning_rate": 0.00021309873296495205,
      "loss": 3.6649,
      "step": 174940
    },
    {
      "epoch": 0.3644791666666667,
      "grad_norm": 0.8354936838150024,
      "learning_rate": 0.000213089788958965,
      "loss": 4.0742,
      "step": 174950
    },
    {
      "epoch": 0.3645,
      "grad_norm": 0.7594638466835022,
      "learning_rate": 0.00021308084468045502,
      "loss": 3.789,
      "step": 174960
    },
    {
      "epoch": 0.36452083333333335,
      "grad_norm": 0.916227400302887,
      "learning_rate": 0.00021307190012946078,
      "loss": 3.832,
      "step": 174970
    },
    {
      "epoch": 0.36454166666666665,
      "grad_norm": 0.8011505603790283,
      "learning_rate": 0.00021306295530602087,
      "loss": 3.8999,
      "step": 174980
    },
    {
      "epoch": 0.3645625,
      "grad_norm": 0.7719142436981201,
      "learning_rate": 0.00021305401021017397,
      "loss": 3.7422,
      "step": 174990
    },
    {
      "epoch": 0.3645833333333333,
      "grad_norm": 0.7814518213272095,
      "learning_rate": 0.00021304506484195874,
      "loss": 3.7479,
      "step": 175000
    },
    {
      "epoch": 0.3645833333333333,
      "eval_loss": 4.178962707519531,
      "eval_runtime": 8.124,
      "eval_samples_per_second": 1.231,
      "eval_steps_per_second": 0.369,
      "step": 175000
    },
    {
      "epoch": 0.3646041666666667,
      "grad_norm": 0.9543401598930359,
      "learning_rate": 0.00021303611920141374,
      "loss": 3.8489,
      "step": 175010
    },
    {
      "epoch": 0.364625,
      "grad_norm": 0.7536950707435608,
      "learning_rate": 0.00021302717328857763,
      "loss": 3.8461,
      "step": 175020
    },
    {
      "epoch": 0.36464583333333334,
      "grad_norm": 0.7699366807937622,
      "learning_rate": 0.00021301822710348913,
      "loss": 3.7233,
      "step": 175030
    },
    {
      "epoch": 0.36466666666666664,
      "grad_norm": 0.8012258410453796,
      "learning_rate": 0.00021300928064618682,
      "loss": 3.6503,
      "step": 175040
    },
    {
      "epoch": 0.3646875,
      "grad_norm": 0.8757281303405762,
      "learning_rate": 0.00021300033391670933,
      "loss": 3.9409,
      "step": 175050
    },
    {
      "epoch": 0.36470833333333336,
      "grad_norm": 0.952475368976593,
      "learning_rate": 0.00021299138691509542,
      "loss": 3.8637,
      "step": 175060
    },
    {
      "epoch": 0.36472916666666666,
      "grad_norm": 0.7483399510383606,
      "learning_rate": 0.00021298243964138356,
      "loss": 3.8373,
      "step": 175070
    },
    {
      "epoch": 0.36475,
      "grad_norm": 0.7214874625205994,
      "learning_rate": 0.00021297349209561253,
      "loss": 3.7708,
      "step": 175080
    },
    {
      "epoch": 0.3647708333333333,
      "grad_norm": 0.8385199904441833,
      "learning_rate": 0.00021296454427782095,
      "loss": 3.8777,
      "step": 175090
    },
    {
      "epoch": 0.3647916666666667,
      "grad_norm": 0.760765790939331,
      "learning_rate": 0.0002129555961880474,
      "loss": 3.9729,
      "step": 175100
    },
    {
      "epoch": 0.3648125,
      "grad_norm": 0.9289222955703735,
      "learning_rate": 0.00021294664782633066,
      "loss": 3.813,
      "step": 175110
    },
    {
      "epoch": 0.36483333333333334,
      "grad_norm": 0.7888829112052917,
      "learning_rate": 0.00021293769919270928,
      "loss": 3.7429,
      "step": 175120
    },
    {
      "epoch": 0.36485416666666665,
      "grad_norm": 0.7188689112663269,
      "learning_rate": 0.00021292875028722198,
      "loss": 3.8383,
      "step": 175130
    },
    {
      "epoch": 0.364875,
      "grad_norm": 0.7364729046821594,
      "learning_rate": 0.0002129198011099074,
      "loss": 3.6583,
      "step": 175140
    },
    {
      "epoch": 0.3648958333333333,
      "grad_norm": 0.6876948475837708,
      "learning_rate": 0.00021291085166080413,
      "loss": 3.849,
      "step": 175150
    },
    {
      "epoch": 0.36491666666666667,
      "grad_norm": 0.729564368724823,
      "learning_rate": 0.0002129019019399509,
      "loss": 3.9655,
      "step": 175160
    },
    {
      "epoch": 0.3649375,
      "grad_norm": 0.956418514251709,
      "learning_rate": 0.00021289295194738646,
      "loss": 4.0867,
      "step": 175170
    },
    {
      "epoch": 0.36495833333333333,
      "grad_norm": 0.6792646646499634,
      "learning_rate": 0.00021288400168314924,
      "loss": 3.6372,
      "step": 175180
    },
    {
      "epoch": 0.3649791666666667,
      "grad_norm": 0.8811651468276978,
      "learning_rate": 0.00021287505114727802,
      "loss": 3.8069,
      "step": 175190
    },
    {
      "epoch": 0.365,
      "grad_norm": 0.773311972618103,
      "learning_rate": 0.00021286610033981152,
      "loss": 3.8297,
      "step": 175200
    },
    {
      "epoch": 0.36502083333333335,
      "grad_norm": 0.8103606104850769,
      "learning_rate": 0.00021285714926078833,
      "loss": 3.8178,
      "step": 175210
    },
    {
      "epoch": 0.36504166666666665,
      "grad_norm": 0.7690119743347168,
      "learning_rate": 0.0002128481979102471,
      "loss": 3.8066,
      "step": 175220
    },
    {
      "epoch": 0.3650625,
      "grad_norm": 0.7006215453147888,
      "learning_rate": 0.0002128392462882266,
      "loss": 3.9009,
      "step": 175230
    },
    {
      "epoch": 0.3650833333333333,
      "grad_norm": 0.7005812525749207,
      "learning_rate": 0.0002128302943947654,
      "loss": 3.7026,
      "step": 175240
    },
    {
      "epoch": 0.3651041666666667,
      "grad_norm": 0.7719292044639587,
      "learning_rate": 0.00021282134222990221,
      "loss": 3.8771,
      "step": 175250
    },
    {
      "epoch": 0.365125,
      "grad_norm": 0.7162901759147644,
      "learning_rate": 0.00021281238979367568,
      "loss": 3.7563,
      "step": 175260
    },
    {
      "epoch": 0.36514583333333334,
      "grad_norm": 0.7185836434364319,
      "learning_rate": 0.00021280343708612447,
      "loss": 3.7019,
      "step": 175270
    },
    {
      "epoch": 0.36516666666666664,
      "grad_norm": 0.8628160357475281,
      "learning_rate": 0.00021279448410728728,
      "loss": 4.0246,
      "step": 175280
    },
    {
      "epoch": 0.3651875,
      "grad_norm": 0.7761640548706055,
      "learning_rate": 0.00021278553085720276,
      "loss": 3.9737,
      "step": 175290
    },
    {
      "epoch": 0.36520833333333336,
      "grad_norm": 0.785317599773407,
      "learning_rate": 0.00021277657733590965,
      "loss": 3.7576,
      "step": 175300
    },
    {
      "epoch": 0.36522916666666666,
      "grad_norm": 0.7497972846031189,
      "learning_rate": 0.00021276762354344655,
      "loss": 3.8349,
      "step": 175310
    },
    {
      "epoch": 0.36525,
      "grad_norm": 0.8227072358131409,
      "learning_rate": 0.00021275866947985213,
      "loss": 3.7634,
      "step": 175320
    },
    {
      "epoch": 0.3652708333333333,
      "grad_norm": 0.8014456033706665,
      "learning_rate": 0.00021274971514516512,
      "loss": 3.9989,
      "step": 175330
    },
    {
      "epoch": 0.3652916666666667,
      "grad_norm": 0.8141527771949768,
      "learning_rate": 0.00021274076053942422,
      "loss": 3.7829,
      "step": 175340
    },
    {
      "epoch": 0.3653125,
      "grad_norm": 0.6212180256843567,
      "learning_rate": 0.00021273180566266797,
      "loss": 3.8156,
      "step": 175350
    },
    {
      "epoch": 0.36533333333333334,
      "grad_norm": 0.8695246577262878,
      "learning_rate": 0.00021272285051493524,
      "loss": 3.8133,
      "step": 175360
    },
    {
      "epoch": 0.36535416666666665,
      "grad_norm": 0.804716169834137,
      "learning_rate": 0.00021271389509626459,
      "loss": 3.9231,
      "step": 175370
    },
    {
      "epoch": 0.365375,
      "grad_norm": 0.9058739542961121,
      "learning_rate": 0.00021270493940669477,
      "loss": 3.9818,
      "step": 175380
    },
    {
      "epoch": 0.3653958333333333,
      "grad_norm": 0.8093626499176025,
      "learning_rate": 0.00021269598344626436,
      "loss": 3.9002,
      "step": 175390
    },
    {
      "epoch": 0.36541666666666667,
      "grad_norm": 0.7608248591423035,
      "learning_rate": 0.0002126870272150122,
      "loss": 3.7843,
      "step": 175400
    },
    {
      "epoch": 0.3654375,
      "grad_norm": 0.8691124320030212,
      "learning_rate": 0.00021267807071297684,
      "loss": 3.7939,
      "step": 175410
    },
    {
      "epoch": 0.36545833333333333,
      "grad_norm": 0.7326746582984924,
      "learning_rate": 0.000212669113940197,
      "loss": 3.7944,
      "step": 175420
    },
    {
      "epoch": 0.3654791666666667,
      "grad_norm": 0.7414424419403076,
      "learning_rate": 0.0002126601568967115,
      "loss": 3.5769,
      "step": 175430
    },
    {
      "epoch": 0.3655,
      "grad_norm": 0.6579693555831909,
      "learning_rate": 0.00021265119958255882,
      "loss": 3.7926,
      "step": 175440
    },
    {
      "epoch": 0.36552083333333335,
      "grad_norm": 0.8223866820335388,
      "learning_rate": 0.0002126422419977778,
      "loss": 3.8644,
      "step": 175450
    },
    {
      "epoch": 0.36554166666666665,
      "grad_norm": 0.7723525166511536,
      "learning_rate": 0.0002126332841424071,
      "loss": 3.8715,
      "step": 175460
    },
    {
      "epoch": 0.3655625,
      "grad_norm": 0.787481427192688,
      "learning_rate": 0.0002126243260164854,
      "loss": 3.7731,
      "step": 175470
    },
    {
      "epoch": 0.3655833333333333,
      "grad_norm": 0.7363212704658508,
      "learning_rate": 0.00021261536762005138,
      "loss": 3.8711,
      "step": 175480
    },
    {
      "epoch": 0.3656041666666667,
      "grad_norm": 0.7761071920394897,
      "learning_rate": 0.00021260640895314376,
      "loss": 3.8351,
      "step": 175490
    },
    {
      "epoch": 0.365625,
      "grad_norm": 0.7774080634117126,
      "learning_rate": 0.00021259745001580126,
      "loss": 3.8389,
      "step": 175500
    },
    {
      "epoch": 0.36564583333333334,
      "grad_norm": 0.8738390803337097,
      "learning_rate": 0.00021258849080806256,
      "loss": 3.831,
      "step": 175510
    },
    {
      "epoch": 0.36566666666666664,
      "grad_norm": 0.8430890440940857,
      "learning_rate": 0.0002125795313299663,
      "loss": 3.7885,
      "step": 175520
    },
    {
      "epoch": 0.3656875,
      "grad_norm": 0.8462783098220825,
      "learning_rate": 0.00021257057158155127,
      "loss": 3.8953,
      "step": 175530
    },
    {
      "epoch": 0.36570833333333336,
      "grad_norm": 0.8573465943336487,
      "learning_rate": 0.00021256161156285616,
      "loss": 3.9549,
      "step": 175540
    },
    {
      "epoch": 0.36572916666666666,
      "grad_norm": 0.7587723135948181,
      "learning_rate": 0.0002125526512739196,
      "loss": 3.6616,
      "step": 175550
    },
    {
      "epoch": 0.36575,
      "grad_norm": 0.7948476672172546,
      "learning_rate": 0.00021254369071478034,
      "loss": 3.905,
      "step": 175560
    },
    {
      "epoch": 0.3657708333333333,
      "grad_norm": 0.9257258176803589,
      "learning_rate": 0.00021253472988547718,
      "loss": 3.6975,
      "step": 175570
    },
    {
      "epoch": 0.3657916666666667,
      "grad_norm": 0.8531047105789185,
      "learning_rate": 0.00021252576878604869,
      "loss": 3.8699,
      "step": 175580
    },
    {
      "epoch": 0.3658125,
      "grad_norm": 0.8894035220146179,
      "learning_rate": 0.00021251680741653364,
      "loss": 3.7922,
      "step": 175590
    },
    {
      "epoch": 0.36583333333333334,
      "grad_norm": 0.7560015916824341,
      "learning_rate": 0.00021250784577697067,
      "loss": 3.8215,
      "step": 175600
    },
    {
      "epoch": 0.36585416666666665,
      "grad_norm": 0.8178151845932007,
      "learning_rate": 0.0002124988838673986,
      "loss": 3.8171,
      "step": 175610
    },
    {
      "epoch": 0.365875,
      "grad_norm": 0.7580834031105042,
      "learning_rate": 0.0002124899216878561,
      "loss": 3.9713,
      "step": 175620
    },
    {
      "epoch": 0.3658958333333333,
      "grad_norm": 0.7897757291793823,
      "learning_rate": 0.0002124809592383818,
      "loss": 3.8164,
      "step": 175630
    },
    {
      "epoch": 0.36591666666666667,
      "grad_norm": 0.8372364640235901,
      "learning_rate": 0.00021247199651901457,
      "loss": 3.7197,
      "step": 175640
    },
    {
      "epoch": 0.3659375,
      "grad_norm": 0.7465304136276245,
      "learning_rate": 0.000212463033529793,
      "loss": 3.7919,
      "step": 175650
    },
    {
      "epoch": 0.36595833333333333,
      "grad_norm": 0.6782053709030151,
      "learning_rate": 0.00021245407027075587,
      "loss": 4.036,
      "step": 175660
    },
    {
      "epoch": 0.3659791666666667,
      "grad_norm": 0.9671266674995422,
      "learning_rate": 0.00021244510674194188,
      "loss": 3.7249,
      "step": 175670
    },
    {
      "epoch": 0.366,
      "grad_norm": 0.7444034814834595,
      "learning_rate": 0.00021243614294338977,
      "loss": 3.8075,
      "step": 175680
    },
    {
      "epoch": 0.36602083333333335,
      "grad_norm": 1.0118134021759033,
      "learning_rate": 0.00021242717887513818,
      "loss": 3.8589,
      "step": 175690
    },
    {
      "epoch": 0.36604166666666665,
      "grad_norm": 0.8973221182823181,
      "learning_rate": 0.0002124182145372259,
      "loss": 3.9084,
      "step": 175700
    },
    {
      "epoch": 0.3660625,
      "grad_norm": 0.951199471950531,
      "learning_rate": 0.00021240924992969168,
      "loss": 3.9049,
      "step": 175710
    },
    {
      "epoch": 0.3660833333333333,
      "grad_norm": 0.7485636472702026,
      "learning_rate": 0.00021240028505257414,
      "loss": 3.91,
      "step": 175720
    },
    {
      "epoch": 0.3661041666666667,
      "grad_norm": 0.7209036350250244,
      "learning_rate": 0.0002123913199059121,
      "loss": 3.8434,
      "step": 175730
    },
    {
      "epoch": 0.366125,
      "grad_norm": 0.8078885078430176,
      "learning_rate": 0.00021238235448974428,
      "loss": 3.8345,
      "step": 175740
    },
    {
      "epoch": 0.36614583333333334,
      "grad_norm": 0.7596293687820435,
      "learning_rate": 0.00021237338880410937,
      "loss": 3.9133,
      "step": 175750
    },
    {
      "epoch": 0.36616666666666664,
      "grad_norm": 0.7512754797935486,
      "learning_rate": 0.0002123644228490461,
      "loss": 3.6607,
      "step": 175760
    },
    {
      "epoch": 0.3661875,
      "grad_norm": 0.8496394753456116,
      "learning_rate": 0.0002123554566245932,
      "loss": 3.8049,
      "step": 175770
    },
    {
      "epoch": 0.36620833333333336,
      "grad_norm": 0.7215437889099121,
      "learning_rate": 0.00021234649013078945,
      "loss": 3.9252,
      "step": 175780
    },
    {
      "epoch": 0.36622916666666666,
      "grad_norm": 0.7424211502075195,
      "learning_rate": 0.0002123375233676735,
      "loss": 3.8419,
      "step": 175790
    },
    {
      "epoch": 0.36625,
      "grad_norm": 0.8069102168083191,
      "learning_rate": 0.0002123285563352841,
      "loss": 3.8247,
      "step": 175800
    },
    {
      "epoch": 0.3662708333333333,
      "grad_norm": 0.7804856300354004,
      "learning_rate": 0.00021231958903366005,
      "loss": 3.7355,
      "step": 175810
    },
    {
      "epoch": 0.3662916666666667,
      "grad_norm": 0.7594544887542725,
      "learning_rate": 0.00021231062146284004,
      "loss": 4.0628,
      "step": 175820
    },
    {
      "epoch": 0.3663125,
      "grad_norm": 0.9608187675476074,
      "learning_rate": 0.00021230165362286278,
      "loss": 3.9214,
      "step": 175830
    },
    {
      "epoch": 0.36633333333333334,
      "grad_norm": 0.9510507583618164,
      "learning_rate": 0.00021229268551376708,
      "loss": 3.8276,
      "step": 175840
    },
    {
      "epoch": 0.36635416666666665,
      "grad_norm": 0.851483166217804,
      "learning_rate": 0.00021228371713559162,
      "loss": 3.9533,
      "step": 175850
    },
    {
      "epoch": 0.366375,
      "grad_norm": 0.9510905146598816,
      "learning_rate": 0.00021227474848837516,
      "loss": 3.8949,
      "step": 175860
    },
    {
      "epoch": 0.3663958333333333,
      "grad_norm": 0.8065227270126343,
      "learning_rate": 0.00021226577957215642,
      "loss": 3.7725,
      "step": 175870
    },
    {
      "epoch": 0.36641666666666667,
      "grad_norm": 0.7330882549285889,
      "learning_rate": 0.00021225681038697418,
      "loss": 3.8623,
      "step": 175880
    },
    {
      "epoch": 0.3664375,
      "grad_norm": 0.7765643000602722,
      "learning_rate": 0.0002122478409328671,
      "loss": 3.9581,
      "step": 175890
    },
    {
      "epoch": 0.36645833333333333,
      "grad_norm": 0.9261114597320557,
      "learning_rate": 0.00021223887120987408,
      "loss": 3.8935,
      "step": 175900
    },
    {
      "epoch": 0.3664791666666667,
      "grad_norm": 0.8125590085983276,
      "learning_rate": 0.00021222990121803372,
      "loss": 3.6776,
      "step": 175910
    },
    {
      "epoch": 0.3665,
      "grad_norm": 0.8975281119346619,
      "learning_rate": 0.0002122209309573848,
      "loss": 3.7395,
      "step": 175920
    },
    {
      "epoch": 0.36652083333333335,
      "grad_norm": 0.7979750633239746,
      "learning_rate": 0.00021221196042796615,
      "loss": 3.9569,
      "step": 175930
    },
    {
      "epoch": 0.36654166666666665,
      "grad_norm": 0.713593065738678,
      "learning_rate": 0.00021220298962981642,
      "loss": 3.65,
      "step": 175940
    },
    {
      "epoch": 0.3665625,
      "grad_norm": 0.8520346879959106,
      "learning_rate": 0.00021219401856297437,
      "loss": 3.8281,
      "step": 175950
    },
    {
      "epoch": 0.3665833333333333,
      "grad_norm": 0.7256143093109131,
      "learning_rate": 0.00021218504722747883,
      "loss": 3.6485,
      "step": 175960
    },
    {
      "epoch": 0.3666041666666667,
      "grad_norm": 0.6689755320549011,
      "learning_rate": 0.00021217607562336847,
      "loss": 3.7766,
      "step": 175970
    },
    {
      "epoch": 0.366625,
      "grad_norm": 0.8357972502708435,
      "learning_rate": 0.0002121671037506821,
      "loss": 3.7816,
      "step": 175980
    },
    {
      "epoch": 0.36664583333333334,
      "grad_norm": 0.7650572657585144,
      "learning_rate": 0.0002121581316094584,
      "loss": 3.7701,
      "step": 175990
    },
    {
      "epoch": 0.36666666666666664,
      "grad_norm": 0.7557189464569092,
      "learning_rate": 0.00021214915919973618,
      "loss": 3.9295,
      "step": 176000
    },
    {
      "epoch": 0.36666666666666664,
      "eval_loss": 4.188157558441162,
      "eval_runtime": 9.0795,
      "eval_samples_per_second": 1.101,
      "eval_steps_per_second": 0.33,
      "step": 176000
    },
    {
      "epoch": 0.3666875,
      "grad_norm": 0.7163336277008057,
      "learning_rate": 0.00021214018652155424,
      "loss": 3.8366,
      "step": 176010
    },
    {
      "epoch": 0.36670833333333336,
      "grad_norm": 0.7485082745552063,
      "learning_rate": 0.00021213121357495127,
      "loss": 3.5543,
      "step": 176020
    },
    {
      "epoch": 0.36672916666666666,
      "grad_norm": 0.8654319047927856,
      "learning_rate": 0.00021212224035996603,
      "loss": 4.0584,
      "step": 176030
    },
    {
      "epoch": 0.36675,
      "grad_norm": 0.7568565607070923,
      "learning_rate": 0.00021211326687663735,
      "loss": 3.9937,
      "step": 176040
    },
    {
      "epoch": 0.3667708333333333,
      "grad_norm": 0.938218891620636,
      "learning_rate": 0.0002121042931250039,
      "loss": 3.7403,
      "step": 176050
    },
    {
      "epoch": 0.3667916666666667,
      "grad_norm": 0.8829306364059448,
      "learning_rate": 0.00021209531910510452,
      "loss": 3.758,
      "step": 176060
    },
    {
      "epoch": 0.3668125,
      "grad_norm": 0.7556623220443726,
      "learning_rate": 0.00021208634481697792,
      "loss": 3.8327,
      "step": 176070
    },
    {
      "epoch": 0.36683333333333334,
      "grad_norm": 0.8250897526741028,
      "learning_rate": 0.0002120773702606629,
      "loss": 3.7719,
      "step": 176080
    },
    {
      "epoch": 0.36685416666666665,
      "grad_norm": 0.7813183069229126,
      "learning_rate": 0.00021206839543619815,
      "loss": 3.6765,
      "step": 176090
    },
    {
      "epoch": 0.366875,
      "grad_norm": 0.8514734506607056,
      "learning_rate": 0.00021205942034362258,
      "loss": 3.9248,
      "step": 176100
    },
    {
      "epoch": 0.3668958333333333,
      "grad_norm": 0.7920708656311035,
      "learning_rate": 0.00021205044498297484,
      "loss": 3.8367,
      "step": 176110
    },
    {
      "epoch": 0.36691666666666667,
      "grad_norm": 0.8339046239852905,
      "learning_rate": 0.00021204146935429374,
      "loss": 3.8712,
      "step": 176120
    },
    {
      "epoch": 0.3669375,
      "grad_norm": 0.8433459401130676,
      "learning_rate": 0.00021203249345761805,
      "loss": 3.9731,
      "step": 176130
    },
    {
      "epoch": 0.36695833333333333,
      "grad_norm": 0.7437567114830017,
      "learning_rate": 0.00021202351729298654,
      "loss": 3.9704,
      "step": 176140
    },
    {
      "epoch": 0.3669791666666667,
      "grad_norm": 0.890786349773407,
      "learning_rate": 0.000212014540860438,
      "loss": 3.5511,
      "step": 176150
    },
    {
      "epoch": 0.367,
      "grad_norm": 0.9526023268699646,
      "learning_rate": 0.0002120055641600112,
      "loss": 3.8843,
      "step": 176160
    },
    {
      "epoch": 0.36702083333333335,
      "grad_norm": 0.8961060047149658,
      "learning_rate": 0.00021199658719174487,
      "loss": 3.9057,
      "step": 176170
    },
    {
      "epoch": 0.36704166666666665,
      "grad_norm": 0.8980767130851746,
      "learning_rate": 0.0002119876099556779,
      "loss": 3.8395,
      "step": 176180
    },
    {
      "epoch": 0.3670625,
      "grad_norm": 0.7026386260986328,
      "learning_rate": 0.0002119786324518489,
      "loss": 3.8248,
      "step": 176190
    },
    {
      "epoch": 0.3670833333333333,
      "grad_norm": 0.9986991882324219,
      "learning_rate": 0.00021196965468029674,
      "loss": 3.8285,
      "step": 176200
    },
    {
      "epoch": 0.3671041666666667,
      "grad_norm": 0.7387000322341919,
      "learning_rate": 0.0002119606766410603,
      "loss": 3.8886,
      "step": 176210
    },
    {
      "epoch": 0.367125,
      "grad_norm": 0.7845318913459778,
      "learning_rate": 0.00021195169833417818,
      "loss": 3.8713,
      "step": 176220
    },
    {
      "epoch": 0.36714583333333334,
      "grad_norm": 0.8641128540039062,
      "learning_rate": 0.00021194271975968925,
      "loss": 3.8257,
      "step": 176230
    },
    {
      "epoch": 0.36716666666666664,
      "grad_norm": 0.9447407126426697,
      "learning_rate": 0.00021193374091763232,
      "loss": 3.831,
      "step": 176240
    },
    {
      "epoch": 0.3671875,
      "grad_norm": 0.7937675714492798,
      "learning_rate": 0.00021192476180804612,
      "loss": 3.8935,
      "step": 176250
    },
    {
      "epoch": 0.36720833333333336,
      "grad_norm": 0.7478681802749634,
      "learning_rate": 0.00021191578243096943,
      "loss": 3.8761,
      "step": 176260
    },
    {
      "epoch": 0.36722916666666666,
      "grad_norm": 0.7483050227165222,
      "learning_rate": 0.00021190680278644115,
      "loss": 3.9774,
      "step": 176270
    },
    {
      "epoch": 0.36725,
      "grad_norm": 0.8092762231826782,
      "learning_rate": 0.00021189782287449994,
      "loss": 3.8443,
      "step": 176280
    },
    {
      "epoch": 0.3672708333333333,
      "grad_norm": 0.7252716422080994,
      "learning_rate": 0.0002118888426951846,
      "loss": 3.8081,
      "step": 176290
    },
    {
      "epoch": 0.3672916666666667,
      "grad_norm": 0.6924551129341125,
      "learning_rate": 0.00021187986224853407,
      "loss": 3.9181,
      "step": 176300
    },
    {
      "epoch": 0.3673125,
      "grad_norm": 0.8550118803977966,
      "learning_rate": 0.00021187088153458693,
      "loss": 3.6204,
      "step": 176310
    },
    {
      "epoch": 0.36733333333333335,
      "grad_norm": 0.8897987604141235,
      "learning_rate": 0.0002118619005533821,
      "loss": 3.8208,
      "step": 176320
    },
    {
      "epoch": 0.36735416666666665,
      "grad_norm": 0.8373711109161377,
      "learning_rate": 0.00021185291930495833,
      "loss": 4.0319,
      "step": 176330
    },
    {
      "epoch": 0.367375,
      "grad_norm": 0.785690188407898,
      "learning_rate": 0.00021184393778935447,
      "loss": 3.8487,
      "step": 176340
    },
    {
      "epoch": 0.3673958333333333,
      "grad_norm": 0.8070406317710876,
      "learning_rate": 0.00021183495600660924,
      "loss": 3.9184,
      "step": 176350
    },
    {
      "epoch": 0.36741666666666667,
      "grad_norm": 0.7392933368682861,
      "learning_rate": 0.00021182597395676147,
      "loss": 3.8052,
      "step": 176360
    },
    {
      "epoch": 0.3674375,
      "grad_norm": 0.7510437965393066,
      "learning_rate": 0.00021181699163984997,
      "loss": 3.8703,
      "step": 176370
    },
    {
      "epoch": 0.36745833333333333,
      "grad_norm": 0.7222855091094971,
      "learning_rate": 0.00021180800905591361,
      "loss": 3.8481,
      "step": 176380
    },
    {
      "epoch": 0.3674791666666667,
      "grad_norm": 0.8016020655632019,
      "learning_rate": 0.000211799026204991,
      "loss": 3.8301,
      "step": 176390
    },
    {
      "epoch": 0.3675,
      "grad_norm": 0.7548627853393555,
      "learning_rate": 0.00021179004308712111,
      "loss": 3.7747,
      "step": 176400
    },
    {
      "epoch": 0.36752083333333335,
      "grad_norm": 0.9005002975463867,
      "learning_rate": 0.00021178105970234276,
      "loss": 3.8867,
      "step": 176410
    },
    {
      "epoch": 0.36754166666666666,
      "grad_norm": 0.7328395843505859,
      "learning_rate": 0.0002117720760506946,
      "loss": 3.6291,
      "step": 176420
    },
    {
      "epoch": 0.3675625,
      "grad_norm": 0.900111973285675,
      "learning_rate": 0.00021176309213221552,
      "loss": 3.6881,
      "step": 176430
    },
    {
      "epoch": 0.3675833333333333,
      "grad_norm": 0.7106534242630005,
      "learning_rate": 0.00021175410794694438,
      "loss": 3.8807,
      "step": 176440
    },
    {
      "epoch": 0.3676041666666667,
      "grad_norm": 0.7841580510139465,
      "learning_rate": 0.0002117451234949199,
      "loss": 3.7161,
      "step": 176450
    },
    {
      "epoch": 0.367625,
      "grad_norm": 0.6842843294143677,
      "learning_rate": 0.00021173613877618094,
      "loss": 3.8974,
      "step": 176460
    },
    {
      "epoch": 0.36764583333333334,
      "grad_norm": 0.7331829071044922,
      "learning_rate": 0.00021172715379076632,
      "loss": 3.9032,
      "step": 176470
    },
    {
      "epoch": 0.36766666666666664,
      "grad_norm": 0.9008625149726868,
      "learning_rate": 0.00021171816853871479,
      "loss": 3.9728,
      "step": 176480
    },
    {
      "epoch": 0.3676875,
      "grad_norm": 0.7122818231582642,
      "learning_rate": 0.0002117091830200652,
      "loss": 3.7398,
      "step": 176490
    },
    {
      "epoch": 0.36770833333333336,
      "grad_norm": 0.8841747045516968,
      "learning_rate": 0.0002117001972348564,
      "loss": 3.7045,
      "step": 176500
    },
    {
      "epoch": 0.36772916666666666,
      "grad_norm": 0.7023046016693115,
      "learning_rate": 0.00021169121118312718,
      "loss": 3.9013,
      "step": 176510
    },
    {
      "epoch": 0.36775,
      "grad_norm": 0.8110509514808655,
      "learning_rate": 0.00021168222486491628,
      "loss": 3.899,
      "step": 176520
    },
    {
      "epoch": 0.3677708333333333,
      "grad_norm": 0.7237525582313538,
      "learning_rate": 0.00021167323828026266,
      "loss": 3.7363,
      "step": 176530
    },
    {
      "epoch": 0.3677916666666667,
      "grad_norm": 0.7743939757347107,
      "learning_rate": 0.000211664251429205,
      "loss": 3.8753,
      "step": 176540
    },
    {
      "epoch": 0.3678125,
      "grad_norm": 0.7283889651298523,
      "learning_rate": 0.00021165526431178225,
      "loss": 3.9364,
      "step": 176550
    },
    {
      "epoch": 0.36783333333333335,
      "grad_norm": 0.7271332740783691,
      "learning_rate": 0.00021164627692803306,
      "loss": 3.8275,
      "step": 176560
    },
    {
      "epoch": 0.36785416666666665,
      "grad_norm": 0.8065826296806335,
      "learning_rate": 0.00021163728927799645,
      "loss": 3.86,
      "step": 176570
    },
    {
      "epoch": 0.367875,
      "grad_norm": 0.8089401125907898,
      "learning_rate": 0.00021162830136171114,
      "loss": 3.9481,
      "step": 176580
    },
    {
      "epoch": 0.3678958333333333,
      "grad_norm": 1.036176323890686,
      "learning_rate": 0.0002116193131792159,
      "loss": 3.5827,
      "step": 176590
    },
    {
      "epoch": 0.36791666666666667,
      "grad_norm": 0.7499284148216248,
      "learning_rate": 0.00021161032473054965,
      "loss": 3.8875,
      "step": 176600
    },
    {
      "epoch": 0.3679375,
      "grad_norm": 0.7639920115470886,
      "learning_rate": 0.00021160133601575123,
      "loss": 3.7804,
      "step": 176610
    },
    {
      "epoch": 0.36795833333333333,
      "grad_norm": 0.7495521903038025,
      "learning_rate": 0.00021159234703485938,
      "loss": 3.6622,
      "step": 176620
    },
    {
      "epoch": 0.3679791666666667,
      "grad_norm": 0.746687650680542,
      "learning_rate": 0.00021158335778791298,
      "loss": 3.8867,
      "step": 176630
    },
    {
      "epoch": 0.368,
      "grad_norm": 0.8485696315765381,
      "learning_rate": 0.00021157436827495084,
      "loss": 3.9159,
      "step": 176640
    },
    {
      "epoch": 0.36802083333333335,
      "grad_norm": 0.8373370170593262,
      "learning_rate": 0.0002115653784960118,
      "loss": 3.7395,
      "step": 176650
    },
    {
      "epoch": 0.36804166666666666,
      "grad_norm": 0.6819946765899658,
      "learning_rate": 0.0002115563884511347,
      "loss": 3.9107,
      "step": 176660
    },
    {
      "epoch": 0.3680625,
      "grad_norm": 0.8983847498893738,
      "learning_rate": 0.00021154739814035835,
      "loss": 3.8836,
      "step": 176670
    },
    {
      "epoch": 0.3680833333333333,
      "grad_norm": 0.8446140885353088,
      "learning_rate": 0.00021153840756372162,
      "loss": 3.9648,
      "step": 176680
    },
    {
      "epoch": 0.3681041666666667,
      "grad_norm": 0.8502234220504761,
      "learning_rate": 0.00021152941672126333,
      "loss": 3.8053,
      "step": 176690
    },
    {
      "epoch": 0.368125,
      "grad_norm": 0.778627336025238,
      "learning_rate": 0.0002115204256130223,
      "loss": 3.7605,
      "step": 176700
    },
    {
      "epoch": 0.36814583333333334,
      "grad_norm": 0.7549022436141968,
      "learning_rate": 0.00021151143423903742,
      "loss": 3.9739,
      "step": 176710
    },
    {
      "epoch": 0.36816666666666664,
      "grad_norm": 0.7736579775810242,
      "learning_rate": 0.00021150244259934747,
      "loss": 3.5608,
      "step": 176720
    },
    {
      "epoch": 0.3681875,
      "grad_norm": 0.7389713525772095,
      "learning_rate": 0.00021149345069399129,
      "loss": 3.7932,
      "step": 176730
    },
    {
      "epoch": 0.36820833333333336,
      "grad_norm": 1.0561037063598633,
      "learning_rate": 0.00021148445852300777,
      "loss": 3.9944,
      "step": 176740
    },
    {
      "epoch": 0.36822916666666666,
      "grad_norm": 0.7178621292114258,
      "learning_rate": 0.00021147546608643573,
      "loss": 3.8247,
      "step": 176750
    },
    {
      "epoch": 0.36825,
      "grad_norm": 0.7873221635818481,
      "learning_rate": 0.00021146647338431395,
      "loss": 3.9523,
      "step": 176760
    },
    {
      "epoch": 0.3682708333333333,
      "grad_norm": 0.8219990134239197,
      "learning_rate": 0.00021145748041668142,
      "loss": 3.7294,
      "step": 176770
    },
    {
      "epoch": 0.3682916666666667,
      "grad_norm": 0.7142077088356018,
      "learning_rate": 0.00021144848718357689,
      "loss": 3.7027,
      "step": 176780
    },
    {
      "epoch": 0.3683125,
      "grad_norm": 0.909339427947998,
      "learning_rate": 0.00021143949368503914,
      "loss": 3.7753,
      "step": 176790
    },
    {
      "epoch": 0.36833333333333335,
      "grad_norm": 0.7593896985054016,
      "learning_rate": 0.0002114304999211072,
      "loss": 3.9706,
      "step": 176800
    },
    {
      "epoch": 0.36835416666666665,
      "grad_norm": 0.687825620174408,
      "learning_rate": 0.00021142150589181975,
      "loss": 3.8024,
      "step": 176810
    },
    {
      "epoch": 0.368375,
      "grad_norm": 0.7775341868400574,
      "learning_rate": 0.00021141251159721572,
      "loss": 3.8669,
      "step": 176820
    },
    {
      "epoch": 0.3683958333333333,
      "grad_norm": 0.7176303267478943,
      "learning_rate": 0.00021140351703733394,
      "loss": 3.8809,
      "step": 176830
    },
    {
      "epoch": 0.36841666666666667,
      "grad_norm": 0.7990537285804749,
      "learning_rate": 0.0002113945222122133,
      "loss": 3.8046,
      "step": 176840
    },
    {
      "epoch": 0.3684375,
      "grad_norm": 0.7449598908424377,
      "learning_rate": 0.00021138552712189263,
      "loss": 3.8067,
      "step": 176850
    },
    {
      "epoch": 0.36845833333333333,
      "grad_norm": 0.7341335415840149,
      "learning_rate": 0.00021137653176641073,
      "loss": 3.6979,
      "step": 176860
    },
    {
      "epoch": 0.3684791666666667,
      "grad_norm": 0.717875599861145,
      "learning_rate": 0.00021136753614580655,
      "loss": 3.8649,
      "step": 176870
    },
    {
      "epoch": 0.3685,
      "grad_norm": 0.8975697159767151,
      "learning_rate": 0.00021135854026011887,
      "loss": 4.0177,
      "step": 176880
    },
    {
      "epoch": 0.36852083333333335,
      "grad_norm": 0.7833134531974792,
      "learning_rate": 0.00021134954410938661,
      "loss": 3.7443,
      "step": 176890
    },
    {
      "epoch": 0.36854166666666666,
      "grad_norm": 0.7742405533790588,
      "learning_rate": 0.0002113405476936486,
      "loss": 3.8872,
      "step": 176900
    },
    {
      "epoch": 0.3685625,
      "grad_norm": 0.8764700293540955,
      "learning_rate": 0.00021133155101294373,
      "loss": 3.7515,
      "step": 176910
    },
    {
      "epoch": 0.3685833333333333,
      "grad_norm": 0.9957898855209351,
      "learning_rate": 0.0002113225540673108,
      "loss": 3.8748,
      "step": 176920
    },
    {
      "epoch": 0.3686041666666667,
      "grad_norm": 0.6975538730621338,
      "learning_rate": 0.00021131355685678874,
      "loss": 3.8045,
      "step": 176930
    },
    {
      "epoch": 0.368625,
      "grad_norm": 0.8251401782035828,
      "learning_rate": 0.00021130455938141637,
      "loss": 3.8066,
      "step": 176940
    },
    {
      "epoch": 0.36864583333333334,
      "grad_norm": 0.7284777164459229,
      "learning_rate": 0.00021129556164123253,
      "loss": 3.8885,
      "step": 176950
    },
    {
      "epoch": 0.36866666666666664,
      "grad_norm": 0.7925465106964111,
      "learning_rate": 0.00021128656363627614,
      "loss": 3.7545,
      "step": 176960
    },
    {
      "epoch": 0.3686875,
      "grad_norm": 0.8606317043304443,
      "learning_rate": 0.0002112775653665861,
      "loss": 3.9488,
      "step": 176970
    },
    {
      "epoch": 0.36870833333333336,
      "grad_norm": 0.873894214630127,
      "learning_rate": 0.00021126856683220124,
      "loss": 4.0439,
      "step": 176980
    },
    {
      "epoch": 0.36872916666666666,
      "grad_norm": 0.6350842118263245,
      "learning_rate": 0.00021125956803316032,
      "loss": 3.8247,
      "step": 176990
    },
    {
      "epoch": 0.36875,
      "grad_norm": 0.732252836227417,
      "learning_rate": 0.0002112505689695024,
      "loss": 3.9213,
      "step": 177000
    },
    {
      "epoch": 0.36875,
      "eval_loss": 4.174833297729492,
      "eval_runtime": 8.0286,
      "eval_samples_per_second": 1.246,
      "eval_steps_per_second": 0.374,
      "step": 177000
    },
    {
      "epoch": 0.3687708333333333,
      "grad_norm": 0.812144935131073,
      "learning_rate": 0.00021124156964126626,
      "loss": 3.7556,
      "step": 177010
    },
    {
      "epoch": 0.3687916666666667,
      "grad_norm": 1.1933475732803345,
      "learning_rate": 0.00021123257004849078,
      "loss": 3.8712,
      "step": 177020
    },
    {
      "epoch": 0.3688125,
      "grad_norm": 0.7797101140022278,
      "learning_rate": 0.00021122357019121482,
      "loss": 3.7707,
      "step": 177030
    },
    {
      "epoch": 0.36883333333333335,
      "grad_norm": 0.7571420073509216,
      "learning_rate": 0.0002112145700694773,
      "loss": 3.874,
      "step": 177040
    },
    {
      "epoch": 0.36885416666666665,
      "grad_norm": 0.7739045023918152,
      "learning_rate": 0.00021120556968331702,
      "loss": 3.7666,
      "step": 177050
    },
    {
      "epoch": 0.368875,
      "grad_norm": 1.1813656091690063,
      "learning_rate": 0.00021119656903277292,
      "loss": 3.7841,
      "step": 177060
    },
    {
      "epoch": 0.3688958333333333,
      "grad_norm": 0.880074143409729,
      "learning_rate": 0.0002111875681178839,
      "loss": 3.8342,
      "step": 177070
    },
    {
      "epoch": 0.36891666666666667,
      "grad_norm": 0.8344805240631104,
      "learning_rate": 0.00021117856693868877,
      "loss": 3.774,
      "step": 177080
    },
    {
      "epoch": 0.3689375,
      "grad_norm": 0.7729838490486145,
      "learning_rate": 0.00021116956549522645,
      "loss": 3.8712,
      "step": 177090
    },
    {
      "epoch": 0.36895833333333333,
      "grad_norm": 0.7547234296798706,
      "learning_rate": 0.00021116056378753584,
      "loss": 3.8449,
      "step": 177100
    },
    {
      "epoch": 0.3689791666666667,
      "grad_norm": 0.9719130992889404,
      "learning_rate": 0.00021115156181565582,
      "loss": 3.8575,
      "step": 177110
    },
    {
      "epoch": 0.369,
      "grad_norm": 0.767299234867096,
      "learning_rate": 0.00021114255957962522,
      "loss": 4.0329,
      "step": 177120
    },
    {
      "epoch": 0.36902083333333335,
      "grad_norm": 0.9412045478820801,
      "learning_rate": 0.00021113355707948295,
      "loss": 3.7183,
      "step": 177130
    },
    {
      "epoch": 0.36904166666666666,
      "grad_norm": 0.8243719935417175,
      "learning_rate": 0.00021112455431526796,
      "loss": 3.8477,
      "step": 177140
    },
    {
      "epoch": 0.3690625,
      "grad_norm": 0.8220449686050415,
      "learning_rate": 0.00021111555128701905,
      "loss": 3.8629,
      "step": 177150
    },
    {
      "epoch": 0.3690833333333333,
      "grad_norm": 0.6617626547813416,
      "learning_rate": 0.00021110654799477515,
      "loss": 3.8291,
      "step": 177160
    },
    {
      "epoch": 0.3691041666666667,
      "grad_norm": 0.8663657903671265,
      "learning_rate": 0.00021109754443857518,
      "loss": 3.783,
      "step": 177170
    },
    {
      "epoch": 0.369125,
      "grad_norm": 0.9312291145324707,
      "learning_rate": 0.00021108854061845797,
      "loss": 3.9122,
      "step": 177180
    },
    {
      "epoch": 0.36914583333333334,
      "grad_norm": 0.8353019952774048,
      "learning_rate": 0.00021107953653446248,
      "loss": 3.8397,
      "step": 177190
    },
    {
      "epoch": 0.36916666666666664,
      "grad_norm": 0.8432974815368652,
      "learning_rate": 0.00021107053218662755,
      "loss": 3.7907,
      "step": 177200
    },
    {
      "epoch": 0.3691875,
      "grad_norm": 0.6650378704071045,
      "learning_rate": 0.0002110615275749921,
      "loss": 3.875,
      "step": 177210
    },
    {
      "epoch": 0.36920833333333336,
      "grad_norm": 0.7391588091850281,
      "learning_rate": 0.00021105252269959502,
      "loss": 3.9,
      "step": 177220
    },
    {
      "epoch": 0.36922916666666666,
      "grad_norm": 0.7876847386360168,
      "learning_rate": 0.0002110435175604752,
      "loss": 3.7527,
      "step": 177230
    },
    {
      "epoch": 0.36925,
      "grad_norm": 0.7762985229492188,
      "learning_rate": 0.00021103451215767155,
      "loss": 3.9521,
      "step": 177240
    },
    {
      "epoch": 0.3692708333333333,
      "grad_norm": 0.814048707485199,
      "learning_rate": 0.00021102550649122298,
      "loss": 3.6657,
      "step": 177250
    },
    {
      "epoch": 0.3692916666666667,
      "grad_norm": 0.7522384524345398,
      "learning_rate": 0.00021101650056116835,
      "loss": 3.9098,
      "step": 177260
    },
    {
      "epoch": 0.3693125,
      "grad_norm": 0.8209241628646851,
      "learning_rate": 0.0002110074943675466,
      "loss": 3.7223,
      "step": 177270
    },
    {
      "epoch": 0.36933333333333335,
      "grad_norm": 0.7652930617332458,
      "learning_rate": 0.00021099848791039666,
      "loss": 3.7372,
      "step": 177280
    },
    {
      "epoch": 0.36935416666666665,
      "grad_norm": 0.8148242831230164,
      "learning_rate": 0.00021098948118975733,
      "loss": 3.7563,
      "step": 177290
    },
    {
      "epoch": 0.369375,
      "grad_norm": 0.6885390877723694,
      "learning_rate": 0.0002109804742056676,
      "loss": 3.6868,
      "step": 177300
    },
    {
      "epoch": 0.3693958333333333,
      "grad_norm": 0.7162787318229675,
      "learning_rate": 0.0002109714669581664,
      "loss": 3.8553,
      "step": 177310
    },
    {
      "epoch": 0.36941666666666667,
      "grad_norm": 0.7844197750091553,
      "learning_rate": 0.00021096245944729258,
      "loss": 3.7997,
      "step": 177320
    },
    {
      "epoch": 0.3694375,
      "grad_norm": 0.8513805866241455,
      "learning_rate": 0.00021095345167308503,
      "loss": 3.8334,
      "step": 177330
    },
    {
      "epoch": 0.36945833333333333,
      "grad_norm": 0.7388949990272522,
      "learning_rate": 0.00021094444363558277,
      "loss": 3.8199,
      "step": 177340
    },
    {
      "epoch": 0.3694791666666667,
      "grad_norm": 0.8883571028709412,
      "learning_rate": 0.0002109354353348246,
      "loss": 3.8623,
      "step": 177350
    },
    {
      "epoch": 0.3695,
      "grad_norm": 0.7921071648597717,
      "learning_rate": 0.00021092642677084943,
      "loss": 3.9096,
      "step": 177360
    },
    {
      "epoch": 0.36952083333333335,
      "grad_norm": 0.8107759952545166,
      "learning_rate": 0.00021091741794369625,
      "loss": 3.6706,
      "step": 177370
    },
    {
      "epoch": 0.36954166666666666,
      "grad_norm": 0.9043346047401428,
      "learning_rate": 0.00021090840885340393,
      "loss": 3.9349,
      "step": 177380
    },
    {
      "epoch": 0.3695625,
      "grad_norm": 0.7805797457695007,
      "learning_rate": 0.0002108993995000114,
      "loss": 3.8264,
      "step": 177390
    },
    {
      "epoch": 0.3695833333333333,
      "grad_norm": 1.3039063215255737,
      "learning_rate": 0.00021089038988355758,
      "loss": 3.9422,
      "step": 177400
    },
    {
      "epoch": 0.3696041666666667,
      "grad_norm": 0.7316091060638428,
      "learning_rate": 0.00021088138000408135,
      "loss": 3.884,
      "step": 177410
    },
    {
      "epoch": 0.369625,
      "grad_norm": 0.8235815167427063,
      "learning_rate": 0.00021087236986162166,
      "loss": 3.7631,
      "step": 177420
    },
    {
      "epoch": 0.36964583333333334,
      "grad_norm": 0.9335933923721313,
      "learning_rate": 0.0002108633594562174,
      "loss": 3.6803,
      "step": 177430
    },
    {
      "epoch": 0.36966666666666664,
      "grad_norm": 0.8103799819946289,
      "learning_rate": 0.00021085434878790758,
      "loss": 3.8455,
      "step": 177440
    },
    {
      "epoch": 0.3696875,
      "grad_norm": 0.7161619067192078,
      "learning_rate": 0.00021084533785673107,
      "loss": 3.8984,
      "step": 177450
    },
    {
      "epoch": 0.36970833333333336,
      "grad_norm": 0.7352567315101624,
      "learning_rate": 0.0002108363266627267,
      "loss": 3.8175,
      "step": 177460
    },
    {
      "epoch": 0.36972916666666666,
      "grad_norm": 1.1769179105758667,
      "learning_rate": 0.00021082731520593356,
      "loss": 3.7619,
      "step": 177470
    },
    {
      "epoch": 0.36975,
      "grad_norm": 0.832231879234314,
      "learning_rate": 0.0002108183034863905,
      "loss": 3.7646,
      "step": 177480
    },
    {
      "epoch": 0.3697708333333333,
      "grad_norm": 0.8741198182106018,
      "learning_rate": 0.00021080929150413637,
      "loss": 3.5083,
      "step": 177490
    },
    {
      "epoch": 0.3697916666666667,
      "grad_norm": 0.8437455892562866,
      "learning_rate": 0.00021080027925921024,
      "loss": 3.91,
      "step": 177500
    },
    {
      "epoch": 0.3698125,
      "grad_norm": 0.7460184693336487,
      "learning_rate": 0.00021079126675165093,
      "loss": 3.7352,
      "step": 177510
    },
    {
      "epoch": 0.36983333333333335,
      "grad_norm": 0.8923637270927429,
      "learning_rate": 0.0002107822539814974,
      "loss": 3.7712,
      "step": 177520
    },
    {
      "epoch": 0.36985416666666665,
      "grad_norm": 0.9166281819343567,
      "learning_rate": 0.00021077324094878863,
      "loss": 3.8077,
      "step": 177530
    },
    {
      "epoch": 0.369875,
      "grad_norm": 0.7708879709243774,
      "learning_rate": 0.00021076422765356348,
      "loss": 3.7915,
      "step": 177540
    },
    {
      "epoch": 0.3698958333333333,
      "grad_norm": 0.7525516152381897,
      "learning_rate": 0.00021075521409586096,
      "loss": 3.9499,
      "step": 177550
    },
    {
      "epoch": 0.36991666666666667,
      "grad_norm": 0.6917641162872314,
      "learning_rate": 0.00021074620027571994,
      "loss": 3.6853,
      "step": 177560
    },
    {
      "epoch": 0.3699375,
      "grad_norm": 0.7935017347335815,
      "learning_rate": 0.00021073718619317935,
      "loss": 3.9579,
      "step": 177570
    },
    {
      "epoch": 0.36995833333333333,
      "grad_norm": 0.7726532220840454,
      "learning_rate": 0.00021072817184827818,
      "loss": 3.802,
      "step": 177580
    },
    {
      "epoch": 0.3699791666666667,
      "grad_norm": 0.7169908285140991,
      "learning_rate": 0.00021071915724105535,
      "loss": 3.7482,
      "step": 177590
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.837716817855835,
      "learning_rate": 0.00021071014237154982,
      "loss": 3.868,
      "step": 177600
    },
    {
      "epoch": 0.37002083333333335,
      "grad_norm": 0.8295095562934875,
      "learning_rate": 0.00021070112723980047,
      "loss": 3.8312,
      "step": 177610
    },
    {
      "epoch": 0.37004166666666666,
      "grad_norm": 0.8194606304168701,
      "learning_rate": 0.0002106921118458463,
      "loss": 4.065,
      "step": 177620
    },
    {
      "epoch": 0.3700625,
      "grad_norm": 0.7121061682701111,
      "learning_rate": 0.0002106830961897262,
      "loss": 3.8706,
      "step": 177630
    },
    {
      "epoch": 0.3700833333333333,
      "grad_norm": 0.8252716660499573,
      "learning_rate": 0.00021067408027147916,
      "loss": 3.7618,
      "step": 177640
    },
    {
      "epoch": 0.3701041666666667,
      "grad_norm": 0.7817904353141785,
      "learning_rate": 0.00021066506409114417,
      "loss": 3.8541,
      "step": 177650
    },
    {
      "epoch": 0.370125,
      "grad_norm": 0.8807939291000366,
      "learning_rate": 0.00021065604764876,
      "loss": 3.8575,
      "step": 177660
    },
    {
      "epoch": 0.37014583333333334,
      "grad_norm": 0.740164577960968,
      "learning_rate": 0.0002106470309443658,
      "loss": 3.7122,
      "step": 177670
    },
    {
      "epoch": 0.37016666666666664,
      "grad_norm": 0.7737842798233032,
      "learning_rate": 0.0002106380139780004,
      "loss": 3.7284,
      "step": 177680
    },
    {
      "epoch": 0.3701875,
      "grad_norm": 0.8061385750770569,
      "learning_rate": 0.0002106289967497028,
      "loss": 3.8336,
      "step": 177690
    },
    {
      "epoch": 0.3702083333333333,
      "grad_norm": 0.7719032764434814,
      "learning_rate": 0.0002106199792595119,
      "loss": 3.7917,
      "step": 177700
    },
    {
      "epoch": 0.37022916666666666,
      "grad_norm": 0.8259548544883728,
      "learning_rate": 0.0002106109615074667,
      "loss": 3.8258,
      "step": 177710
    },
    {
      "epoch": 0.37025,
      "grad_norm": 0.8093640804290771,
      "learning_rate": 0.00021060194349360614,
      "loss": 3.7517,
      "step": 177720
    },
    {
      "epoch": 0.3702708333333333,
      "grad_norm": 0.7730896472930908,
      "learning_rate": 0.0002105929252179692,
      "loss": 3.7019,
      "step": 177730
    },
    {
      "epoch": 0.3702916666666667,
      "grad_norm": 0.8671708106994629,
      "learning_rate": 0.00021058390668059475,
      "loss": 3.6984,
      "step": 177740
    },
    {
      "epoch": 0.3703125,
      "grad_norm": 0.6477019786834717,
      "learning_rate": 0.00021057488788152182,
      "loss": 3.8412,
      "step": 177750
    },
    {
      "epoch": 0.37033333333333335,
      "grad_norm": 0.765644907951355,
      "learning_rate": 0.0002105658688207894,
      "loss": 3.69,
      "step": 177760
    },
    {
      "epoch": 0.37035416666666665,
      "grad_norm": 0.7325965166091919,
      "learning_rate": 0.00021055684949843637,
      "loss": 3.7949,
      "step": 177770
    },
    {
      "epoch": 0.370375,
      "grad_norm": 0.6827107667922974,
      "learning_rate": 0.0002105478299145017,
      "loss": 3.7688,
      "step": 177780
    },
    {
      "epoch": 0.3703958333333333,
      "grad_norm": 0.7640544772148132,
      "learning_rate": 0.0002105388100690244,
      "loss": 3.8915,
      "step": 177790
    },
    {
      "epoch": 0.37041666666666667,
      "grad_norm": 0.7029624581336975,
      "learning_rate": 0.0002105297899620434,
      "loss": 3.852,
      "step": 177800
    },
    {
      "epoch": 0.3704375,
      "grad_norm": 0.7345836162567139,
      "learning_rate": 0.00021052076959359768,
      "loss": 3.6986,
      "step": 177810
    },
    {
      "epoch": 0.37045833333333333,
      "grad_norm": 0.8696255683898926,
      "learning_rate": 0.00021051174896372617,
      "loss": 3.8284,
      "step": 177820
    },
    {
      "epoch": 0.3704791666666667,
      "grad_norm": 0.8232707977294922,
      "learning_rate": 0.00021050272807246785,
      "loss": 3.8444,
      "step": 177830
    },
    {
      "epoch": 0.3705,
      "grad_norm": 0.7901656031608582,
      "learning_rate": 0.00021049370691986172,
      "loss": 3.8359,
      "step": 177840
    },
    {
      "epoch": 0.37052083333333335,
      "grad_norm": 1.197434663772583,
      "learning_rate": 0.00021048468550594667,
      "loss": 3.7634,
      "step": 177850
    },
    {
      "epoch": 0.37054166666666666,
      "grad_norm": 0.7932934165000916,
      "learning_rate": 0.00021047566383076174,
      "loss": 3.849,
      "step": 177860
    },
    {
      "epoch": 0.3705625,
      "grad_norm": 0.7261562347412109,
      "learning_rate": 0.0002104666418943459,
      "loss": 4.0008,
      "step": 177870
    },
    {
      "epoch": 0.3705833333333333,
      "grad_norm": 0.7811923027038574,
      "learning_rate": 0.0002104576196967381,
      "loss": 3.8791,
      "step": 177880
    },
    {
      "epoch": 0.3706041666666667,
      "grad_norm": 0.7585251331329346,
      "learning_rate": 0.00021044859723797732,
      "loss": 3.7384,
      "step": 177890
    },
    {
      "epoch": 0.370625,
      "grad_norm": 0.8487197756767273,
      "learning_rate": 0.0002104395745181025,
      "loss": 3.7932,
      "step": 177900
    },
    {
      "epoch": 0.37064583333333334,
      "grad_norm": 0.9886959791183472,
      "learning_rate": 0.00021043055153715268,
      "loss": 3.8603,
      "step": 177910
    },
    {
      "epoch": 0.37066666666666664,
      "grad_norm": 0.7406943440437317,
      "learning_rate": 0.00021042152829516675,
      "loss": 3.6708,
      "step": 177920
    },
    {
      "epoch": 0.3706875,
      "grad_norm": 0.9095242023468018,
      "learning_rate": 0.00021041250479218377,
      "loss": 3.8381,
      "step": 177930
    },
    {
      "epoch": 0.3707083333333333,
      "grad_norm": 0.742088258266449,
      "learning_rate": 0.00021040348102824264,
      "loss": 3.9069,
      "step": 177940
    },
    {
      "epoch": 0.37072916666666667,
      "grad_norm": 0.7089185118675232,
      "learning_rate": 0.00021039445700338246,
      "loss": 3.8247,
      "step": 177950
    },
    {
      "epoch": 0.37075,
      "grad_norm": 0.707535982131958,
      "learning_rate": 0.00021038543271764205,
      "loss": 3.744,
      "step": 177960
    },
    {
      "epoch": 0.3707708333333333,
      "grad_norm": 0.7627074122428894,
      "learning_rate": 0.00021037640817106053,
      "loss": 3.7937,
      "step": 177970
    },
    {
      "epoch": 0.3707916666666667,
      "grad_norm": 0.7172052264213562,
      "learning_rate": 0.0002103673833636768,
      "loss": 3.9656,
      "step": 177980
    },
    {
      "epoch": 0.3708125,
      "grad_norm": 0.7499812245368958,
      "learning_rate": 0.00021035835829552984,
      "loss": 3.9253,
      "step": 177990
    },
    {
      "epoch": 0.37083333333333335,
      "grad_norm": 0.8472590446472168,
      "learning_rate": 0.0002103493329666587,
      "loss": 3.9537,
      "step": 178000
    },
    {
      "epoch": 0.37083333333333335,
      "eval_loss": 4.181757926940918,
      "eval_runtime": 8.0268,
      "eval_samples_per_second": 1.246,
      "eval_steps_per_second": 0.374,
      "step": 178000
    },
    {
      "epoch": 0.37085416666666665,
      "grad_norm": 0.7699434161186218,
      "learning_rate": 0.00021034030737710234,
      "loss": 3.777,
      "step": 178010
    },
    {
      "epoch": 0.370875,
      "grad_norm": 0.7830488681793213,
      "learning_rate": 0.00021033128152689974,
      "loss": 3.9261,
      "step": 178020
    },
    {
      "epoch": 0.3708958333333333,
      "grad_norm": 0.8633097410202026,
      "learning_rate": 0.00021032225541608982,
      "loss": 3.9211,
      "step": 178030
    },
    {
      "epoch": 0.3709166666666667,
      "grad_norm": 0.837221622467041,
      "learning_rate": 0.0002103132290447117,
      "loss": 3.7897,
      "step": 178040
    },
    {
      "epoch": 0.3709375,
      "grad_norm": 0.7527936697006226,
      "learning_rate": 0.0002103042024128043,
      "loss": 3.825,
      "step": 178050
    },
    {
      "epoch": 0.37095833333333333,
      "grad_norm": 0.7540567517280579,
      "learning_rate": 0.00021029517552040658,
      "loss": 4.0767,
      "step": 178060
    },
    {
      "epoch": 0.3709791666666667,
      "grad_norm": 0.7734706401824951,
      "learning_rate": 0.0002102861483675576,
      "loss": 3.8327,
      "step": 178070
    },
    {
      "epoch": 0.371,
      "grad_norm": 0.7146485447883606,
      "learning_rate": 0.0002102771209542963,
      "loss": 3.7294,
      "step": 178080
    },
    {
      "epoch": 0.37102083333333336,
      "grad_norm": 0.793250560760498,
      "learning_rate": 0.00021026809328066168,
      "loss": 3.8729,
      "step": 178090
    },
    {
      "epoch": 0.37104166666666666,
      "grad_norm": 0.9031503200531006,
      "learning_rate": 0.00021025906534669279,
      "loss": 3.9526,
      "step": 178100
    },
    {
      "epoch": 0.3710625,
      "grad_norm": 0.6805474758148193,
      "learning_rate": 0.00021025003715242858,
      "loss": 3.8489,
      "step": 178110
    },
    {
      "epoch": 0.3710833333333333,
      "grad_norm": 0.8251108527183533,
      "learning_rate": 0.00021024100869790807,
      "loss": 3.9489,
      "step": 178120
    },
    {
      "epoch": 0.3711041666666667,
      "grad_norm": 0.67929607629776,
      "learning_rate": 0.0002102319799831702,
      "loss": 3.8056,
      "step": 178130
    },
    {
      "epoch": 0.371125,
      "grad_norm": 0.8899263739585876,
      "learning_rate": 0.00021022295100825403,
      "loss": 3.9962,
      "step": 178140
    },
    {
      "epoch": 0.37114583333333334,
      "grad_norm": 0.7853606939315796,
      "learning_rate": 0.00021021392177319862,
      "loss": 3.8341,
      "step": 178150
    },
    {
      "epoch": 0.37116666666666664,
      "grad_norm": 0.6815971732139587,
      "learning_rate": 0.00021020489227804282,
      "loss": 3.8007,
      "step": 178160
    },
    {
      "epoch": 0.3711875,
      "grad_norm": 0.890034019947052,
      "learning_rate": 0.00021019586252282575,
      "loss": 3.7361,
      "step": 178170
    },
    {
      "epoch": 0.3712083333333333,
      "grad_norm": 0.8085666298866272,
      "learning_rate": 0.00021018683250758642,
      "loss": 3.708,
      "step": 178180
    },
    {
      "epoch": 0.37122916666666667,
      "grad_norm": 0.9084311723709106,
      "learning_rate": 0.00021017780223236374,
      "loss": 3.8434,
      "step": 178190
    },
    {
      "epoch": 0.37125,
      "grad_norm": 0.7419505715370178,
      "learning_rate": 0.00021016877169719676,
      "loss": 3.8853,
      "step": 178200
    },
    {
      "epoch": 0.3712708333333333,
      "grad_norm": 0.7946854829788208,
      "learning_rate": 0.00021015974090212456,
      "loss": 3.6907,
      "step": 178210
    },
    {
      "epoch": 0.3712916666666667,
      "grad_norm": 0.7274298667907715,
      "learning_rate": 0.0002101507098471861,
      "loss": 4.022,
      "step": 178220
    },
    {
      "epoch": 0.3713125,
      "grad_norm": 0.7301917672157288,
      "learning_rate": 0.00021014167853242028,
      "loss": 3.874,
      "step": 178230
    },
    {
      "epoch": 0.37133333333333335,
      "grad_norm": 0.7052403092384338,
      "learning_rate": 0.00021013264695786632,
      "loss": 3.8189,
      "step": 178240
    },
    {
      "epoch": 0.37135416666666665,
      "grad_norm": 0.7264949679374695,
      "learning_rate": 0.00021012361512356308,
      "loss": 3.9421,
      "step": 178250
    },
    {
      "epoch": 0.371375,
      "grad_norm": 0.8785839080810547,
      "learning_rate": 0.00021011458302954965,
      "loss": 4.0051,
      "step": 178260
    },
    {
      "epoch": 0.3713958333333333,
      "grad_norm": 0.6628440618515015,
      "learning_rate": 0.000210105550675865,
      "loss": 3.8159,
      "step": 178270
    },
    {
      "epoch": 0.3714166666666667,
      "grad_norm": 0.7798364162445068,
      "learning_rate": 0.00021009651806254816,
      "loss": 3.9949,
      "step": 178280
    },
    {
      "epoch": 0.3714375,
      "grad_norm": 0.8096057176589966,
      "learning_rate": 0.00021008748518963814,
      "loss": 3.7806,
      "step": 178290
    },
    {
      "epoch": 0.37145833333333333,
      "grad_norm": 0.7641943693161011,
      "learning_rate": 0.00021007845205717396,
      "loss": 3.7818,
      "step": 178300
    },
    {
      "epoch": 0.3714791666666667,
      "grad_norm": 0.7406030893325806,
      "learning_rate": 0.00021006941866519467,
      "loss": 3.7811,
      "step": 178310
    },
    {
      "epoch": 0.3715,
      "grad_norm": 0.8964828252792358,
      "learning_rate": 0.00021006038501373932,
      "loss": 3.804,
      "step": 178320
    },
    {
      "epoch": 0.37152083333333336,
      "grad_norm": 0.6896443963050842,
      "learning_rate": 0.00021005135110284677,
      "loss": 3.7062,
      "step": 178330
    },
    {
      "epoch": 0.37154166666666666,
      "grad_norm": 0.7397447824478149,
      "learning_rate": 0.0002100423169325562,
      "loss": 3.7982,
      "step": 178340
    },
    {
      "epoch": 0.3715625,
      "grad_norm": 0.7325363159179688,
      "learning_rate": 0.00021003328250290666,
      "loss": 3.9708,
      "step": 178350
    },
    {
      "epoch": 0.3715833333333333,
      "grad_norm": 0.7138165235519409,
      "learning_rate": 0.000210024247813937,
      "loss": 3.7947,
      "step": 178360
    },
    {
      "epoch": 0.3716041666666667,
      "grad_norm": 0.753078818321228,
      "learning_rate": 0.00021001521286568637,
      "loss": 3.9135,
      "step": 178370
    },
    {
      "epoch": 0.371625,
      "grad_norm": 0.7321028113365173,
      "learning_rate": 0.00021000617765819384,
      "loss": 3.8671,
      "step": 178380
    },
    {
      "epoch": 0.37164583333333334,
      "grad_norm": 0.7920403480529785,
      "learning_rate": 0.00020999714219149834,
      "loss": 3.9208,
      "step": 178390
    },
    {
      "epoch": 0.37166666666666665,
      "grad_norm": 0.7708569765090942,
      "learning_rate": 0.00020998810646563889,
      "loss": 4.0169,
      "step": 178400
    },
    {
      "epoch": 0.3716875,
      "grad_norm": 0.8011320233345032,
      "learning_rate": 0.0002099790704806546,
      "loss": 3.8471,
      "step": 178410
    },
    {
      "epoch": 0.3717083333333333,
      "grad_norm": 0.8234016299247742,
      "learning_rate": 0.00020997003423658448,
      "loss": 3.8216,
      "step": 178420
    },
    {
      "epoch": 0.37172916666666667,
      "grad_norm": 0.8454583287239075,
      "learning_rate": 0.00020996099773346752,
      "loss": 3.978,
      "step": 178430
    },
    {
      "epoch": 0.37175,
      "grad_norm": 0.9824339747428894,
      "learning_rate": 0.00020995196097134278,
      "loss": 3.8883,
      "step": 178440
    },
    {
      "epoch": 0.37177083333333333,
      "grad_norm": 0.8502426147460938,
      "learning_rate": 0.00020994292395024933,
      "loss": 3.7654,
      "step": 178450
    },
    {
      "epoch": 0.3717916666666667,
      "grad_norm": 0.8743799328804016,
      "learning_rate": 0.00020993388667022616,
      "loss": 3.7161,
      "step": 178460
    },
    {
      "epoch": 0.3718125,
      "grad_norm": 0.9366058707237244,
      "learning_rate": 0.00020992484913131233,
      "loss": 3.9411,
      "step": 178470
    },
    {
      "epoch": 0.37183333333333335,
      "grad_norm": 0.8233741521835327,
      "learning_rate": 0.00020991581133354687,
      "loss": 3.9532,
      "step": 178480
    },
    {
      "epoch": 0.37185416666666665,
      "grad_norm": 0.7409042716026306,
      "learning_rate": 0.00020990677327696882,
      "loss": 3.7986,
      "step": 178490
    },
    {
      "epoch": 0.371875,
      "grad_norm": 0.804029107093811,
      "learning_rate": 0.0002098977349616172,
      "loss": 3.7411,
      "step": 178500
    },
    {
      "epoch": 0.3718958333333333,
      "grad_norm": 0.946056067943573,
      "learning_rate": 0.00020988869638753112,
      "loss": 3.8281,
      "step": 178510
    },
    {
      "epoch": 0.3719166666666667,
      "grad_norm": 0.7597657442092896,
      "learning_rate": 0.00020987965755474956,
      "loss": 3.9693,
      "step": 178520
    },
    {
      "epoch": 0.3719375,
      "grad_norm": 0.7693281173706055,
      "learning_rate": 0.00020987061846331154,
      "loss": 3.9358,
      "step": 178530
    },
    {
      "epoch": 0.37195833333333334,
      "grad_norm": 0.7280880212783813,
      "learning_rate": 0.0002098615791132562,
      "loss": 3.8662,
      "step": 178540
    },
    {
      "epoch": 0.3719791666666667,
      "grad_norm": 0.8084341883659363,
      "learning_rate": 0.00020985253950462252,
      "loss": 3.7535,
      "step": 178550
    },
    {
      "epoch": 0.372,
      "grad_norm": 0.8039785623550415,
      "learning_rate": 0.00020984349963744955,
      "loss": 3.8507,
      "step": 178560
    },
    {
      "epoch": 0.37202083333333336,
      "grad_norm": 0.7598233222961426,
      "learning_rate": 0.00020983445951177636,
      "loss": 3.7944,
      "step": 178570
    },
    {
      "epoch": 0.37204166666666666,
      "grad_norm": 0.8537322878837585,
      "learning_rate": 0.00020982541912764198,
      "loss": 3.9384,
      "step": 178580
    },
    {
      "epoch": 0.3720625,
      "grad_norm": 0.7552649974822998,
      "learning_rate": 0.00020981637848508546,
      "loss": 3.852,
      "step": 178590
    },
    {
      "epoch": 0.3720833333333333,
      "grad_norm": 0.7740214467048645,
      "learning_rate": 0.00020980733758414586,
      "loss": 3.8721,
      "step": 178600
    },
    {
      "epoch": 0.3721041666666667,
      "grad_norm": 0.7992701530456543,
      "learning_rate": 0.00020979829642486228,
      "loss": 3.7544,
      "step": 178610
    },
    {
      "epoch": 0.372125,
      "grad_norm": 0.8125569820404053,
      "learning_rate": 0.00020978925500727367,
      "loss": 3.8718,
      "step": 178620
    },
    {
      "epoch": 0.37214583333333334,
      "grad_norm": 0.7827708125114441,
      "learning_rate": 0.0002097802133314192,
      "loss": 3.775,
      "step": 178630
    },
    {
      "epoch": 0.37216666666666665,
      "grad_norm": 0.79612135887146,
      "learning_rate": 0.00020977117139733782,
      "loss": 3.8741,
      "step": 178640
    },
    {
      "epoch": 0.3721875,
      "grad_norm": 0.8391796946525574,
      "learning_rate": 0.00020976212920506868,
      "loss": 3.9811,
      "step": 178650
    },
    {
      "epoch": 0.3722083333333333,
      "grad_norm": 0.7202799916267395,
      "learning_rate": 0.00020975308675465077,
      "loss": 3.8801,
      "step": 178660
    },
    {
      "epoch": 0.37222916666666667,
      "grad_norm": 0.8126392960548401,
      "learning_rate": 0.00020974404404612318,
      "loss": 3.9624,
      "step": 178670
    },
    {
      "epoch": 0.37225,
      "grad_norm": 0.7509127855300903,
      "learning_rate": 0.000209735001079525,
      "loss": 3.7665,
      "step": 178680
    },
    {
      "epoch": 0.37227083333333333,
      "grad_norm": 0.7169077396392822,
      "learning_rate": 0.00020972595785489524,
      "loss": 3.8887,
      "step": 178690
    },
    {
      "epoch": 0.3722916666666667,
      "grad_norm": 0.7505655288696289,
      "learning_rate": 0.00020971691437227295,
      "loss": 3.8516,
      "step": 178700
    },
    {
      "epoch": 0.3723125,
      "grad_norm": 0.773750901222229,
      "learning_rate": 0.00020970787063169727,
      "loss": 3.7012,
      "step": 178710
    },
    {
      "epoch": 0.37233333333333335,
      "grad_norm": 0.9772403836250305,
      "learning_rate": 0.0002096988266332072,
      "loss": 3.8118,
      "step": 178720
    },
    {
      "epoch": 0.37235416666666665,
      "grad_norm": 1.0124844312667847,
      "learning_rate": 0.00020968978237684185,
      "loss": 3.7827,
      "step": 178730
    },
    {
      "epoch": 0.372375,
      "grad_norm": 0.7634708881378174,
      "learning_rate": 0.00020968073786264025,
      "loss": 3.916,
      "step": 178740
    },
    {
      "epoch": 0.3723958333333333,
      "grad_norm": 0.9860318899154663,
      "learning_rate": 0.0002096716930906415,
      "loss": 3.9151,
      "step": 178750
    },
    {
      "epoch": 0.3724166666666667,
      "grad_norm": 0.8080265522003174,
      "learning_rate": 0.00020966264806088463,
      "loss": 3.762,
      "step": 178760
    },
    {
      "epoch": 0.3724375,
      "grad_norm": 0.7679430246353149,
      "learning_rate": 0.0002096536027734088,
      "loss": 3.8682,
      "step": 178770
    },
    {
      "epoch": 0.37245833333333334,
      "grad_norm": 0.8111410140991211,
      "learning_rate": 0.00020964455722825295,
      "loss": 3.8944,
      "step": 178780
    },
    {
      "epoch": 0.37247916666666664,
      "grad_norm": 0.721007764339447,
      "learning_rate": 0.00020963551142545622,
      "loss": 3.757,
      "step": 178790
    },
    {
      "epoch": 0.3725,
      "grad_norm": 0.7802501916885376,
      "learning_rate": 0.00020962646536505774,
      "loss": 3.9102,
      "step": 178800
    },
    {
      "epoch": 0.37252083333333336,
      "grad_norm": 0.7971340417861938,
      "learning_rate": 0.00020961741904709647,
      "loss": 3.9743,
      "step": 178810
    },
    {
      "epoch": 0.37254166666666666,
      "grad_norm": 0.73151034116745,
      "learning_rate": 0.0002096083724716116,
      "loss": 3.6813,
      "step": 178820
    },
    {
      "epoch": 0.3725625,
      "grad_norm": 0.949103057384491,
      "learning_rate": 0.00020959932563864212,
      "loss": 3.74,
      "step": 178830
    },
    {
      "epoch": 0.3725833333333333,
      "grad_norm": 0.726283848285675,
      "learning_rate": 0.00020959027854822716,
      "loss": 3.8417,
      "step": 178840
    },
    {
      "epoch": 0.3726041666666667,
      "grad_norm": 0.9016027450561523,
      "learning_rate": 0.0002095812312004058,
      "loss": 3.9551,
      "step": 178850
    },
    {
      "epoch": 0.372625,
      "grad_norm": 0.9295608997344971,
      "learning_rate": 0.00020957218359521706,
      "loss": 3.7604,
      "step": 178860
    },
    {
      "epoch": 0.37264583333333334,
      "grad_norm": 0.7768557667732239,
      "learning_rate": 0.0002095631357327001,
      "loss": 3.6821,
      "step": 178870
    },
    {
      "epoch": 0.37266666666666665,
      "grad_norm": 0.8500458598136902,
      "learning_rate": 0.000209554087612894,
      "loss": 3.7271,
      "step": 178880
    },
    {
      "epoch": 0.3726875,
      "grad_norm": 0.6781859397888184,
      "learning_rate": 0.00020954503923583775,
      "loss": 3.7601,
      "step": 178890
    },
    {
      "epoch": 0.3727083333333333,
      "grad_norm": 0.8734440207481384,
      "learning_rate": 0.00020953599060157053,
      "loss": 3.7743,
      "step": 178900
    },
    {
      "epoch": 0.37272916666666667,
      "grad_norm": 0.7474825382232666,
      "learning_rate": 0.0002095269417101314,
      "loss": 3.8301,
      "step": 178910
    },
    {
      "epoch": 0.37275,
      "grad_norm": 1.0776479244232178,
      "learning_rate": 0.00020951789256155946,
      "loss": 4.0801,
      "step": 178920
    },
    {
      "epoch": 0.37277083333333333,
      "grad_norm": 0.7443664073944092,
      "learning_rate": 0.00020950884315589372,
      "loss": 3.7505,
      "step": 178930
    },
    {
      "epoch": 0.3727916666666667,
      "grad_norm": 0.7827825546264648,
      "learning_rate": 0.0002094997934931734,
      "loss": 3.8879,
      "step": 178940
    },
    {
      "epoch": 0.3728125,
      "grad_norm": 0.6879350543022156,
      "learning_rate": 0.00020949074357343752,
      "loss": 3.7766,
      "step": 178950
    },
    {
      "epoch": 0.37283333333333335,
      "grad_norm": 0.9491407871246338,
      "learning_rate": 0.00020948169339672512,
      "loss": 3.9421,
      "step": 178960
    },
    {
      "epoch": 0.37285416666666665,
      "grad_norm": 0.8044938445091248,
      "learning_rate": 0.00020947264296307543,
      "loss": 4.0519,
      "step": 178970
    },
    {
      "epoch": 0.372875,
      "grad_norm": 0.7709895968437195,
      "learning_rate": 0.0002094635922725274,
      "loss": 3.8846,
      "step": 178980
    },
    {
      "epoch": 0.3728958333333333,
      "grad_norm": 0.8668221235275269,
      "learning_rate": 0.0002094545413251202,
      "loss": 3.9466,
      "step": 178990
    },
    {
      "epoch": 0.3729166666666667,
      "grad_norm": 0.7134490609169006,
      "learning_rate": 0.00020944549012089292,
      "loss": 3.8242,
      "step": 179000
    },
    {
      "epoch": 0.3729166666666667,
      "eval_loss": 4.1876220703125,
      "eval_runtime": 8.741,
      "eval_samples_per_second": 1.144,
      "eval_steps_per_second": 0.343,
      "step": 179000
    },
    {
      "epoch": 0.3729375,
      "grad_norm": 0.6982027292251587,
      "learning_rate": 0.00020943643865988467,
      "loss": 3.8942,
      "step": 179010
    },
    {
      "epoch": 0.37295833333333334,
      "grad_norm": 0.7709391713142395,
      "learning_rate": 0.00020942738694213454,
      "loss": 3.7235,
      "step": 179020
    },
    {
      "epoch": 0.37297916666666664,
      "grad_norm": 0.8774149417877197,
      "learning_rate": 0.00020941833496768156,
      "loss": 3.7751,
      "step": 179030
    },
    {
      "epoch": 0.373,
      "grad_norm": 0.8072407841682434,
      "learning_rate": 0.00020940928273656493,
      "loss": 4.0302,
      "step": 179040
    },
    {
      "epoch": 0.37302083333333336,
      "grad_norm": 1.0530108213424683,
      "learning_rate": 0.00020940023024882374,
      "loss": 3.9452,
      "step": 179050
    },
    {
      "epoch": 0.37304166666666666,
      "grad_norm": 0.7497549057006836,
      "learning_rate": 0.00020939117750449704,
      "loss": 3.7086,
      "step": 179060
    },
    {
      "epoch": 0.3730625,
      "grad_norm": 0.7915631532669067,
      "learning_rate": 0.00020938212450362392,
      "loss": 3.834,
      "step": 179070
    },
    {
      "epoch": 0.3730833333333333,
      "grad_norm": 0.8130291104316711,
      "learning_rate": 0.00020937307124624364,
      "loss": 3.7724,
      "step": 179080
    },
    {
      "epoch": 0.3731041666666667,
      "grad_norm": 0.7465516924858093,
      "learning_rate": 0.0002093640177323951,
      "loss": 3.767,
      "step": 179090
    },
    {
      "epoch": 0.373125,
      "grad_norm": 0.6993057131767273,
      "learning_rate": 0.0002093549639621175,
      "loss": 3.8934,
      "step": 179100
    },
    {
      "epoch": 0.37314583333333334,
      "grad_norm": 0.7362962365150452,
      "learning_rate": 0.00020934590993545,
      "loss": 3.8429,
      "step": 179110
    },
    {
      "epoch": 0.37316666666666665,
      "grad_norm": 0.9453835487365723,
      "learning_rate": 0.00020933685565243166,
      "loss": 3.6315,
      "step": 179120
    },
    {
      "epoch": 0.3731875,
      "grad_norm": 0.7908069491386414,
      "learning_rate": 0.00020932780111310154,
      "loss": 3.9828,
      "step": 179130
    },
    {
      "epoch": 0.3732083333333333,
      "grad_norm": 1.0145275592803955,
      "learning_rate": 0.00020931874631749883,
      "loss": 3.8147,
      "step": 179140
    },
    {
      "epoch": 0.37322916666666667,
      "grad_norm": 0.806792140007019,
      "learning_rate": 0.00020930969126566263,
      "loss": 3.8479,
      "step": 179150
    },
    {
      "epoch": 0.37325,
      "grad_norm": 0.9966431260108948,
      "learning_rate": 0.000209300635957632,
      "loss": 3.8094,
      "step": 179160
    },
    {
      "epoch": 0.37327083333333333,
      "grad_norm": 0.883457362651825,
      "learning_rate": 0.00020929158039344613,
      "loss": 4.0051,
      "step": 179170
    },
    {
      "epoch": 0.3732916666666667,
      "grad_norm": 0.7695524096488953,
      "learning_rate": 0.00020928252457314413,
      "loss": 3.9604,
      "step": 179180
    },
    {
      "epoch": 0.3733125,
      "grad_norm": 0.8656646609306335,
      "learning_rate": 0.00020927346849676506,
      "loss": 3.8249,
      "step": 179190
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 0.711838960647583,
      "learning_rate": 0.00020926441216434803,
      "loss": 3.7844,
      "step": 179200
    },
    {
      "epoch": 0.37335416666666665,
      "grad_norm": 0.6953003406524658,
      "learning_rate": 0.0002092553555759322,
      "loss": 3.745,
      "step": 179210
    },
    {
      "epoch": 0.373375,
      "grad_norm": 0.7878190875053406,
      "learning_rate": 0.00020924629873155678,
      "loss": 3.7965,
      "step": 179220
    },
    {
      "epoch": 0.3733958333333333,
      "grad_norm": 0.7970866560935974,
      "learning_rate": 0.0002092372416312607,
      "loss": 3.6572,
      "step": 179230
    },
    {
      "epoch": 0.3734166666666667,
      "grad_norm": 0.631329357624054,
      "learning_rate": 0.0002092281842750832,
      "loss": 3.8048,
      "step": 179240
    },
    {
      "epoch": 0.3734375,
      "grad_norm": 0.7427233457565308,
      "learning_rate": 0.00020921912666306346,
      "loss": 3.8766,
      "step": 179250
    },
    {
      "epoch": 0.37345833333333334,
      "grad_norm": 0.8070897459983826,
      "learning_rate": 0.00020921006879524048,
      "loss": 3.7681,
      "step": 179260
    },
    {
      "epoch": 0.37347916666666664,
      "grad_norm": 0.7586351037025452,
      "learning_rate": 0.00020920101067165343,
      "loss": 3.8315,
      "step": 179270
    },
    {
      "epoch": 0.3735,
      "grad_norm": 0.783698320388794,
      "learning_rate": 0.00020919195229234146,
      "loss": 3.8971,
      "step": 179280
    },
    {
      "epoch": 0.37352083333333336,
      "grad_norm": 0.8579190969467163,
      "learning_rate": 0.00020918289365734369,
      "loss": 3.8175,
      "step": 179290
    },
    {
      "epoch": 0.37354166666666666,
      "grad_norm": 0.9310868978500366,
      "learning_rate": 0.00020917383476669926,
      "loss": 3.862,
      "step": 179300
    },
    {
      "epoch": 0.3735625,
      "grad_norm": 0.8350910544395447,
      "learning_rate": 0.00020916477562044725,
      "loss": 3.8413,
      "step": 179310
    },
    {
      "epoch": 0.3735833333333333,
      "grad_norm": 0.9301751852035522,
      "learning_rate": 0.00020915571621862684,
      "loss": 3.7625,
      "step": 179320
    },
    {
      "epoch": 0.3736041666666667,
      "grad_norm": 0.7105609178543091,
      "learning_rate": 0.0002091466565612772,
      "loss": 4.0061,
      "step": 179330
    },
    {
      "epoch": 0.373625,
      "grad_norm": 1.1968896389007568,
      "learning_rate": 0.00020913759664843734,
      "loss": 3.937,
      "step": 179340
    },
    {
      "epoch": 0.37364583333333334,
      "grad_norm": 0.7611972093582153,
      "learning_rate": 0.0002091285364801465,
      "loss": 3.8606,
      "step": 179350
    },
    {
      "epoch": 0.37366666666666665,
      "grad_norm": 0.972202718257904,
      "learning_rate": 0.0002091194760564438,
      "loss": 3.6836,
      "step": 179360
    },
    {
      "epoch": 0.3736875,
      "grad_norm": 0.791641891002655,
      "learning_rate": 0.00020911041537736833,
      "loss": 3.8678,
      "step": 179370
    },
    {
      "epoch": 0.3737083333333333,
      "grad_norm": 0.800563633441925,
      "learning_rate": 0.00020910135444295933,
      "loss": 3.6709,
      "step": 179380
    },
    {
      "epoch": 0.37372916666666667,
      "grad_norm": 0.7404117584228516,
      "learning_rate": 0.00020909229325325582,
      "loss": 3.9135,
      "step": 179390
    },
    {
      "epoch": 0.37375,
      "grad_norm": 1.0371443033218384,
      "learning_rate": 0.00020908323180829697,
      "loss": 3.6853,
      "step": 179400
    },
    {
      "epoch": 0.37377083333333333,
      "grad_norm": 0.7564402222633362,
      "learning_rate": 0.00020907417010812202,
      "loss": 3.782,
      "step": 179410
    },
    {
      "epoch": 0.3737916666666667,
      "grad_norm": 0.8411672711372375,
      "learning_rate": 0.00020906510815277,
      "loss": 3.9128,
      "step": 179420
    },
    {
      "epoch": 0.3738125,
      "grad_norm": 0.8820155262947083,
      "learning_rate": 0.00020905604594228006,
      "loss": 3.7321,
      "step": 179430
    },
    {
      "epoch": 0.37383333333333335,
      "grad_norm": 0.824981153011322,
      "learning_rate": 0.00020904698347669147,
      "loss": 3.6903,
      "step": 179440
    },
    {
      "epoch": 0.37385416666666665,
      "grad_norm": 0.7665685415267944,
      "learning_rate": 0.00020903792075604319,
      "loss": 3.838,
      "step": 179450
    },
    {
      "epoch": 0.373875,
      "grad_norm": 0.7367293834686279,
      "learning_rate": 0.0002090288577803745,
      "loss": 3.8502,
      "step": 179460
    },
    {
      "epoch": 0.3738958333333333,
      "grad_norm": 0.7366974949836731,
      "learning_rate": 0.00020901979454972453,
      "loss": 3.8012,
      "step": 179470
    },
    {
      "epoch": 0.3739166666666667,
      "grad_norm": 0.7602888941764832,
      "learning_rate": 0.0002090107310641324,
      "loss": 3.7155,
      "step": 179480
    },
    {
      "epoch": 0.3739375,
      "grad_norm": 0.7038059234619141,
      "learning_rate": 0.0002090016673236372,
      "loss": 3.8109,
      "step": 179490
    },
    {
      "epoch": 0.37395833333333334,
      "grad_norm": 0.7679297924041748,
      "learning_rate": 0.00020899260332827823,
      "loss": 3.8361,
      "step": 179500
    },
    {
      "epoch": 0.37397916666666664,
      "grad_norm": 0.8298097252845764,
      "learning_rate": 0.00020898353907809454,
      "loss": 3.8691,
      "step": 179510
    },
    {
      "epoch": 0.374,
      "grad_norm": 0.9080594778060913,
      "learning_rate": 0.0002089744745731253,
      "loss": 3.8275,
      "step": 179520
    },
    {
      "epoch": 0.37402083333333336,
      "grad_norm": 0.9292985200881958,
      "learning_rate": 0.00020896540981340966,
      "loss": 3.9625,
      "step": 179530
    },
    {
      "epoch": 0.37404166666666666,
      "grad_norm": 0.7287876009941101,
      "learning_rate": 0.00020895634479898683,
      "loss": 3.807,
      "step": 179540
    },
    {
      "epoch": 0.3740625,
      "grad_norm": 0.7670049071311951,
      "learning_rate": 0.00020894727952989588,
      "loss": 3.8923,
      "step": 179550
    },
    {
      "epoch": 0.3740833333333333,
      "grad_norm": 0.7576948404312134,
      "learning_rate": 0.00020893821400617607,
      "loss": 3.744,
      "step": 179560
    },
    {
      "epoch": 0.3741041666666667,
      "grad_norm": 0.6777300238609314,
      "learning_rate": 0.00020892914822786646,
      "loss": 3.8079,
      "step": 179570
    },
    {
      "epoch": 0.374125,
      "grad_norm": 0.671696126461029,
      "learning_rate": 0.00020892008219500628,
      "loss": 3.8091,
      "step": 179580
    },
    {
      "epoch": 0.37414583333333334,
      "grad_norm": 0.7141628861427307,
      "learning_rate": 0.0002089110159076347,
      "loss": 3.7477,
      "step": 179590
    },
    {
      "epoch": 0.37416666666666665,
      "grad_norm": 0.8005037903785706,
      "learning_rate": 0.00020890194936579079,
      "loss": 3.9204,
      "step": 179600
    },
    {
      "epoch": 0.3741875,
      "grad_norm": 0.7911810278892517,
      "learning_rate": 0.0002088928825695138,
      "loss": 4.0076,
      "step": 179610
    },
    {
      "epoch": 0.3742083333333333,
      "grad_norm": 0.7709813117980957,
      "learning_rate": 0.00020888381551884287,
      "loss": 3.6739,
      "step": 179620
    },
    {
      "epoch": 0.37422916666666667,
      "grad_norm": 0.7649961709976196,
      "learning_rate": 0.00020887474821381716,
      "loss": 3.7954,
      "step": 179630
    },
    {
      "epoch": 0.37425,
      "grad_norm": 0.82478266954422,
      "learning_rate": 0.00020886568065447584,
      "loss": 3.7283,
      "step": 179640
    },
    {
      "epoch": 0.37427083333333333,
      "grad_norm": 0.7694478034973145,
      "learning_rate": 0.00020885661284085805,
      "loss": 3.8925,
      "step": 179650
    },
    {
      "epoch": 0.3742916666666667,
      "grad_norm": 0.733159601688385,
      "learning_rate": 0.00020884754477300306,
      "loss": 3.9531,
      "step": 179660
    },
    {
      "epoch": 0.3743125,
      "grad_norm": 0.7849826216697693,
      "learning_rate": 0.0002088384764509499,
      "loss": 3.8351,
      "step": 179670
    },
    {
      "epoch": 0.37433333333333335,
      "grad_norm": 0.7232950925827026,
      "learning_rate": 0.00020882940787473784,
      "loss": 3.956,
      "step": 179680
    },
    {
      "epoch": 0.37435416666666665,
      "grad_norm": 0.7121856808662415,
      "learning_rate": 0.00020882033904440602,
      "loss": 3.6386,
      "step": 179690
    },
    {
      "epoch": 0.374375,
      "grad_norm": 0.8479453921318054,
      "learning_rate": 0.00020881126995999364,
      "loss": 3.6916,
      "step": 179700
    },
    {
      "epoch": 0.3743958333333333,
      "grad_norm": 0.7220067977905273,
      "learning_rate": 0.00020880220062153982,
      "loss": 3.7897,
      "step": 179710
    },
    {
      "epoch": 0.3744166666666667,
      "grad_norm": 0.7103672623634338,
      "learning_rate": 0.00020879313102908383,
      "loss": 3.6072,
      "step": 179720
    },
    {
      "epoch": 0.3744375,
      "grad_norm": 0.787534773349762,
      "learning_rate": 0.0002087840611826647,
      "loss": 3.6656,
      "step": 179730
    },
    {
      "epoch": 0.37445833333333334,
      "grad_norm": 0.8636224865913391,
      "learning_rate": 0.00020877499108232174,
      "loss": 3.8019,
      "step": 179740
    },
    {
      "epoch": 0.37447916666666664,
      "grad_norm": 0.851495623588562,
      "learning_rate": 0.0002087659207280941,
      "loss": 3.7731,
      "step": 179750
    },
    {
      "epoch": 0.3745,
      "grad_norm": 0.9000346660614014,
      "learning_rate": 0.00020875685012002092,
      "loss": 3.7314,
      "step": 179760
    },
    {
      "epoch": 0.37452083333333336,
      "grad_norm": 0.6886581778526306,
      "learning_rate": 0.00020874777925814137,
      "loss": 3.8208,
      "step": 179770
    },
    {
      "epoch": 0.37454166666666666,
      "grad_norm": 0.7778189182281494,
      "learning_rate": 0.00020873870814249474,
      "loss": 3.9489,
      "step": 179780
    },
    {
      "epoch": 0.3745625,
      "grad_norm": 0.7415038347244263,
      "learning_rate": 0.0002087296367731201,
      "loss": 3.8234,
      "step": 179790
    },
    {
      "epoch": 0.3745833333333333,
      "grad_norm": 0.9016904234886169,
      "learning_rate": 0.00020872056515005666,
      "loss": 3.8361,
      "step": 179800
    },
    {
      "epoch": 0.3746041666666667,
      "grad_norm": 0.8301655650138855,
      "learning_rate": 0.00020871149327334368,
      "loss": 3.8271,
      "step": 179810
    },
    {
      "epoch": 0.374625,
      "grad_norm": 0.6894614696502686,
      "learning_rate": 0.00020870242114302026,
      "loss": 3.8106,
      "step": 179820
    },
    {
      "epoch": 0.37464583333333334,
      "grad_norm": 0.7283194661140442,
      "learning_rate": 0.00020869334875912559,
      "loss": 3.8566,
      "step": 179830
    },
    {
      "epoch": 0.37466666666666665,
      "grad_norm": 0.8069167733192444,
      "learning_rate": 0.0002086842761216989,
      "loss": 3.8934,
      "step": 179840
    },
    {
      "epoch": 0.3746875,
      "grad_norm": 0.6714498996734619,
      "learning_rate": 0.0002086752032307794,
      "loss": 3.8253,
      "step": 179850
    },
    {
      "epoch": 0.3747083333333333,
      "grad_norm": 0.8616280555725098,
      "learning_rate": 0.0002086661300864062,
      "loss": 3.81,
      "step": 179860
    },
    {
      "epoch": 0.37472916666666667,
      "grad_norm": 0.7584635615348816,
      "learning_rate": 0.00020865705668861857,
      "loss": 3.8529,
      "step": 179870
    },
    {
      "epoch": 0.37475,
      "grad_norm": 0.8628817796707153,
      "learning_rate": 0.00020864798303745565,
      "loss": 3.6907,
      "step": 179880
    },
    {
      "epoch": 0.37477083333333333,
      "grad_norm": 0.9130212664604187,
      "learning_rate": 0.0002086389091329567,
      "loss": 3.9846,
      "step": 179890
    },
    {
      "epoch": 0.3747916666666667,
      "grad_norm": 0.7911422848701477,
      "learning_rate": 0.0002086298349751608,
      "loss": 3.7207,
      "step": 179900
    },
    {
      "epoch": 0.3748125,
      "grad_norm": 0.8992301225662231,
      "learning_rate": 0.00020862076056410724,
      "loss": 3.7544,
      "step": 179910
    },
    {
      "epoch": 0.37483333333333335,
      "grad_norm": 0.7806773781776428,
      "learning_rate": 0.00020861168589983526,
      "loss": 3.7276,
      "step": 179920
    },
    {
      "epoch": 0.37485416666666665,
      "grad_norm": 1.0133881568908691,
      "learning_rate": 0.00020860261098238397,
      "loss": 3.8809,
      "step": 179930
    },
    {
      "epoch": 0.374875,
      "grad_norm": 0.7721835374832153,
      "learning_rate": 0.00020859353581179256,
      "loss": 3.7192,
      "step": 179940
    },
    {
      "epoch": 0.3748958333333333,
      "grad_norm": 0.7355777025222778,
      "learning_rate": 0.00020858446038810033,
      "loss": 3.7886,
      "step": 179950
    },
    {
      "epoch": 0.3749166666666667,
      "grad_norm": 0.958256721496582,
      "learning_rate": 0.00020857538471134637,
      "loss": 3.7465,
      "step": 179960
    },
    {
      "epoch": 0.3749375,
      "grad_norm": 0.7582343816757202,
      "learning_rate": 0.0002085663087815699,
      "loss": 3.9543,
      "step": 179970
    },
    {
      "epoch": 0.37495833333333334,
      "grad_norm": 0.7740710377693176,
      "learning_rate": 0.00020855723259881025,
      "loss": 3.8757,
      "step": 179980
    },
    {
      "epoch": 0.37497916666666664,
      "grad_norm": 0.6955440044403076,
      "learning_rate": 0.0002085481561631065,
      "loss": 3.898,
      "step": 179990
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.8019235730171204,
      "learning_rate": 0.00020853907947449788,
      "loss": 3.8014,
      "step": 180000
    },
    {
      "epoch": 0.375,
      "eval_loss": 4.179741859436035,
      "eval_runtime": 8.5128,
      "eval_samples_per_second": 1.175,
      "eval_steps_per_second": 0.352,
      "step": 180000
    },
    {
      "epoch": 0.37502083333333336,
      "grad_norm": 0.7622490525245667,
      "learning_rate": 0.00020853000253302358,
      "loss": 3.8378,
      "step": 180010
    },
    {
      "epoch": 0.37504166666666666,
      "grad_norm": 0.9057241678237915,
      "learning_rate": 0.00020852092533872287,
      "loss": 3.7052,
      "step": 180020
    },
    {
      "epoch": 0.3750625,
      "grad_norm": 0.745296061038971,
      "learning_rate": 0.0002085118478916349,
      "loss": 3.8437,
      "step": 180030
    },
    {
      "epoch": 0.3750833333333333,
      "grad_norm": 0.7688567638397217,
      "learning_rate": 0.00020850277019179896,
      "loss": 3.8906,
      "step": 180040
    },
    {
      "epoch": 0.3751041666666667,
      "grad_norm": 0.7634955644607544,
      "learning_rate": 0.00020849369223925417,
      "loss": 3.7692,
      "step": 180050
    },
    {
      "epoch": 0.375125,
      "grad_norm": 0.8001748323440552,
      "learning_rate": 0.0002084846140340398,
      "loss": 3.7651,
      "step": 180060
    },
    {
      "epoch": 0.37514583333333335,
      "grad_norm": 0.8692912459373474,
      "learning_rate": 0.00020847553557619503,
      "loss": 3.766,
      "step": 180070
    },
    {
      "epoch": 0.37516666666666665,
      "grad_norm": 0.7712395191192627,
      "learning_rate": 0.0002084664568657591,
      "loss": 3.7354,
      "step": 180080
    },
    {
      "epoch": 0.3751875,
      "grad_norm": 0.9361436367034912,
      "learning_rate": 0.00020845737790277125,
      "loss": 3.9645,
      "step": 180090
    },
    {
      "epoch": 0.3752083333333333,
      "grad_norm": 0.7469715476036072,
      "learning_rate": 0.0002084482986872706,
      "loss": 3.8556,
      "step": 180100
    },
    {
      "epoch": 0.37522916666666667,
      "grad_norm": 0.8351355791091919,
      "learning_rate": 0.00020843921921929646,
      "loss": 3.7768,
      "step": 180110
    },
    {
      "epoch": 0.37525,
      "grad_norm": 0.7129788994789124,
      "learning_rate": 0.0002084301394988881,
      "loss": 3.9266,
      "step": 180120
    },
    {
      "epoch": 0.37527083333333333,
      "grad_norm": 0.7620391249656677,
      "learning_rate": 0.00020842105952608458,
      "loss": 3.8422,
      "step": 180130
    },
    {
      "epoch": 0.3752916666666667,
      "grad_norm": 0.7216712832450867,
      "learning_rate": 0.0002084119793009252,
      "loss": 3.8259,
      "step": 180140
    },
    {
      "epoch": 0.3753125,
      "grad_norm": 0.7941249012947083,
      "learning_rate": 0.00020840289882344924,
      "loss": 3.8899,
      "step": 180150
    },
    {
      "epoch": 0.37533333333333335,
      "grad_norm": 0.9511623382568359,
      "learning_rate": 0.00020839381809369586,
      "loss": 3.8732,
      "step": 180160
    },
    {
      "epoch": 0.37535416666666666,
      "grad_norm": 0.7787486910820007,
      "learning_rate": 0.0002083847371117043,
      "loss": 3.9268,
      "step": 180170
    },
    {
      "epoch": 0.375375,
      "grad_norm": 0.7421407699584961,
      "learning_rate": 0.00020837565587751377,
      "loss": 3.79,
      "step": 180180
    },
    {
      "epoch": 0.3753958333333333,
      "grad_norm": 0.8541772365570068,
      "learning_rate": 0.00020836657439116352,
      "loss": 3.7209,
      "step": 180190
    },
    {
      "epoch": 0.3754166666666667,
      "grad_norm": 0.829007089138031,
      "learning_rate": 0.00020835749265269278,
      "loss": 4.1347,
      "step": 180200
    },
    {
      "epoch": 0.3754375,
      "grad_norm": 0.9638078212738037,
      "learning_rate": 0.00020834841066214076,
      "loss": 3.9674,
      "step": 180210
    },
    {
      "epoch": 0.37545833333333334,
      "grad_norm": 1.0311522483825684,
      "learning_rate": 0.0002083393284195467,
      "loss": 3.9258,
      "step": 180220
    },
    {
      "epoch": 0.37547916666666664,
      "grad_norm": 0.917331874370575,
      "learning_rate": 0.00020833024592494984,
      "loss": 3.8992,
      "step": 180230
    },
    {
      "epoch": 0.3755,
      "grad_norm": 0.7416438460350037,
      "learning_rate": 0.00020832116317838942,
      "loss": 3.9449,
      "step": 180240
    },
    {
      "epoch": 0.37552083333333336,
      "grad_norm": 0.8624255061149597,
      "learning_rate": 0.00020831208017990465,
      "loss": 3.8083,
      "step": 180250
    },
    {
      "epoch": 0.37554166666666666,
      "grad_norm": 0.8007797002792358,
      "learning_rate": 0.0002083029969295348,
      "loss": 3.9073,
      "step": 180260
    },
    {
      "epoch": 0.3755625,
      "grad_norm": 0.6847490072250366,
      "learning_rate": 0.00020829391342731902,
      "loss": 3.7037,
      "step": 180270
    },
    {
      "epoch": 0.3755833333333333,
      "grad_norm": 0.6570702791213989,
      "learning_rate": 0.00020828482967329666,
      "loss": 3.6312,
      "step": 180280
    },
    {
      "epoch": 0.3756041666666667,
      "grad_norm": 0.6391846537590027,
      "learning_rate": 0.0002082757456675069,
      "loss": 3.962,
      "step": 180290
    },
    {
      "epoch": 0.375625,
      "grad_norm": 0.7703534960746765,
      "learning_rate": 0.00020826666140998895,
      "loss": 3.8658,
      "step": 180300
    },
    {
      "epoch": 0.37564583333333335,
      "grad_norm": 0.8234429955482483,
      "learning_rate": 0.00020825757690078216,
      "loss": 3.8681,
      "step": 180310
    },
    {
      "epoch": 0.37566666666666665,
      "grad_norm": 0.7332013249397278,
      "learning_rate": 0.00020824849213992562,
      "loss": 3.7333,
      "step": 180320
    },
    {
      "epoch": 0.3756875,
      "grad_norm": 0.7141061425209045,
      "learning_rate": 0.0002082394071274587,
      "loss": 3.9311,
      "step": 180330
    },
    {
      "epoch": 0.3757083333333333,
      "grad_norm": 0.7232130765914917,
      "learning_rate": 0.00020823032186342055,
      "loss": 3.7961,
      "step": 180340
    },
    {
      "epoch": 0.37572916666666667,
      "grad_norm": 0.8064523935317993,
      "learning_rate": 0.0002082212363478505,
      "loss": 3.9062,
      "step": 180350
    },
    {
      "epoch": 0.37575,
      "grad_norm": 0.6716240048408508,
      "learning_rate": 0.0002082121505807877,
      "loss": 3.8763,
      "step": 180360
    },
    {
      "epoch": 0.37577083333333333,
      "grad_norm": 0.9423217177391052,
      "learning_rate": 0.0002082030645622715,
      "loss": 3.7749,
      "step": 180370
    },
    {
      "epoch": 0.3757916666666667,
      "grad_norm": 0.926662027835846,
      "learning_rate": 0.00020819397829234112,
      "loss": 3.9716,
      "step": 180380
    },
    {
      "epoch": 0.3758125,
      "grad_norm": 0.7498221397399902,
      "learning_rate": 0.00020818489177103574,
      "loss": 3.6863,
      "step": 180390
    },
    {
      "epoch": 0.37583333333333335,
      "grad_norm": 0.8893048167228699,
      "learning_rate": 0.0002081758049983947,
      "loss": 3.8722,
      "step": 180400
    },
    {
      "epoch": 0.37585416666666666,
      "grad_norm": 0.7964014410972595,
      "learning_rate": 0.00020816671797445718,
      "loss": 3.9045,
      "step": 180410
    },
    {
      "epoch": 0.375875,
      "grad_norm": 0.6888276934623718,
      "learning_rate": 0.00020815763069926242,
      "loss": 3.6569,
      "step": 180420
    },
    {
      "epoch": 0.3758958333333333,
      "grad_norm": 0.9400186538696289,
      "learning_rate": 0.00020814854317284978,
      "loss": 3.9497,
      "step": 180430
    },
    {
      "epoch": 0.3759166666666667,
      "grad_norm": 0.7543045282363892,
      "learning_rate": 0.00020813945539525843,
      "loss": 3.7479,
      "step": 180440
    },
    {
      "epoch": 0.3759375,
      "grad_norm": 0.8771215081214905,
      "learning_rate": 0.00020813036736652772,
      "loss": 3.6864,
      "step": 180450
    },
    {
      "epoch": 0.37595833333333334,
      "grad_norm": 0.7477460503578186,
      "learning_rate": 0.00020812127908669673,
      "loss": 3.7973,
      "step": 180460
    },
    {
      "epoch": 0.37597916666666664,
      "grad_norm": 0.9111063480377197,
      "learning_rate": 0.00020811219055580482,
      "loss": 3.9823,
      "step": 180470
    },
    {
      "epoch": 0.376,
      "grad_norm": 0.8182165026664734,
      "learning_rate": 0.0002081031017738913,
      "loss": 3.8342,
      "step": 180480
    },
    {
      "epoch": 0.37602083333333336,
      "grad_norm": 0.9056434631347656,
      "learning_rate": 0.00020809401274099536,
      "loss": 3.787,
      "step": 180490
    },
    {
      "epoch": 0.37604166666666666,
      "grad_norm": 0.6423630118370056,
      "learning_rate": 0.00020808492345715624,
      "loss": 3.8175,
      "step": 180500
    },
    {
      "epoch": 0.3760625,
      "grad_norm": 0.9457656741142273,
      "learning_rate": 0.00020807583392241333,
      "loss": 3.7154,
      "step": 180510
    },
    {
      "epoch": 0.3760833333333333,
      "grad_norm": 0.7493026852607727,
      "learning_rate": 0.00020806674413680577,
      "loss": 3.7706,
      "step": 180520
    },
    {
      "epoch": 0.3761041666666667,
      "grad_norm": 0.8003975749015808,
      "learning_rate": 0.00020805765410037284,
      "loss": 4.037,
      "step": 180530
    },
    {
      "epoch": 0.376125,
      "grad_norm": 0.7725988030433655,
      "learning_rate": 0.00020804856381315384,
      "loss": 3.7975,
      "step": 180540
    },
    {
      "epoch": 0.37614583333333335,
      "grad_norm": 0.7190375328063965,
      "learning_rate": 0.000208039473275188,
      "loss": 3.7264,
      "step": 180550
    },
    {
      "epoch": 0.37616666666666665,
      "grad_norm": 0.862626314163208,
      "learning_rate": 0.00020803038248651465,
      "loss": 3.8002,
      "step": 180560
    },
    {
      "epoch": 0.3761875,
      "grad_norm": 0.8708900213241577,
      "learning_rate": 0.000208021291447173,
      "loss": 3.811,
      "step": 180570
    },
    {
      "epoch": 0.3762083333333333,
      "grad_norm": 0.7179471254348755,
      "learning_rate": 0.00020801220015720227,
      "loss": 3.8508,
      "step": 180580
    },
    {
      "epoch": 0.37622916666666667,
      "grad_norm": 0.7084907293319702,
      "learning_rate": 0.00020800310861664192,
      "loss": 3.8218,
      "step": 180590
    },
    {
      "epoch": 0.37625,
      "grad_norm": 0.8567061424255371,
      "learning_rate": 0.000207994016825531,
      "loss": 3.8428,
      "step": 180600
    },
    {
      "epoch": 0.37627083333333333,
      "grad_norm": 0.7512924671173096,
      "learning_rate": 0.00020798492478390894,
      "loss": 3.9525,
      "step": 180610
    },
    {
      "epoch": 0.3762916666666667,
      "grad_norm": 0.9754362106323242,
      "learning_rate": 0.00020797583249181493,
      "loss": 3.896,
      "step": 180620
    },
    {
      "epoch": 0.3763125,
      "grad_norm": 0.8720564842224121,
      "learning_rate": 0.0002079667399492883,
      "loss": 3.8501,
      "step": 180630
    },
    {
      "epoch": 0.37633333333333335,
      "grad_norm": 0.8006268739700317,
      "learning_rate": 0.00020795764715636822,
      "loss": 3.8356,
      "step": 180640
    },
    {
      "epoch": 0.37635416666666666,
      "grad_norm": 0.7786065340042114,
      "learning_rate": 0.00020794855411309415,
      "loss": 3.7859,
      "step": 180650
    },
    {
      "epoch": 0.376375,
      "grad_norm": 0.6978031396865845,
      "learning_rate": 0.0002079394608195052,
      "loss": 3.7753,
      "step": 180660
    },
    {
      "epoch": 0.3763958333333333,
      "grad_norm": 0.7777698636054993,
      "learning_rate": 0.00020793036727564072,
      "loss": 3.9145,
      "step": 180670
    },
    {
      "epoch": 0.3764166666666667,
      "grad_norm": 0.7304561734199524,
      "learning_rate": 0.00020792127348154003,
      "loss": 3.8407,
      "step": 180680
    },
    {
      "epoch": 0.3764375,
      "grad_norm": 0.6875367760658264,
      "learning_rate": 0.0002079121794372423,
      "loss": 3.8699,
      "step": 180690
    },
    {
      "epoch": 0.37645833333333334,
      "grad_norm": 0.8123522996902466,
      "learning_rate": 0.00020790308514278695,
      "loss": 3.8142,
      "step": 180700
    },
    {
      "epoch": 0.37647916666666664,
      "grad_norm": 0.8032293915748596,
      "learning_rate": 0.00020789399059821314,
      "loss": 3.7135,
      "step": 180710
    },
    {
      "epoch": 0.3765,
      "grad_norm": 1.0670961141586304,
      "learning_rate": 0.00020788489580356019,
      "loss": 3.7829,
      "step": 180720
    },
    {
      "epoch": 0.37652083333333336,
      "grad_norm": 0.834202229976654,
      "learning_rate": 0.00020787580075886744,
      "loss": 3.9257,
      "step": 180730
    },
    {
      "epoch": 0.37654166666666666,
      "grad_norm": 0.7425665259361267,
      "learning_rate": 0.00020786670546417413,
      "loss": 3.7276,
      "step": 180740
    },
    {
      "epoch": 0.3765625,
      "grad_norm": 1.0901753902435303,
      "learning_rate": 0.00020785760991951955,
      "loss": 3.9244,
      "step": 180750
    },
    {
      "epoch": 0.3765833333333333,
      "grad_norm": 0.7829487919807434,
      "learning_rate": 0.00020784851412494304,
      "loss": 3.682,
      "step": 180760
    },
    {
      "epoch": 0.3766041666666667,
      "grad_norm": 0.7591384649276733,
      "learning_rate": 0.00020783941808048375,
      "loss": 3.678,
      "step": 180770
    },
    {
      "epoch": 0.376625,
      "grad_norm": 0.7501577138900757,
      "learning_rate": 0.00020783032178618114,
      "loss": 3.9478,
      "step": 180780
    },
    {
      "epoch": 0.37664583333333335,
      "grad_norm": 0.8828344345092773,
      "learning_rate": 0.00020782122524207446,
      "loss": 3.9582,
      "step": 180790
    },
    {
      "epoch": 0.37666666666666665,
      "grad_norm": 0.7119560837745667,
      "learning_rate": 0.0002078121284482029,
      "loss": 3.7287,
      "step": 180800
    },
    {
      "epoch": 0.3766875,
      "grad_norm": 0.8522782325744629,
      "learning_rate": 0.00020780303140460583,
      "loss": 3.8358,
      "step": 180810
    },
    {
      "epoch": 0.3767083333333333,
      "grad_norm": 0.6739616394042969,
      "learning_rate": 0.00020779393411132262,
      "loss": 3.9497,
      "step": 180820
    },
    {
      "epoch": 0.37672916666666667,
      "grad_norm": 0.7441545724868774,
      "learning_rate": 0.00020778483656839247,
      "loss": 3.824,
      "step": 180830
    },
    {
      "epoch": 0.37675,
      "grad_norm": 0.7568589448928833,
      "learning_rate": 0.00020777573877585464,
      "loss": 3.8247,
      "step": 180840
    },
    {
      "epoch": 0.37677083333333333,
      "grad_norm": 0.7000877261161804,
      "learning_rate": 0.00020776664073374855,
      "loss": 3.8903,
      "step": 180850
    },
    {
      "epoch": 0.3767916666666667,
      "grad_norm": 0.7560520172119141,
      "learning_rate": 0.00020775754244211343,
      "loss": 3.9507,
      "step": 180860
    },
    {
      "epoch": 0.3768125,
      "grad_norm": 0.7665832042694092,
      "learning_rate": 0.0002077484439009885,
      "loss": 4.0637,
      "step": 180870
    },
    {
      "epoch": 0.37683333333333335,
      "grad_norm": 0.8185887932777405,
      "learning_rate": 0.00020773934511041325,
      "loss": 3.7935,
      "step": 180880
    },
    {
      "epoch": 0.37685416666666666,
      "grad_norm": 0.7003475427627563,
      "learning_rate": 0.00020773024607042686,
      "loss": 3.8548,
      "step": 180890
    },
    {
      "epoch": 0.376875,
      "grad_norm": 0.9084465503692627,
      "learning_rate": 0.00020772114678106865,
      "loss": 3.9177,
      "step": 180900
    },
    {
      "epoch": 0.3768958333333333,
      "grad_norm": 0.8958010077476501,
      "learning_rate": 0.00020771204724237793,
      "loss": 3.8762,
      "step": 180910
    },
    {
      "epoch": 0.3769166666666667,
      "grad_norm": 0.9809955954551697,
      "learning_rate": 0.00020770294745439403,
      "loss": 3.9952,
      "step": 180920
    },
    {
      "epoch": 0.3769375,
      "grad_norm": 0.8462026119232178,
      "learning_rate": 0.00020769384741715623,
      "loss": 3.8511,
      "step": 180930
    },
    {
      "epoch": 0.37695833333333334,
      "grad_norm": 0.7886999249458313,
      "learning_rate": 0.00020768474713070382,
      "loss": 3.8789,
      "step": 180940
    },
    {
      "epoch": 0.37697916666666664,
      "grad_norm": 1.0764319896697998,
      "learning_rate": 0.00020767564659507617,
      "loss": 3.7422,
      "step": 180950
    },
    {
      "epoch": 0.377,
      "grad_norm": 0.8649320602416992,
      "learning_rate": 0.00020766654581031257,
      "loss": 3.8785,
      "step": 180960
    },
    {
      "epoch": 0.37702083333333336,
      "grad_norm": 0.7685559391975403,
      "learning_rate": 0.00020765744477645228,
      "loss": 3.9373,
      "step": 180970
    },
    {
      "epoch": 0.37704166666666666,
      "grad_norm": 0.8001943230628967,
      "learning_rate": 0.00020764834349353464,
      "loss": 3.9112,
      "step": 180980
    },
    {
      "epoch": 0.3770625,
      "grad_norm": 0.7086650729179382,
      "learning_rate": 0.000207639241961599,
      "loss": 3.5766,
      "step": 180990
    },
    {
      "epoch": 0.3770833333333333,
      "grad_norm": 0.9519813060760498,
      "learning_rate": 0.00020763014018068462,
      "loss": 3.977,
      "step": 181000
    },
    {
      "epoch": 0.3770833333333333,
      "eval_loss": 4.177375793457031,
      "eval_runtime": 8.8656,
      "eval_samples_per_second": 1.128,
      "eval_steps_per_second": 0.338,
      "step": 181000
    },
    {
      "epoch": 0.3771041666666667,
      "grad_norm": 0.9288076162338257,
      "learning_rate": 0.00020762103815083087,
      "loss": 3.8054,
      "step": 181010
    },
    {
      "epoch": 0.377125,
      "grad_norm": 0.7049733400344849,
      "learning_rate": 0.00020761193587207706,
      "loss": 3.9046,
      "step": 181020
    },
    {
      "epoch": 0.37714583333333335,
      "grad_norm": 0.7998921275138855,
      "learning_rate": 0.0002076028333444625,
      "loss": 3.8929,
      "step": 181030
    },
    {
      "epoch": 0.37716666666666665,
      "grad_norm": 0.841457724571228,
      "learning_rate": 0.00020759373056802646,
      "loss": 3.9951,
      "step": 181040
    },
    {
      "epoch": 0.3771875,
      "grad_norm": 0.8759108185768127,
      "learning_rate": 0.00020758462754280835,
      "loss": 3.7938,
      "step": 181050
    },
    {
      "epoch": 0.3772083333333333,
      "grad_norm": 0.789152979850769,
      "learning_rate": 0.0002075755242688474,
      "loss": 3.5647,
      "step": 181060
    },
    {
      "epoch": 0.37722916666666667,
      "grad_norm": 0.7512816190719604,
      "learning_rate": 0.00020756642074618297,
      "loss": 3.7817,
      "step": 181070
    },
    {
      "epoch": 0.37725,
      "grad_norm": 0.7912381291389465,
      "learning_rate": 0.0002075573169748544,
      "loss": 3.8135,
      "step": 181080
    },
    {
      "epoch": 0.37727083333333333,
      "grad_norm": 0.7797384262084961,
      "learning_rate": 0.000207548212954901,
      "loss": 3.9154,
      "step": 181090
    },
    {
      "epoch": 0.3772916666666667,
      "grad_norm": 0.8460776805877686,
      "learning_rate": 0.00020753910868636215,
      "loss": 4.035,
      "step": 181100
    },
    {
      "epoch": 0.3773125,
      "grad_norm": 0.761053204536438,
      "learning_rate": 0.00020753000416927705,
      "loss": 3.7617,
      "step": 181110
    },
    {
      "epoch": 0.37733333333333335,
      "grad_norm": 0.7817214131355286,
      "learning_rate": 0.00020752089940368515,
      "loss": 3.7052,
      "step": 181120
    },
    {
      "epoch": 0.37735416666666666,
      "grad_norm": 0.8727318048477173,
      "learning_rate": 0.00020751179438962573,
      "loss": 3.8794,
      "step": 181130
    },
    {
      "epoch": 0.377375,
      "grad_norm": 1.1782028675079346,
      "learning_rate": 0.00020750268912713806,
      "loss": 3.8419,
      "step": 181140
    },
    {
      "epoch": 0.3773958333333333,
      "grad_norm": 0.6998383402824402,
      "learning_rate": 0.00020749358361626163,
      "loss": 3.9034,
      "step": 181150
    },
    {
      "epoch": 0.3774166666666667,
      "grad_norm": 0.7670265436172485,
      "learning_rate": 0.00020748447785703565,
      "loss": 3.8632,
      "step": 181160
    },
    {
      "epoch": 0.3774375,
      "grad_norm": 0.7967666983604431,
      "learning_rate": 0.00020747537184949945,
      "loss": 3.7632,
      "step": 181170
    },
    {
      "epoch": 0.37745833333333334,
      "grad_norm": 0.8743734955787659,
      "learning_rate": 0.00020746626559369242,
      "loss": 3.6663,
      "step": 181180
    },
    {
      "epoch": 0.37747916666666664,
      "grad_norm": 0.7221236228942871,
      "learning_rate": 0.00020745715908965383,
      "loss": 3.6804,
      "step": 181190
    },
    {
      "epoch": 0.3775,
      "grad_norm": 0.7568638324737549,
      "learning_rate": 0.0002074480523374231,
      "loss": 4.0736,
      "step": 181200
    },
    {
      "epoch": 0.37752083333333336,
      "grad_norm": 0.7067804932594299,
      "learning_rate": 0.00020743894533703953,
      "loss": 3.9901,
      "step": 181210
    },
    {
      "epoch": 0.37754166666666666,
      "grad_norm": 0.8070016503334045,
      "learning_rate": 0.0002074298380885424,
      "loss": 3.8989,
      "step": 181220
    },
    {
      "epoch": 0.3775625,
      "grad_norm": 0.8601160049438477,
      "learning_rate": 0.00020742073059197113,
      "loss": 3.8622,
      "step": 181230
    },
    {
      "epoch": 0.3775833333333333,
      "grad_norm": 0.8619043827056885,
      "learning_rate": 0.00020741162284736506,
      "loss": 3.8965,
      "step": 181240
    },
    {
      "epoch": 0.3776041666666667,
      "grad_norm": 0.7145994305610657,
      "learning_rate": 0.00020740251485476345,
      "loss": 3.7376,
      "step": 181250
    },
    {
      "epoch": 0.377625,
      "grad_norm": 0.9682713747024536,
      "learning_rate": 0.0002073934066142057,
      "loss": 3.7374,
      "step": 181260
    },
    {
      "epoch": 0.37764583333333335,
      "grad_norm": 0.8217049241065979,
      "learning_rate": 0.00020738429812573118,
      "loss": 3.8686,
      "step": 181270
    },
    {
      "epoch": 0.37766666666666665,
      "grad_norm": 0.6162201166152954,
      "learning_rate": 0.0002073751893893792,
      "loss": 3.7405,
      "step": 181280
    },
    {
      "epoch": 0.3776875,
      "grad_norm": 0.6804627180099487,
      "learning_rate": 0.00020736608040518913,
      "loss": 3.7803,
      "step": 181290
    },
    {
      "epoch": 0.3777083333333333,
      "grad_norm": 0.7576439380645752,
      "learning_rate": 0.0002073569711732003,
      "loss": 4.012,
      "step": 181300
    },
    {
      "epoch": 0.37772916666666667,
      "grad_norm": 0.7209360003471375,
      "learning_rate": 0.00020734786169345203,
      "loss": 3.8418,
      "step": 181310
    },
    {
      "epoch": 0.37775,
      "grad_norm": 0.7815200090408325,
      "learning_rate": 0.0002073387519659837,
      "loss": 3.7241,
      "step": 181320
    },
    {
      "epoch": 0.37777083333333333,
      "grad_norm": 0.6883190870285034,
      "learning_rate": 0.00020732964199083467,
      "loss": 3.7609,
      "step": 181330
    },
    {
      "epoch": 0.3777916666666667,
      "grad_norm": 0.8989342451095581,
      "learning_rate": 0.00020732053176804427,
      "loss": 3.7077,
      "step": 181340
    },
    {
      "epoch": 0.3778125,
      "grad_norm": 0.8615274429321289,
      "learning_rate": 0.0002073114212976519,
      "loss": 3.9038,
      "step": 181350
    },
    {
      "epoch": 0.37783333333333335,
      "grad_norm": 0.7798131108283997,
      "learning_rate": 0.00020730231057969684,
      "loss": 4.0254,
      "step": 181360
    },
    {
      "epoch": 0.37785416666666666,
      "grad_norm": 0.7602672576904297,
      "learning_rate": 0.00020729319961421843,
      "loss": 3.7864,
      "step": 181370
    },
    {
      "epoch": 0.377875,
      "grad_norm": 0.7479634284973145,
      "learning_rate": 0.00020728408840125617,
      "loss": 3.8869,
      "step": 181380
    },
    {
      "epoch": 0.3778958333333333,
      "grad_norm": 0.7911123037338257,
      "learning_rate": 0.0002072749769408493,
      "loss": 3.8097,
      "step": 181390
    },
    {
      "epoch": 0.3779166666666667,
      "grad_norm": 0.6927447319030762,
      "learning_rate": 0.0002072658652330372,
      "loss": 3.9325,
      "step": 181400
    },
    {
      "epoch": 0.3779375,
      "grad_norm": 0.735763430595398,
      "learning_rate": 0.0002072567532778592,
      "loss": 3.8981,
      "step": 181410
    },
    {
      "epoch": 0.37795833333333334,
      "grad_norm": 0.7977342009544373,
      "learning_rate": 0.0002072476410753547,
      "loss": 3.972,
      "step": 181420
    },
    {
      "epoch": 0.37797916666666664,
      "grad_norm": 0.774060845375061,
      "learning_rate": 0.00020723852862556305,
      "loss": 3.8613,
      "step": 181430
    },
    {
      "epoch": 0.378,
      "grad_norm": 0.7210637331008911,
      "learning_rate": 0.00020722941592852363,
      "loss": 3.853,
      "step": 181440
    },
    {
      "epoch": 0.3780208333333333,
      "grad_norm": 0.8554644584655762,
      "learning_rate": 0.00020722030298427576,
      "loss": 3.7926,
      "step": 181450
    },
    {
      "epoch": 0.37804166666666666,
      "grad_norm": 0.7037038803100586,
      "learning_rate": 0.00020721118979285884,
      "loss": 3.9179,
      "step": 181460
    },
    {
      "epoch": 0.3780625,
      "grad_norm": 0.8276297450065613,
      "learning_rate": 0.00020720207635431222,
      "loss": 3.8497,
      "step": 181470
    },
    {
      "epoch": 0.3780833333333333,
      "grad_norm": 0.8712019324302673,
      "learning_rate": 0.00020719296266867528,
      "loss": 3.7808,
      "step": 181480
    },
    {
      "epoch": 0.3781041666666667,
      "grad_norm": 0.8261365294456482,
      "learning_rate": 0.0002071838487359874,
      "loss": 4.1738,
      "step": 181490
    },
    {
      "epoch": 0.378125,
      "grad_norm": 0.7745428085327148,
      "learning_rate": 0.0002071747345562879,
      "loss": 3.7781,
      "step": 181500
    },
    {
      "epoch": 0.37814583333333335,
      "grad_norm": 0.932318389415741,
      "learning_rate": 0.00020716562012961618,
      "loss": 3.9061,
      "step": 181510
    },
    {
      "epoch": 0.37816666666666665,
      "grad_norm": 0.696593165397644,
      "learning_rate": 0.00020715650545601163,
      "loss": 3.7874,
      "step": 181520
    },
    {
      "epoch": 0.3781875,
      "grad_norm": 0.7875185608863831,
      "learning_rate": 0.0002071473905355136,
      "loss": 3.8694,
      "step": 181530
    },
    {
      "epoch": 0.3782083333333333,
      "grad_norm": 0.7537920475006104,
      "learning_rate": 0.0002071382753681614,
      "loss": 3.7911,
      "step": 181540
    },
    {
      "epoch": 0.37822916666666667,
      "grad_norm": 0.7236183881759644,
      "learning_rate": 0.00020712915995399454,
      "loss": 3.6826,
      "step": 181550
    },
    {
      "epoch": 0.37825,
      "grad_norm": 0.7155548930168152,
      "learning_rate": 0.0002071200442930523,
      "loss": 3.7555,
      "step": 181560
    },
    {
      "epoch": 0.37827083333333333,
      "grad_norm": 0.7119380831718445,
      "learning_rate": 0.00020711092838537407,
      "loss": 3.7748,
      "step": 181570
    },
    {
      "epoch": 0.3782916666666667,
      "grad_norm": 0.837310254573822,
      "learning_rate": 0.00020710181223099926,
      "loss": 3.607,
      "step": 181580
    },
    {
      "epoch": 0.3783125,
      "grad_norm": 0.7811753153800964,
      "learning_rate": 0.00020709269582996722,
      "loss": 3.7365,
      "step": 181590
    },
    {
      "epoch": 0.37833333333333335,
      "grad_norm": 0.7208077907562256,
      "learning_rate": 0.00020708357918231728,
      "loss": 3.8538,
      "step": 181600
    },
    {
      "epoch": 0.37835416666666666,
      "grad_norm": 0.8250865340232849,
      "learning_rate": 0.00020707446228808893,
      "loss": 3.6884,
      "step": 181610
    },
    {
      "epoch": 0.378375,
      "grad_norm": 0.723171055316925,
      "learning_rate": 0.0002070653451473215,
      "loss": 3.9054,
      "step": 181620
    },
    {
      "epoch": 0.3783958333333333,
      "grad_norm": 0.7885411381721497,
      "learning_rate": 0.00020705622776005434,
      "loss": 3.8638,
      "step": 181630
    },
    {
      "epoch": 0.3784166666666667,
      "grad_norm": 0.7169497609138489,
      "learning_rate": 0.00020704711012632684,
      "loss": 3.7002,
      "step": 181640
    },
    {
      "epoch": 0.3784375,
      "grad_norm": 0.8707814812660217,
      "learning_rate": 0.00020703799224617843,
      "loss": 3.7176,
      "step": 181650
    },
    {
      "epoch": 0.37845833333333334,
      "grad_norm": 0.7527090311050415,
      "learning_rate": 0.0002070288741196485,
      "loss": 3.9378,
      "step": 181660
    },
    {
      "epoch": 0.37847916666666664,
      "grad_norm": 0.9802024960517883,
      "learning_rate": 0.00020701975574677635,
      "loss": 3.8668,
      "step": 181670
    },
    {
      "epoch": 0.3785,
      "grad_norm": 0.8569023013114929,
      "learning_rate": 0.00020701063712760145,
      "loss": 3.792,
      "step": 181680
    },
    {
      "epoch": 0.3785208333333333,
      "grad_norm": 0.7394789457321167,
      "learning_rate": 0.0002070015182621632,
      "loss": 3.906,
      "step": 181690
    },
    {
      "epoch": 0.37854166666666667,
      "grad_norm": 0.9344667196273804,
      "learning_rate": 0.0002069923991505009,
      "loss": 3.913,
      "step": 181700
    },
    {
      "epoch": 0.3785625,
      "grad_norm": 0.8827242851257324,
      "learning_rate": 0.000206983279792654,
      "loss": 3.9068,
      "step": 181710
    },
    {
      "epoch": 0.3785833333333333,
      "grad_norm": 0.7549983263015747,
      "learning_rate": 0.00020697416018866194,
      "loss": 3.7852,
      "step": 181720
    },
    {
      "epoch": 0.3786041666666667,
      "grad_norm": 0.8787758946418762,
      "learning_rate": 0.00020696504033856399,
      "loss": 3.9681,
      "step": 181730
    },
    {
      "epoch": 0.378625,
      "grad_norm": 0.6739524006843567,
      "learning_rate": 0.00020695592024239963,
      "loss": 3.8196,
      "step": 181740
    },
    {
      "epoch": 0.37864583333333335,
      "grad_norm": 0.844294548034668,
      "learning_rate": 0.00020694679990020828,
      "loss": 3.9964,
      "step": 181750
    },
    {
      "epoch": 0.37866666666666665,
      "grad_norm": 0.7377504706382751,
      "learning_rate": 0.0002069376793120293,
      "loss": 3.757,
      "step": 181760
    },
    {
      "epoch": 0.3786875,
      "grad_norm": 0.7378296256065369,
      "learning_rate": 0.00020692855847790202,
      "loss": 3.6867,
      "step": 181770
    },
    {
      "epoch": 0.3787083333333333,
      "grad_norm": 0.7646316885948181,
      "learning_rate": 0.00020691943739786593,
      "loss": 3.8907,
      "step": 181780
    },
    {
      "epoch": 0.3787291666666667,
      "grad_norm": 0.7244914770126343,
      "learning_rate": 0.00020691031607196042,
      "loss": 4.0309,
      "step": 181790
    },
    {
      "epoch": 0.37875,
      "grad_norm": 0.8528137803077698,
      "learning_rate": 0.00020690119450022485,
      "loss": 3.8894,
      "step": 181800
    },
    {
      "epoch": 0.37877083333333333,
      "grad_norm": 0.77153480052948,
      "learning_rate": 0.00020689207268269864,
      "loss": 3.7579,
      "step": 181810
    },
    {
      "epoch": 0.3787916666666667,
      "grad_norm": 0.7543529868125916,
      "learning_rate": 0.0002068829506194212,
      "loss": 3.8555,
      "step": 181820
    },
    {
      "epoch": 0.3788125,
      "grad_norm": 0.7970041632652283,
      "learning_rate": 0.00020687382831043199,
      "loss": 3.7493,
      "step": 181830
    },
    {
      "epoch": 0.37883333333333336,
      "grad_norm": 0.7040038704872131,
      "learning_rate": 0.00020686470575577028,
      "loss": 3.6778,
      "step": 181840
    },
    {
      "epoch": 0.37885416666666666,
      "grad_norm": 0.7969857454299927,
      "learning_rate": 0.00020685558295547554,
      "loss": 3.9602,
      "step": 181850
    },
    {
      "epoch": 0.378875,
      "grad_norm": 0.7719916105270386,
      "learning_rate": 0.00020684645990958723,
      "loss": 3.8497,
      "step": 181860
    },
    {
      "epoch": 0.3788958333333333,
      "grad_norm": 0.7890076637268066,
      "learning_rate": 0.00020683733661814468,
      "loss": 3.9145,
      "step": 181870
    },
    {
      "epoch": 0.3789166666666667,
      "grad_norm": 0.7734209299087524,
      "learning_rate": 0.00020682821308118737,
      "loss": 3.9266,
      "step": 181880
    },
    {
      "epoch": 0.3789375,
      "grad_norm": 0.8812127709388733,
      "learning_rate": 0.00020681908929875468,
      "loss": 3.809,
      "step": 181890
    },
    {
      "epoch": 0.37895833333333334,
      "grad_norm": 0.7987200617790222,
      "learning_rate": 0.000206809965270886,
      "loss": 3.922,
      "step": 181900
    },
    {
      "epoch": 0.37897916666666664,
      "grad_norm": 0.7127507925033569,
      "learning_rate": 0.0002068008409976207,
      "loss": 3.6895,
      "step": 181910
    },
    {
      "epoch": 0.379,
      "grad_norm": 0.7565997242927551,
      "learning_rate": 0.00020679171647899832,
      "loss": 3.9069,
      "step": 181920
    },
    {
      "epoch": 0.3790208333333333,
      "grad_norm": 0.8346641063690186,
      "learning_rate": 0.0002067825917150582,
      "loss": 3.8175,
      "step": 181930
    },
    {
      "epoch": 0.37904166666666667,
      "grad_norm": 0.7204210758209229,
      "learning_rate": 0.0002067734667058397,
      "loss": 3.8535,
      "step": 181940
    },
    {
      "epoch": 0.3790625,
      "grad_norm": 0.822012722492218,
      "learning_rate": 0.00020676434145138237,
      "loss": 3.8688,
      "step": 181950
    },
    {
      "epoch": 0.3790833333333333,
      "grad_norm": 0.7438638210296631,
      "learning_rate": 0.00020675521595172553,
      "loss": 3.9011,
      "step": 181960
    },
    {
      "epoch": 0.3791041666666667,
      "grad_norm": 0.7318434119224548,
      "learning_rate": 0.00020674609020690862,
      "loss": 3.8158,
      "step": 181970
    },
    {
      "epoch": 0.379125,
      "grad_norm": 0.9352288246154785,
      "learning_rate": 0.00020673696421697103,
      "loss": 3.8523,
      "step": 181980
    },
    {
      "epoch": 0.37914583333333335,
      "grad_norm": 0.7895362377166748,
      "learning_rate": 0.00020672783798195228,
      "loss": 3.8728,
      "step": 181990
    },
    {
      "epoch": 0.37916666666666665,
      "grad_norm": 0.8335098028182983,
      "learning_rate": 0.0002067187115018917,
      "loss": 3.8955,
      "step": 182000
    },
    {
      "epoch": 0.37916666666666665,
      "eval_loss": 4.173221588134766,
      "eval_runtime": 8.3806,
      "eval_samples_per_second": 1.193,
      "eval_steps_per_second": 0.358,
      "step": 182000
    },
    {
      "epoch": 0.3791875,
      "grad_norm": 0.8359973430633545,
      "learning_rate": 0.00020670958477682867,
      "loss": 3.7455,
      "step": 182010
    },
    {
      "epoch": 0.3792083333333333,
      "grad_norm": 0.7917797565460205,
      "learning_rate": 0.00020670045780680273,
      "loss": 3.8969,
      "step": 182020
    },
    {
      "epoch": 0.3792291666666667,
      "grad_norm": 0.7016196250915527,
      "learning_rate": 0.0002066913305918533,
      "loss": 3.7883,
      "step": 182030
    },
    {
      "epoch": 0.37925,
      "grad_norm": 0.9073986411094666,
      "learning_rate": 0.0002066822031320197,
      "loss": 3.7212,
      "step": 182040
    },
    {
      "epoch": 0.37927083333333333,
      "grad_norm": 0.7260304689407349,
      "learning_rate": 0.00020667307542734142,
      "loss": 4.0125,
      "step": 182050
    },
    {
      "epoch": 0.3792916666666667,
      "grad_norm": 0.7299366593360901,
      "learning_rate": 0.00020666394747785794,
      "loss": 3.9125,
      "step": 182060
    },
    {
      "epoch": 0.3793125,
      "grad_norm": 0.7872629165649414,
      "learning_rate": 0.00020665481928360858,
      "loss": 3.7781,
      "step": 182070
    },
    {
      "epoch": 0.37933333333333336,
      "grad_norm": 0.7242859601974487,
      "learning_rate": 0.00020664569084463287,
      "loss": 3.7261,
      "step": 182080
    },
    {
      "epoch": 0.37935416666666666,
      "grad_norm": 0.9580531716346741,
      "learning_rate": 0.00020663656216097015,
      "loss": 3.8648,
      "step": 182090
    },
    {
      "epoch": 0.379375,
      "grad_norm": 0.8195051550865173,
      "learning_rate": 0.00020662743323265992,
      "loss": 3.8674,
      "step": 182100
    },
    {
      "epoch": 0.3793958333333333,
      "grad_norm": 0.8857458829879761,
      "learning_rate": 0.00020661830405974162,
      "loss": 3.7837,
      "step": 182110
    },
    {
      "epoch": 0.3794166666666667,
      "grad_norm": 0.6594204902648926,
      "learning_rate": 0.00020660917464225464,
      "loss": 3.8515,
      "step": 182120
    },
    {
      "epoch": 0.3794375,
      "grad_norm": 0.7423020005226135,
      "learning_rate": 0.0002066000449802384,
      "loss": 3.6142,
      "step": 182130
    },
    {
      "epoch": 0.37945833333333334,
      "grad_norm": 0.7456586956977844,
      "learning_rate": 0.00020659091507373243,
      "loss": 3.5782,
      "step": 182140
    },
    {
      "epoch": 0.37947916666666665,
      "grad_norm": 0.7414976358413696,
      "learning_rate": 0.00020658178492277606,
      "loss": 3.8323,
      "step": 182150
    },
    {
      "epoch": 0.3795,
      "grad_norm": 0.6747069954872131,
      "learning_rate": 0.0002065726545274088,
      "loss": 3.8332,
      "step": 182160
    },
    {
      "epoch": 0.3795208333333333,
      "grad_norm": 0.7555854916572571,
      "learning_rate": 0.00020656352388767006,
      "loss": 3.8811,
      "step": 182170
    },
    {
      "epoch": 0.37954166666666667,
      "grad_norm": 0.7301123142242432,
      "learning_rate": 0.00020655439300359927,
      "loss": 3.7417,
      "step": 182180
    },
    {
      "epoch": 0.3795625,
      "grad_norm": 0.8134288787841797,
      "learning_rate": 0.00020654526187523591,
      "loss": 3.6637,
      "step": 182190
    },
    {
      "epoch": 0.37958333333333333,
      "grad_norm": 0.9544481635093689,
      "learning_rate": 0.00020653613050261943,
      "loss": 3.7493,
      "step": 182200
    },
    {
      "epoch": 0.3796041666666667,
      "grad_norm": 0.7184152603149414,
      "learning_rate": 0.00020652699888578917,
      "loss": 3.8229,
      "step": 182210
    },
    {
      "epoch": 0.379625,
      "grad_norm": 0.8039238452911377,
      "learning_rate": 0.0002065178670247847,
      "loss": 3.8658,
      "step": 182220
    },
    {
      "epoch": 0.37964583333333335,
      "grad_norm": 0.7711023688316345,
      "learning_rate": 0.00020650873491964543,
      "loss": 3.7791,
      "step": 182230
    },
    {
      "epoch": 0.37966666666666665,
      "grad_norm": 0.7006681561470032,
      "learning_rate": 0.0002064996025704107,
      "loss": 3.7789,
      "step": 182240
    },
    {
      "epoch": 0.3796875,
      "grad_norm": 0.7861468195915222,
      "learning_rate": 0.00020649046997712017,
      "loss": 3.8571,
      "step": 182250
    },
    {
      "epoch": 0.3797083333333333,
      "grad_norm": 0.7072666883468628,
      "learning_rate": 0.0002064813371398131,
      "loss": 3.9472,
      "step": 182260
    },
    {
      "epoch": 0.3797291666666667,
      "grad_norm": 0.811191201210022,
      "learning_rate": 0.00020647220405852905,
      "loss": 3.9422,
      "step": 182270
    },
    {
      "epoch": 0.37975,
      "grad_norm": 0.8727095127105713,
      "learning_rate": 0.00020646307073330739,
      "loss": 3.7595,
      "step": 182280
    },
    {
      "epoch": 0.37977083333333334,
      "grad_norm": 0.7020044922828674,
      "learning_rate": 0.00020645393716418764,
      "loss": 3.8697,
      "step": 182290
    },
    {
      "epoch": 0.3797916666666667,
      "grad_norm": 1.0985249280929565,
      "learning_rate": 0.00020644480335120922,
      "loss": 3.8859,
      "step": 182300
    },
    {
      "epoch": 0.3798125,
      "grad_norm": 0.8511582612991333,
      "learning_rate": 0.0002064356692944116,
      "loss": 3.8201,
      "step": 182310
    },
    {
      "epoch": 0.37983333333333336,
      "grad_norm": 0.819627046585083,
      "learning_rate": 0.0002064265349938342,
      "loss": 3.8668,
      "step": 182320
    },
    {
      "epoch": 0.37985416666666666,
      "grad_norm": 0.889543354511261,
      "learning_rate": 0.00020641740044951654,
      "loss": 3.9518,
      "step": 182330
    },
    {
      "epoch": 0.379875,
      "grad_norm": 0.8603052496910095,
      "learning_rate": 0.00020640826566149803,
      "loss": 3.8791,
      "step": 182340
    },
    {
      "epoch": 0.3798958333333333,
      "grad_norm": 0.8200523257255554,
      "learning_rate": 0.00020639913062981812,
      "loss": 3.7394,
      "step": 182350
    },
    {
      "epoch": 0.3799166666666667,
      "grad_norm": 0.8078086972236633,
      "learning_rate": 0.00020638999535451633,
      "loss": 3.9271,
      "step": 182360
    },
    {
      "epoch": 0.3799375,
      "grad_norm": 0.7682989239692688,
      "learning_rate": 0.00020638085983563204,
      "loss": 3.945,
      "step": 182370
    },
    {
      "epoch": 0.37995833333333334,
      "grad_norm": 0.7292904853820801,
      "learning_rate": 0.00020637172407320478,
      "loss": 3.768,
      "step": 182380
    },
    {
      "epoch": 0.37997916666666665,
      "grad_norm": 0.718705952167511,
      "learning_rate": 0.000206362588067274,
      "loss": 4.0162,
      "step": 182390
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8784952759742737,
      "learning_rate": 0.0002063534518178791,
      "loss": 3.8477,
      "step": 182400
    },
    {
      "epoch": 0.3800208333333333,
      "grad_norm": 0.796930193901062,
      "learning_rate": 0.0002063443153250596,
      "loss": 3.7827,
      "step": 182410
    },
    {
      "epoch": 0.38004166666666667,
      "grad_norm": 0.877346932888031,
      "learning_rate": 0.00020633517858885498,
      "loss": 3.7433,
      "step": 182420
    },
    {
      "epoch": 0.3800625,
      "grad_norm": 0.9000310897827148,
      "learning_rate": 0.00020632604160930468,
      "loss": 3.9509,
      "step": 182430
    },
    {
      "epoch": 0.38008333333333333,
      "grad_norm": 0.8012091517448425,
      "learning_rate": 0.00020631690438644817,
      "loss": 3.8569,
      "step": 182440
    },
    {
      "epoch": 0.3801041666666667,
      "grad_norm": 0.7172646522521973,
      "learning_rate": 0.00020630776692032496,
      "loss": 3.9221,
      "step": 182450
    },
    {
      "epoch": 0.380125,
      "grad_norm": 0.955693244934082,
      "learning_rate": 0.00020629862921097444,
      "loss": 3.7432,
      "step": 182460
    },
    {
      "epoch": 0.38014583333333335,
      "grad_norm": 0.7904995083808899,
      "learning_rate": 0.00020628949125843616,
      "loss": 3.8203,
      "step": 182470
    },
    {
      "epoch": 0.38016666666666665,
      "grad_norm": 0.7676151394844055,
      "learning_rate": 0.00020628035306274954,
      "loss": 3.8828,
      "step": 182480
    },
    {
      "epoch": 0.3801875,
      "grad_norm": 0.8223123550415039,
      "learning_rate": 0.00020627121462395408,
      "loss": 3.7859,
      "step": 182490
    },
    {
      "epoch": 0.3802083333333333,
      "grad_norm": 0.8082499504089355,
      "learning_rate": 0.00020626207594208929,
      "loss": 3.9431,
      "step": 182500
    },
    {
      "epoch": 0.3802291666666667,
      "grad_norm": 0.7483497858047485,
      "learning_rate": 0.00020625293701719452,
      "loss": 3.7046,
      "step": 182510
    },
    {
      "epoch": 0.38025,
      "grad_norm": 0.7949364185333252,
      "learning_rate": 0.00020624379784930935,
      "loss": 3.8091,
      "step": 182520
    },
    {
      "epoch": 0.38027083333333334,
      "grad_norm": 0.6573865413665771,
      "learning_rate": 0.00020623465843847328,
      "loss": 3.7563,
      "step": 182530
    },
    {
      "epoch": 0.38029166666666664,
      "grad_norm": 0.7954752445220947,
      "learning_rate": 0.0002062255187847257,
      "loss": 3.8027,
      "step": 182540
    },
    {
      "epoch": 0.3803125,
      "grad_norm": 0.8823559284210205,
      "learning_rate": 0.00020621637888810614,
      "loss": 3.8266,
      "step": 182550
    },
    {
      "epoch": 0.38033333333333336,
      "grad_norm": 0.7432507872581482,
      "learning_rate": 0.00020620723874865415,
      "loss": 4.0513,
      "step": 182560
    },
    {
      "epoch": 0.38035416666666666,
      "grad_norm": 0.7956826686859131,
      "learning_rate": 0.00020619809836640906,
      "loss": 3.974,
      "step": 182570
    },
    {
      "epoch": 0.380375,
      "grad_norm": 0.790596067905426,
      "learning_rate": 0.00020618895774141043,
      "loss": 3.8121,
      "step": 182580
    },
    {
      "epoch": 0.3803958333333333,
      "grad_norm": 0.7495781779289246,
      "learning_rate": 0.00020617981687369777,
      "loss": 3.6554,
      "step": 182590
    },
    {
      "epoch": 0.3804166666666667,
      "grad_norm": 0.8069830536842346,
      "learning_rate": 0.0002061706757633105,
      "loss": 3.8145,
      "step": 182600
    },
    {
      "epoch": 0.3804375,
      "grad_norm": 0.788781464099884,
      "learning_rate": 0.00020616153441028816,
      "loss": 3.8974,
      "step": 182610
    },
    {
      "epoch": 0.38045833333333334,
      "grad_norm": 0.8528963923454285,
      "learning_rate": 0.00020615239281467025,
      "loss": 3.8856,
      "step": 182620
    },
    {
      "epoch": 0.38047916666666665,
      "grad_norm": 0.7611546516418457,
      "learning_rate": 0.0002061432509764962,
      "loss": 3.7347,
      "step": 182630
    },
    {
      "epoch": 0.3805,
      "grad_norm": 0.9157168865203857,
      "learning_rate": 0.00020613410889580556,
      "loss": 3.8159,
      "step": 182640
    },
    {
      "epoch": 0.3805208333333333,
      "grad_norm": 0.7156709432601929,
      "learning_rate": 0.00020612496657263776,
      "loss": 3.8666,
      "step": 182650
    },
    {
      "epoch": 0.38054166666666667,
      "grad_norm": 0.7205580472946167,
      "learning_rate": 0.00020611582400703233,
      "loss": 3.7608,
      "step": 182660
    },
    {
      "epoch": 0.3805625,
      "grad_norm": 0.8670001029968262,
      "learning_rate": 0.00020610668119902875,
      "loss": 3.8265,
      "step": 182670
    },
    {
      "epoch": 0.38058333333333333,
      "grad_norm": 0.8021782636642456,
      "learning_rate": 0.0002060975381486665,
      "loss": 3.8947,
      "step": 182680
    },
    {
      "epoch": 0.3806041666666667,
      "grad_norm": 0.7329770922660828,
      "learning_rate": 0.00020608839485598512,
      "loss": 3.8578,
      "step": 182690
    },
    {
      "epoch": 0.380625,
      "grad_norm": 0.8665525913238525,
      "learning_rate": 0.00020607925132102412,
      "loss": 3.9947,
      "step": 182700
    },
    {
      "epoch": 0.38064583333333335,
      "grad_norm": 0.7988172173500061,
      "learning_rate": 0.00020607010754382284,
      "loss": 3.8032,
      "step": 182710
    },
    {
      "epoch": 0.38066666666666665,
      "grad_norm": 0.7248859405517578,
      "learning_rate": 0.00020606096352442096,
      "loss": 3.9776,
      "step": 182720
    },
    {
      "epoch": 0.3806875,
      "grad_norm": 0.7429794669151306,
      "learning_rate": 0.0002060518192628579,
      "loss": 3.6372,
      "step": 182730
    },
    {
      "epoch": 0.3807083333333333,
      "grad_norm": 0.8062357306480408,
      "learning_rate": 0.00020604267475917315,
      "loss": 3.8907,
      "step": 182740
    },
    {
      "epoch": 0.3807291666666667,
      "grad_norm": 0.9592157006263733,
      "learning_rate": 0.00020603353001340623,
      "loss": 3.8622,
      "step": 182750
    },
    {
      "epoch": 0.38075,
      "grad_norm": 0.8477289080619812,
      "learning_rate": 0.00020602438502559668,
      "loss": 3.8325,
      "step": 182760
    },
    {
      "epoch": 0.38077083333333334,
      "grad_norm": 0.9276495575904846,
      "learning_rate": 0.00020601523979578394,
      "loss": 3.8755,
      "step": 182770
    },
    {
      "epoch": 0.38079166666666664,
      "grad_norm": 0.7992873787879944,
      "learning_rate": 0.0002060060943240075,
      "loss": 4.0387,
      "step": 182780
    },
    {
      "epoch": 0.3808125,
      "grad_norm": 0.7345039248466492,
      "learning_rate": 0.00020599694861030696,
      "loss": 3.8229,
      "step": 182790
    },
    {
      "epoch": 0.38083333333333336,
      "grad_norm": 0.8148059844970703,
      "learning_rate": 0.00020598780265472172,
      "loss": 3.8648,
      "step": 182800
    },
    {
      "epoch": 0.38085416666666666,
      "grad_norm": 0.8762407898902893,
      "learning_rate": 0.00020597865645729133,
      "loss": 3.9037,
      "step": 182810
    },
    {
      "epoch": 0.380875,
      "grad_norm": 0.7776862978935242,
      "learning_rate": 0.00020596951001805531,
      "loss": 3.7911,
      "step": 182820
    },
    {
      "epoch": 0.3808958333333333,
      "grad_norm": 0.8195546269416809,
      "learning_rate": 0.0002059603633370532,
      "loss": 3.859,
      "step": 182830
    },
    {
      "epoch": 0.3809166666666667,
      "grad_norm": 0.8544929027557373,
      "learning_rate": 0.00020595121641432446,
      "loss": 3.994,
      "step": 182840
    },
    {
      "epoch": 0.3809375,
      "grad_norm": 1.13643479347229,
      "learning_rate": 0.00020594206924990857,
      "loss": 3.9509,
      "step": 182850
    },
    {
      "epoch": 0.38095833333333334,
      "grad_norm": 0.7611197829246521,
      "learning_rate": 0.00020593292184384513,
      "loss": 3.8601,
      "step": 182860
    },
    {
      "epoch": 0.38097916666666665,
      "grad_norm": 0.7486734986305237,
      "learning_rate": 0.0002059237741961736,
      "loss": 3.9288,
      "step": 182870
    },
    {
      "epoch": 0.381,
      "grad_norm": 0.8067877888679504,
      "learning_rate": 0.00020591462630693347,
      "loss": 3.7,
      "step": 182880
    },
    {
      "epoch": 0.3810208333333333,
      "grad_norm": 0.8732734322547913,
      "learning_rate": 0.0002059054781761643,
      "loss": 3.8124,
      "step": 182890
    },
    {
      "epoch": 0.38104166666666667,
      "grad_norm": 0.7649162411689758,
      "learning_rate": 0.00020589632980390566,
      "loss": 3.7487,
      "step": 182900
    },
    {
      "epoch": 0.3810625,
      "grad_norm": 0.8107854723930359,
      "learning_rate": 0.00020588718119019688,
      "loss": 3.8867,
      "step": 182910
    },
    {
      "epoch": 0.38108333333333333,
      "grad_norm": 0.9468940496444702,
      "learning_rate": 0.00020587803233507765,
      "loss": 3.8211,
      "step": 182920
    },
    {
      "epoch": 0.3811041666666667,
      "grad_norm": 0.8359000086784363,
      "learning_rate": 0.00020586888323858747,
      "loss": 3.793,
      "step": 182930
    },
    {
      "epoch": 0.381125,
      "grad_norm": 0.7249312996864319,
      "learning_rate": 0.00020585973390076578,
      "loss": 3.782,
      "step": 182940
    },
    {
      "epoch": 0.38114583333333335,
      "grad_norm": 0.735614538192749,
      "learning_rate": 0.00020585058432165222,
      "loss": 3.7918,
      "step": 182950
    },
    {
      "epoch": 0.38116666666666665,
      "grad_norm": 0.7520322203636169,
      "learning_rate": 0.0002058414345012862,
      "loss": 3.8643,
      "step": 182960
    },
    {
      "epoch": 0.3811875,
      "grad_norm": 0.7255435585975647,
      "learning_rate": 0.0002058322844397073,
      "loss": 3.739,
      "step": 182970
    },
    {
      "epoch": 0.3812083333333333,
      "grad_norm": 0.768112301826477,
      "learning_rate": 0.00020582313413695499,
      "loss": 3.795,
      "step": 182980
    },
    {
      "epoch": 0.3812291666666667,
      "grad_norm": 0.741098940372467,
      "learning_rate": 0.00020581398359306887,
      "loss": 3.8279,
      "step": 182990
    },
    {
      "epoch": 0.38125,
      "grad_norm": 0.9435358643531799,
      "learning_rate": 0.0002058048328080884,
      "loss": 3.6788,
      "step": 183000
    },
    {
      "epoch": 0.38125,
      "eval_loss": 4.185007095336914,
      "eval_runtime": 8.2357,
      "eval_samples_per_second": 1.214,
      "eval_steps_per_second": 0.364,
      "step": 183000
    },
    {
      "epoch": 0.38127083333333334,
      "grad_norm": 0.8372030258178711,
      "learning_rate": 0.00020579568178205322,
      "loss": 3.8527,
      "step": 183010
    },
    {
      "epoch": 0.38129166666666664,
      "grad_norm": 0.7522881627082825,
      "learning_rate": 0.0002057865305150027,
      "loss": 3.8692,
      "step": 183020
    },
    {
      "epoch": 0.3813125,
      "grad_norm": 0.8527491092681885,
      "learning_rate": 0.0002057773790069765,
      "loss": 3.909,
      "step": 183030
    },
    {
      "epoch": 0.38133333333333336,
      "grad_norm": 0.7032073736190796,
      "learning_rate": 0.00020576822725801406,
      "loss": 3.9539,
      "step": 183040
    },
    {
      "epoch": 0.38135416666666666,
      "grad_norm": 0.8690386414527893,
      "learning_rate": 0.00020575907526815498,
      "loss": 4.0781,
      "step": 183050
    },
    {
      "epoch": 0.381375,
      "grad_norm": 0.7201367020606995,
      "learning_rate": 0.00020574992303743874,
      "loss": 3.9676,
      "step": 183060
    },
    {
      "epoch": 0.3813958333333333,
      "grad_norm": 0.894868016242981,
      "learning_rate": 0.00020574077056590497,
      "loss": 3.8623,
      "step": 183070
    },
    {
      "epoch": 0.3814166666666667,
      "grad_norm": 1.0646131038665771,
      "learning_rate": 0.00020573161785359303,
      "loss": 3.8789,
      "step": 183080
    },
    {
      "epoch": 0.3814375,
      "grad_norm": 0.8413428664207458,
      "learning_rate": 0.00020572246490054266,
      "loss": 3.8832,
      "step": 183090
    },
    {
      "epoch": 0.38145833333333334,
      "grad_norm": 0.7838085293769836,
      "learning_rate": 0.00020571331170679324,
      "loss": 3.782,
      "step": 183100
    },
    {
      "epoch": 0.38147916666666665,
      "grad_norm": 0.6902768015861511,
      "learning_rate": 0.00020570415827238434,
      "loss": 3.8884,
      "step": 183110
    },
    {
      "epoch": 0.3815,
      "grad_norm": 0.7219756841659546,
      "learning_rate": 0.0002056950045973556,
      "loss": 4.0226,
      "step": 183120
    },
    {
      "epoch": 0.3815208333333333,
      "grad_norm": 0.8320791125297546,
      "learning_rate": 0.00020568585068174645,
      "loss": 3.8212,
      "step": 183130
    },
    {
      "epoch": 0.38154166666666667,
      "grad_norm": 0.730940043926239,
      "learning_rate": 0.0002056766965255965,
      "loss": 3.9698,
      "step": 183140
    },
    {
      "epoch": 0.3815625,
      "grad_norm": 0.6994107961654663,
      "learning_rate": 0.0002056675421289452,
      "loss": 3.8735,
      "step": 183150
    },
    {
      "epoch": 0.38158333333333333,
      "grad_norm": 0.7771876454353333,
      "learning_rate": 0.0002056583874918322,
      "loss": 3.9474,
      "step": 183160
    },
    {
      "epoch": 0.3816041666666667,
      "grad_norm": 0.7321345210075378,
      "learning_rate": 0.00020564923261429696,
      "loss": 3.8657,
      "step": 183170
    },
    {
      "epoch": 0.381625,
      "grad_norm": 0.9612582325935364,
      "learning_rate": 0.00020564007749637907,
      "loss": 3.9136,
      "step": 183180
    },
    {
      "epoch": 0.38164583333333335,
      "grad_norm": 0.7917661666870117,
      "learning_rate": 0.00020563092213811808,
      "loss": 3.7281,
      "step": 183190
    },
    {
      "epoch": 0.38166666666666665,
      "grad_norm": 0.7051178812980652,
      "learning_rate": 0.00020562176653955353,
      "loss": 3.8994,
      "step": 183200
    },
    {
      "epoch": 0.3816875,
      "grad_norm": 0.7147535681724548,
      "learning_rate": 0.00020561261070072494,
      "loss": 3.9002,
      "step": 183210
    },
    {
      "epoch": 0.3817083333333333,
      "grad_norm": 0.7642552256584167,
      "learning_rate": 0.0002056034546216719,
      "loss": 3.9142,
      "step": 183220
    },
    {
      "epoch": 0.3817291666666667,
      "grad_norm": 0.8614903688430786,
      "learning_rate": 0.00020559429830243397,
      "loss": 3.7835,
      "step": 183230
    },
    {
      "epoch": 0.38175,
      "grad_norm": 0.833364725112915,
      "learning_rate": 0.00020558514174305066,
      "loss": 4.0117,
      "step": 183240
    },
    {
      "epoch": 0.38177083333333334,
      "grad_norm": 0.8057789206504822,
      "learning_rate": 0.00020557598494356152,
      "loss": 3.9701,
      "step": 183250
    },
    {
      "epoch": 0.38179166666666664,
      "grad_norm": 0.7619064450263977,
      "learning_rate": 0.0002055668279040062,
      "loss": 3.6599,
      "step": 183260
    },
    {
      "epoch": 0.3818125,
      "grad_norm": 0.7486193776130676,
      "learning_rate": 0.00020555767062442409,
      "loss": 3.7607,
      "step": 183270
    },
    {
      "epoch": 0.38183333333333336,
      "grad_norm": 0.6953637599945068,
      "learning_rate": 0.00020554851310485486,
      "loss": 3.8059,
      "step": 183280
    },
    {
      "epoch": 0.38185416666666666,
      "grad_norm": 0.7439058423042297,
      "learning_rate": 0.0002055393553453381,
      "loss": 3.8008,
      "step": 183290
    },
    {
      "epoch": 0.381875,
      "grad_norm": 0.7763925790786743,
      "learning_rate": 0.0002055301973459132,
      "loss": 3.923,
      "step": 183300
    },
    {
      "epoch": 0.3818958333333333,
      "grad_norm": 0.7797301411628723,
      "learning_rate": 0.00020552103910661984,
      "loss": 3.853,
      "step": 183310
    },
    {
      "epoch": 0.3819166666666667,
      "grad_norm": 0.6891810297966003,
      "learning_rate": 0.00020551188062749767,
      "loss": 3.8597,
      "step": 183320
    },
    {
      "epoch": 0.3819375,
      "grad_norm": 0.768100380897522,
      "learning_rate": 0.00020550272190858606,
      "loss": 3.8497,
      "step": 183330
    },
    {
      "epoch": 0.38195833333333334,
      "grad_norm": 0.8737660646438599,
      "learning_rate": 0.0002054935629499247,
      "loss": 3.876,
      "step": 183340
    },
    {
      "epoch": 0.38197916666666665,
      "grad_norm": 0.9069532752037048,
      "learning_rate": 0.00020548440375155308,
      "loss": 3.7948,
      "step": 183350
    },
    {
      "epoch": 0.382,
      "grad_norm": 0.7797109484672546,
      "learning_rate": 0.00020547524431351085,
      "loss": 3.6142,
      "step": 183360
    },
    {
      "epoch": 0.3820208333333333,
      "grad_norm": 0.7353879809379578,
      "learning_rate": 0.00020546608463583747,
      "loss": 4.0223,
      "step": 183370
    },
    {
      "epoch": 0.38204166666666667,
      "grad_norm": 0.7382573485374451,
      "learning_rate": 0.0002054569247185726,
      "loss": 3.9008,
      "step": 183380
    },
    {
      "epoch": 0.3820625,
      "grad_norm": 0.7876303791999817,
      "learning_rate": 0.00020544776456175574,
      "loss": 3.7411,
      "step": 183390
    },
    {
      "epoch": 0.38208333333333333,
      "grad_norm": 0.7172340750694275,
      "learning_rate": 0.00020543860416542654,
      "loss": 3.879,
      "step": 183400
    },
    {
      "epoch": 0.3821041666666667,
      "grad_norm": 0.9737328886985779,
      "learning_rate": 0.00020542944352962443,
      "loss": 3.7906,
      "step": 183410
    },
    {
      "epoch": 0.382125,
      "grad_norm": 0.7927218079566956,
      "learning_rate": 0.0002054202826543891,
      "loss": 3.8233,
      "step": 183420
    },
    {
      "epoch": 0.38214583333333335,
      "grad_norm": 0.709622323513031,
      "learning_rate": 0.0002054111215397601,
      "loss": 3.77,
      "step": 183430
    },
    {
      "epoch": 0.38216666666666665,
      "grad_norm": 0.7911426424980164,
      "learning_rate": 0.00020540196018577696,
      "loss": 3.9053,
      "step": 183440
    },
    {
      "epoch": 0.3821875,
      "grad_norm": 0.9482776522636414,
      "learning_rate": 0.0002053927985924793,
      "loss": 3.9244,
      "step": 183450
    },
    {
      "epoch": 0.3822083333333333,
      "grad_norm": 0.8963687419891357,
      "learning_rate": 0.0002053836367599067,
      "loss": 3.8963,
      "step": 183460
    },
    {
      "epoch": 0.3822291666666667,
      "grad_norm": 0.8685150146484375,
      "learning_rate": 0.0002053744746880987,
      "loss": 4.0591,
      "step": 183470
    },
    {
      "epoch": 0.38225,
      "grad_norm": 0.9032114744186401,
      "learning_rate": 0.00020536531237709484,
      "loss": 3.8388,
      "step": 183480
    },
    {
      "epoch": 0.38227083333333334,
      "grad_norm": 0.7794399857521057,
      "learning_rate": 0.0002053561498269348,
      "loss": 3.8938,
      "step": 183490
    },
    {
      "epoch": 0.38229166666666664,
      "grad_norm": 0.7318794131278992,
      "learning_rate": 0.0002053469870376581,
      "loss": 3.9555,
      "step": 183500
    },
    {
      "epoch": 0.3823125,
      "grad_norm": 0.7059547901153564,
      "learning_rate": 0.00020533782400930427,
      "loss": 3.7382,
      "step": 183510
    },
    {
      "epoch": 0.38233333333333336,
      "grad_norm": 0.903879702091217,
      "learning_rate": 0.000205328660741913,
      "loss": 3.8871,
      "step": 183520
    },
    {
      "epoch": 0.38235416666666666,
      "grad_norm": 0.7167929410934448,
      "learning_rate": 0.0002053194972355238,
      "loss": 3.7887,
      "step": 183530
    },
    {
      "epoch": 0.382375,
      "grad_norm": 0.9373912811279297,
      "learning_rate": 0.00020531033349017625,
      "loss": 3.6802,
      "step": 183540
    },
    {
      "epoch": 0.3823958333333333,
      "grad_norm": 1.1801213026046753,
      "learning_rate": 0.00020530116950591,
      "loss": 3.7834,
      "step": 183550
    },
    {
      "epoch": 0.3824166666666667,
      "grad_norm": 0.8220239281654358,
      "learning_rate": 0.00020529200528276453,
      "loss": 4.0294,
      "step": 183560
    },
    {
      "epoch": 0.3824375,
      "grad_norm": 0.9055914878845215,
      "learning_rate": 0.00020528284082077958,
      "loss": 3.8852,
      "step": 183570
    },
    {
      "epoch": 0.38245833333333334,
      "grad_norm": 0.7724391222000122,
      "learning_rate": 0.0002052736761199945,
      "loss": 3.6654,
      "step": 183580
    },
    {
      "epoch": 0.38247916666666665,
      "grad_norm": 0.8380156755447388,
      "learning_rate": 0.00020526451118044908,
      "loss": 3.9941,
      "step": 183590
    },
    {
      "epoch": 0.3825,
      "grad_norm": 0.6514557600021362,
      "learning_rate": 0.0002052553460021829,
      "loss": 3.8247,
      "step": 183600
    },
    {
      "epoch": 0.3825208333333333,
      "grad_norm": 0.6996260285377502,
      "learning_rate": 0.00020524618058523542,
      "loss": 3.7924,
      "step": 183610
    },
    {
      "epoch": 0.38254166666666667,
      "grad_norm": 0.7088916301727295,
      "learning_rate": 0.00020523701492964635,
      "loss": 4.0164,
      "step": 183620
    },
    {
      "epoch": 0.3825625,
      "grad_norm": 0.7955158352851868,
      "learning_rate": 0.0002052278490354553,
      "loss": 4.0075,
      "step": 183630
    },
    {
      "epoch": 0.38258333333333333,
      "grad_norm": 0.7343051433563232,
      "learning_rate": 0.0002052186829027017,
      "loss": 3.888,
      "step": 183640
    },
    {
      "epoch": 0.3826041666666667,
      "grad_norm": 0.7555290460586548,
      "learning_rate": 0.00020520951653142525,
      "loss": 3.9342,
      "step": 183650
    },
    {
      "epoch": 0.382625,
      "grad_norm": 0.762378990650177,
      "learning_rate": 0.00020520034992166562,
      "loss": 3.8096,
      "step": 183660
    },
    {
      "epoch": 0.38264583333333335,
      "grad_norm": 0.7417318224906921,
      "learning_rate": 0.00020519118307346225,
      "loss": 3.9294,
      "step": 183670
    },
    {
      "epoch": 0.38266666666666665,
      "grad_norm": 0.8122915625572205,
      "learning_rate": 0.00020518201598685484,
      "loss": 3.7193,
      "step": 183680
    },
    {
      "epoch": 0.3826875,
      "grad_norm": 0.8362602591514587,
      "learning_rate": 0.00020517284866188298,
      "loss": 3.7553,
      "step": 183690
    },
    {
      "epoch": 0.3827083333333333,
      "grad_norm": 1.2422622442245483,
      "learning_rate": 0.00020516368109858626,
      "loss": 3.8002,
      "step": 183700
    },
    {
      "epoch": 0.3827291666666667,
      "grad_norm": 0.7270647883415222,
      "learning_rate": 0.00020515451329700422,
      "loss": 3.8913,
      "step": 183710
    },
    {
      "epoch": 0.38275,
      "grad_norm": 0.7065271735191345,
      "learning_rate": 0.00020514534525717656,
      "loss": 3.9713,
      "step": 183720
    },
    {
      "epoch": 0.38277083333333334,
      "grad_norm": 0.852065920829773,
      "learning_rate": 0.00020513617697914282,
      "loss": 3.7434,
      "step": 183730
    },
    {
      "epoch": 0.38279166666666664,
      "grad_norm": 0.8063927292823792,
      "learning_rate": 0.00020512700846294263,
      "loss": 3.9342,
      "step": 183740
    },
    {
      "epoch": 0.3828125,
      "grad_norm": 0.6933813095092773,
      "learning_rate": 0.0002051178397086156,
      "loss": 3.8499,
      "step": 183750
    },
    {
      "epoch": 0.38283333333333336,
      "grad_norm": 0.6624441146850586,
      "learning_rate": 0.00020510867071620126,
      "loss": 3.977,
      "step": 183760
    },
    {
      "epoch": 0.38285416666666666,
      "grad_norm": 0.787807822227478,
      "learning_rate": 0.00020509950148573936,
      "loss": 3.7751,
      "step": 183770
    },
    {
      "epoch": 0.382875,
      "grad_norm": 0.8636045455932617,
      "learning_rate": 0.00020509033201726937,
      "loss": 3.8858,
      "step": 183780
    },
    {
      "epoch": 0.3828958333333333,
      "grad_norm": 0.7393887042999268,
      "learning_rate": 0.00020508116231083095,
      "loss": 3.7684,
      "step": 183790
    },
    {
      "epoch": 0.3829166666666667,
      "grad_norm": 0.7944694757461548,
      "learning_rate": 0.00020507199236646375,
      "loss": 3.9825,
      "step": 183800
    },
    {
      "epoch": 0.3829375,
      "grad_norm": 0.7987867593765259,
      "learning_rate": 0.00020506282218420727,
      "loss": 3.8808,
      "step": 183810
    },
    {
      "epoch": 0.38295833333333335,
      "grad_norm": 0.8425471186637878,
      "learning_rate": 0.00020505365176410126,
      "loss": 3.7469,
      "step": 183820
    },
    {
      "epoch": 0.38297916666666665,
      "grad_norm": 0.728668749332428,
      "learning_rate": 0.00020504448110618526,
      "loss": 3.9173,
      "step": 183830
    },
    {
      "epoch": 0.383,
      "grad_norm": 0.6862359046936035,
      "learning_rate": 0.00020503531021049887,
      "loss": 3.8039,
      "step": 183840
    },
    {
      "epoch": 0.3830208333333333,
      "grad_norm": 0.8360445499420166,
      "learning_rate": 0.00020502613907708175,
      "loss": 3.9199,
      "step": 183850
    },
    {
      "epoch": 0.38304166666666667,
      "grad_norm": 0.719906210899353,
      "learning_rate": 0.00020501696770597344,
      "loss": 3.9118,
      "step": 183860
    },
    {
      "epoch": 0.3830625,
      "grad_norm": 0.9519911408424377,
      "learning_rate": 0.00020500779609721365,
      "loss": 4.0425,
      "step": 183870
    },
    {
      "epoch": 0.38308333333333333,
      "grad_norm": 0.8112632632255554,
      "learning_rate": 0.00020499862425084193,
      "loss": 3.9003,
      "step": 183880
    },
    {
      "epoch": 0.3831041666666667,
      "grad_norm": 0.8394973278045654,
      "learning_rate": 0.00020498945216689793,
      "loss": 3.9065,
      "step": 183890
    },
    {
      "epoch": 0.383125,
      "grad_norm": 0.6977448463439941,
      "learning_rate": 0.00020498027984542126,
      "loss": 3.7816,
      "step": 183900
    },
    {
      "epoch": 0.38314583333333335,
      "grad_norm": 0.8980638384819031,
      "learning_rate": 0.00020497110728645156,
      "loss": 3.716,
      "step": 183910
    },
    {
      "epoch": 0.38316666666666666,
      "grad_norm": 0.8252429366111755,
      "learning_rate": 0.00020496193449002841,
      "loss": 3.7045,
      "step": 183920
    },
    {
      "epoch": 0.3831875,
      "grad_norm": 0.8959919810295105,
      "learning_rate": 0.00020495276145619147,
      "loss": 3.9025,
      "step": 183930
    },
    {
      "epoch": 0.3832083333333333,
      "grad_norm": 0.7839915156364441,
      "learning_rate": 0.00020494358818498037,
      "loss": 3.8905,
      "step": 183940
    },
    {
      "epoch": 0.3832291666666667,
      "grad_norm": 0.7793719172477722,
      "learning_rate": 0.00020493441467643472,
      "loss": 3.7655,
      "step": 183950
    },
    {
      "epoch": 0.38325,
      "grad_norm": 0.8689736127853394,
      "learning_rate": 0.0002049252409305941,
      "loss": 3.7863,
      "step": 183960
    },
    {
      "epoch": 0.38327083333333334,
      "grad_norm": 0.7334269881248474,
      "learning_rate": 0.00020491606694749825,
      "loss": 3.8403,
      "step": 183970
    },
    {
      "epoch": 0.38329166666666664,
      "grad_norm": 0.8029777407646179,
      "learning_rate": 0.00020490689272718664,
      "loss": 3.872,
      "step": 183980
    },
    {
      "epoch": 0.3833125,
      "grad_norm": 0.7109271287918091,
      "learning_rate": 0.00020489771826969906,
      "loss": 3.7726,
      "step": 183990
    },
    {
      "epoch": 0.38333333333333336,
      "grad_norm": 0.6526638269424438,
      "learning_rate": 0.00020488854357507503,
      "loss": 3.7937,
      "step": 184000
    },
    {
      "epoch": 0.38333333333333336,
      "eval_loss": 4.189948081970215,
      "eval_runtime": 8.4892,
      "eval_samples_per_second": 1.178,
      "eval_steps_per_second": 0.353,
      "step": 184000
    },
    {
      "epoch": 0.38335416666666666,
      "grad_norm": 0.7470577359199524,
      "learning_rate": 0.00020487936864335425,
      "loss": 3.8376,
      "step": 184010
    },
    {
      "epoch": 0.383375,
      "grad_norm": 0.8074518442153931,
      "learning_rate": 0.0002048701934745763,
      "loss": 3.9036,
      "step": 184020
    },
    {
      "epoch": 0.3833958333333333,
      "grad_norm": 0.9263080358505249,
      "learning_rate": 0.00020486101806878082,
      "loss": 3.8755,
      "step": 184030
    },
    {
      "epoch": 0.3834166666666667,
      "grad_norm": 0.7140902280807495,
      "learning_rate": 0.00020485184242600746,
      "loss": 3.8235,
      "step": 184040
    },
    {
      "epoch": 0.3834375,
      "grad_norm": 0.9620673656463623,
      "learning_rate": 0.00020484266654629583,
      "loss": 3.9197,
      "step": 184050
    },
    {
      "epoch": 0.38345833333333335,
      "grad_norm": 0.7756763696670532,
      "learning_rate": 0.00020483349042968565,
      "loss": 3.8926,
      "step": 184060
    },
    {
      "epoch": 0.38347916666666665,
      "grad_norm": 0.8109177947044373,
      "learning_rate": 0.00020482431407621647,
      "loss": 3.7147,
      "step": 184070
    },
    {
      "epoch": 0.3835,
      "grad_norm": 0.7583567500114441,
      "learning_rate": 0.00020481513748592795,
      "loss": 3.7999,
      "step": 184080
    },
    {
      "epoch": 0.3835208333333333,
      "grad_norm": 0.9497230648994446,
      "learning_rate": 0.00020480596065885974,
      "loss": 3.8134,
      "step": 184090
    },
    {
      "epoch": 0.38354166666666667,
      "grad_norm": 0.8373818397521973,
      "learning_rate": 0.00020479678359505146,
      "loss": 3.9121,
      "step": 184100
    },
    {
      "epoch": 0.3835625,
      "grad_norm": 0.6839744448661804,
      "learning_rate": 0.00020478760629454276,
      "loss": 3.7408,
      "step": 184110
    },
    {
      "epoch": 0.38358333333333333,
      "grad_norm": 0.8828755021095276,
      "learning_rate": 0.0002047784287573733,
      "loss": 3.7972,
      "step": 184120
    },
    {
      "epoch": 0.3836041666666667,
      "grad_norm": 0.8677889704704285,
      "learning_rate": 0.00020476925098358273,
      "loss": 3.8705,
      "step": 184130
    },
    {
      "epoch": 0.383625,
      "grad_norm": 0.9277494549751282,
      "learning_rate": 0.00020476007297321066,
      "loss": 4.0399,
      "step": 184140
    },
    {
      "epoch": 0.38364583333333335,
      "grad_norm": 0.726378858089447,
      "learning_rate": 0.0002047508947262967,
      "loss": 3.8808,
      "step": 184150
    },
    {
      "epoch": 0.38366666666666666,
      "grad_norm": 0.8674407601356506,
      "learning_rate": 0.00020474171624288064,
      "loss": 3.8475,
      "step": 184160
    },
    {
      "epoch": 0.3836875,
      "grad_norm": 1.0337724685668945,
      "learning_rate": 0.00020473253752300197,
      "loss": 3.8671,
      "step": 184170
    },
    {
      "epoch": 0.3837083333333333,
      "grad_norm": 0.7993676066398621,
      "learning_rate": 0.0002047233585667004,
      "loss": 3.8452,
      "step": 184180
    },
    {
      "epoch": 0.3837291666666667,
      "grad_norm": 0.8667246699333191,
      "learning_rate": 0.0002047141793740156,
      "loss": 3.7363,
      "step": 184190
    },
    {
      "epoch": 0.38375,
      "grad_norm": 0.6880767941474915,
      "learning_rate": 0.00020470499994498722,
      "loss": 3.5355,
      "step": 184200
    },
    {
      "epoch": 0.38377083333333334,
      "grad_norm": 0.7756609916687012,
      "learning_rate": 0.00020469582027965487,
      "loss": 3.9241,
      "step": 184210
    },
    {
      "epoch": 0.38379166666666664,
      "grad_norm": 0.8903390765190125,
      "learning_rate": 0.00020468664037805824,
      "loss": 3.9025,
      "step": 184220
    },
    {
      "epoch": 0.3838125,
      "grad_norm": 1.1234818696975708,
      "learning_rate": 0.00020467746024023696,
      "loss": 4.0829,
      "step": 184230
    },
    {
      "epoch": 0.38383333333333336,
      "grad_norm": 0.9869760870933533,
      "learning_rate": 0.0002046682798662307,
      "loss": 3.9913,
      "step": 184240
    },
    {
      "epoch": 0.38385416666666666,
      "grad_norm": 0.9538028240203857,
      "learning_rate": 0.0002046590992560791,
      "loss": 3.8611,
      "step": 184250
    },
    {
      "epoch": 0.383875,
      "grad_norm": 0.7757088541984558,
      "learning_rate": 0.00020464991840982185,
      "loss": 3.8554,
      "step": 184260
    },
    {
      "epoch": 0.3838958333333333,
      "grad_norm": 0.7117089033126831,
      "learning_rate": 0.00020464073732749858,
      "loss": 3.8901,
      "step": 184270
    },
    {
      "epoch": 0.3839166666666667,
      "grad_norm": 0.7320143580436707,
      "learning_rate": 0.00020463155600914892,
      "loss": 3.8409,
      "step": 184280
    },
    {
      "epoch": 0.3839375,
      "grad_norm": 0.8692592978477478,
      "learning_rate": 0.0002046223744548126,
      "loss": 3.9563,
      "step": 184290
    },
    {
      "epoch": 0.38395833333333335,
      "grad_norm": 0.8145977854728699,
      "learning_rate": 0.00020461319266452924,
      "loss": 3.8847,
      "step": 184300
    },
    {
      "epoch": 0.38397916666666665,
      "grad_norm": 0.7696248292922974,
      "learning_rate": 0.00020460401063833846,
      "loss": 3.9705,
      "step": 184310
    },
    {
      "epoch": 0.384,
      "grad_norm": 0.7326462268829346,
      "learning_rate": 0.00020459482837628,
      "loss": 3.8169,
      "step": 184320
    },
    {
      "epoch": 0.3840208333333333,
      "grad_norm": 0.8737544417381287,
      "learning_rate": 0.0002045856458783935,
      "loss": 3.7425,
      "step": 184330
    },
    {
      "epoch": 0.38404166666666667,
      "grad_norm": 0.6952338218688965,
      "learning_rate": 0.0002045764631447186,
      "loss": 3.9217,
      "step": 184340
    },
    {
      "epoch": 0.3840625,
      "grad_norm": 0.8543862700462341,
      "learning_rate": 0.00020456728017529497,
      "loss": 3.8397,
      "step": 184350
    },
    {
      "epoch": 0.38408333333333333,
      "grad_norm": 0.6725255846977234,
      "learning_rate": 0.00020455809697016234,
      "loss": 3.88,
      "step": 184360
    },
    {
      "epoch": 0.3841041666666667,
      "grad_norm": 0.7695456743240356,
      "learning_rate": 0.00020454891352936032,
      "loss": 3.9436,
      "step": 184370
    },
    {
      "epoch": 0.384125,
      "grad_norm": 0.8635700941085815,
      "learning_rate": 0.00020453972985292853,
      "loss": 3.8289,
      "step": 184380
    },
    {
      "epoch": 0.38414583333333335,
      "grad_norm": 0.8543024063110352,
      "learning_rate": 0.00020453054594090676,
      "loss": 4.0053,
      "step": 184390
    },
    {
      "epoch": 0.38416666666666666,
      "grad_norm": 0.9201146364212036,
      "learning_rate": 0.00020452136179333456,
      "loss": 3.7849,
      "step": 184400
    },
    {
      "epoch": 0.3841875,
      "grad_norm": 0.7689265608787537,
      "learning_rate": 0.00020451217741025167,
      "loss": 3.9126,
      "step": 184410
    },
    {
      "epoch": 0.3842083333333333,
      "grad_norm": 0.8203936815261841,
      "learning_rate": 0.00020450299279169777,
      "loss": 3.8514,
      "step": 184420
    },
    {
      "epoch": 0.3842291666666667,
      "grad_norm": 0.7768281698226929,
      "learning_rate": 0.00020449380793771254,
      "loss": 3.9733,
      "step": 184430
    },
    {
      "epoch": 0.38425,
      "grad_norm": 0.70868980884552,
      "learning_rate": 0.00020448462284833557,
      "loss": 3.9236,
      "step": 184440
    },
    {
      "epoch": 0.38427083333333334,
      "grad_norm": 0.845072329044342,
      "learning_rate": 0.00020447543752360662,
      "loss": 3.8713,
      "step": 184450
    },
    {
      "epoch": 0.38429166666666664,
      "grad_norm": 0.8544943332672119,
      "learning_rate": 0.00020446625196356537,
      "loss": 3.8007,
      "step": 184460
    },
    {
      "epoch": 0.3843125,
      "grad_norm": 0.7260763645172119,
      "learning_rate": 0.00020445706616825144,
      "loss": 3.9331,
      "step": 184470
    },
    {
      "epoch": 0.38433333333333336,
      "grad_norm": 0.8321027755737305,
      "learning_rate": 0.00020444788013770454,
      "loss": 3.9585,
      "step": 184480
    },
    {
      "epoch": 0.38435416666666666,
      "grad_norm": 0.893405556678772,
      "learning_rate": 0.00020443869387196434,
      "loss": 3.7804,
      "step": 184490
    },
    {
      "epoch": 0.384375,
      "grad_norm": 0.7172912359237671,
      "learning_rate": 0.0002044295073710706,
      "loss": 3.9512,
      "step": 184500
    },
    {
      "epoch": 0.3843958333333333,
      "grad_norm": 0.885361909866333,
      "learning_rate": 0.00020442032063506285,
      "loss": 3.8936,
      "step": 184510
    },
    {
      "epoch": 0.3844166666666667,
      "grad_norm": 0.6819027066230774,
      "learning_rate": 0.00020441113366398086,
      "loss": 3.8488,
      "step": 184520
    },
    {
      "epoch": 0.3844375,
      "grad_norm": 0.7616755962371826,
      "learning_rate": 0.00020440194645786436,
      "loss": 3.7608,
      "step": 184530
    },
    {
      "epoch": 0.38445833333333335,
      "grad_norm": 0.7778728604316711,
      "learning_rate": 0.00020439275901675298,
      "loss": 3.9002,
      "step": 184540
    },
    {
      "epoch": 0.38447916666666665,
      "grad_norm": 0.7284071445465088,
      "learning_rate": 0.00020438357134068636,
      "loss": 3.7918,
      "step": 184550
    },
    {
      "epoch": 0.3845,
      "grad_norm": 0.772544801235199,
      "learning_rate": 0.0002043743834297043,
      "loss": 3.7959,
      "step": 184560
    },
    {
      "epoch": 0.3845208333333333,
      "grad_norm": 0.6648450493812561,
      "learning_rate": 0.00020436519528384638,
      "loss": 3.9358,
      "step": 184570
    },
    {
      "epoch": 0.38454166666666667,
      "grad_norm": 0.7468122243881226,
      "learning_rate": 0.00020435600690315236,
      "loss": 3.9307,
      "step": 184580
    },
    {
      "epoch": 0.3845625,
      "grad_norm": 0.7072462439537048,
      "learning_rate": 0.00020434681828766188,
      "loss": 3.8883,
      "step": 184590
    },
    {
      "epoch": 0.38458333333333333,
      "grad_norm": 0.8685668706893921,
      "learning_rate": 0.0002043376294374147,
      "loss": 3.7646,
      "step": 184600
    },
    {
      "epoch": 0.3846041666666667,
      "grad_norm": 0.967674970626831,
      "learning_rate": 0.00020432844035245043,
      "loss": 3.8508,
      "step": 184610
    },
    {
      "epoch": 0.384625,
      "grad_norm": 0.6637938618659973,
      "learning_rate": 0.00020431925103280883,
      "loss": 3.773,
      "step": 184620
    },
    {
      "epoch": 0.38464583333333335,
      "grad_norm": 0.6779825091362,
      "learning_rate": 0.00020431006147852954,
      "loss": 3.8661,
      "step": 184630
    },
    {
      "epoch": 0.38466666666666666,
      "grad_norm": 0.7861343026161194,
      "learning_rate": 0.00020430087168965232,
      "loss": 3.951,
      "step": 184640
    },
    {
      "epoch": 0.3846875,
      "grad_norm": 1.0322004556655884,
      "learning_rate": 0.00020429168166621677,
      "loss": 3.9868,
      "step": 184650
    },
    {
      "epoch": 0.3847083333333333,
      "grad_norm": 1.0810601711273193,
      "learning_rate": 0.00020428249140826268,
      "loss": 3.9152,
      "step": 184660
    },
    {
      "epoch": 0.3847291666666667,
      "grad_norm": 0.9244129657745361,
      "learning_rate": 0.00020427330091582973,
      "loss": 3.7741,
      "step": 184670
    },
    {
      "epoch": 0.38475,
      "grad_norm": 0.7333813905715942,
      "learning_rate": 0.00020426411018895758,
      "loss": 3.8336,
      "step": 184680
    },
    {
      "epoch": 0.38477083333333334,
      "grad_norm": 0.7205947637557983,
      "learning_rate": 0.00020425491922768593,
      "loss": 3.9033,
      "step": 184690
    },
    {
      "epoch": 0.38479166666666664,
      "grad_norm": 0.8750191330909729,
      "learning_rate": 0.00020424572803205457,
      "loss": 3.9159,
      "step": 184700
    },
    {
      "epoch": 0.3848125,
      "grad_norm": 0.7133076190948486,
      "learning_rate": 0.00020423653660210308,
      "loss": 3.7701,
      "step": 184710
    },
    {
      "epoch": 0.38483333333333336,
      "grad_norm": 0.7272239923477173,
      "learning_rate": 0.00020422734493787126,
      "loss": 3.8642,
      "step": 184720
    },
    {
      "epoch": 0.38485416666666666,
      "grad_norm": 0.9495100378990173,
      "learning_rate": 0.00020421815303939874,
      "loss": 3.8995,
      "step": 184730
    },
    {
      "epoch": 0.384875,
      "grad_norm": 0.7095576524734497,
      "learning_rate": 0.00020420896090672528,
      "loss": 4.0791,
      "step": 184740
    },
    {
      "epoch": 0.3848958333333333,
      "grad_norm": 1.3594889640808105,
      "learning_rate": 0.00020419976853989057,
      "loss": 3.7624,
      "step": 184750
    },
    {
      "epoch": 0.3849166666666667,
      "grad_norm": 0.9255937933921814,
      "learning_rate": 0.00020419057593893427,
      "loss": 3.8905,
      "step": 184760
    },
    {
      "epoch": 0.3849375,
      "grad_norm": 0.7618548274040222,
      "learning_rate": 0.00020418138310389618,
      "loss": 3.7854,
      "step": 184770
    },
    {
      "epoch": 0.38495833333333335,
      "grad_norm": 0.752632200717926,
      "learning_rate": 0.00020417219003481598,
      "loss": 3.7931,
      "step": 184780
    },
    {
      "epoch": 0.38497916666666665,
      "grad_norm": 0.8110911846160889,
      "learning_rate": 0.0002041629967317333,
      "loss": 3.7273,
      "step": 184790
    },
    {
      "epoch": 0.385,
      "grad_norm": 0.954369068145752,
      "learning_rate": 0.00020415380319468795,
      "loss": 3.854,
      "step": 184800
    },
    {
      "epoch": 0.3850208333333333,
      "grad_norm": 0.7323791980743408,
      "learning_rate": 0.0002041446094237196,
      "loss": 4.0298,
      "step": 184810
    },
    {
      "epoch": 0.38504166666666667,
      "grad_norm": 0.6881086230278015,
      "learning_rate": 0.00020413541541886796,
      "loss": 3.8416,
      "step": 184820
    },
    {
      "epoch": 0.3850625,
      "grad_norm": 0.741424024105072,
      "learning_rate": 0.00020412622118017276,
      "loss": 3.9384,
      "step": 184830
    },
    {
      "epoch": 0.38508333333333333,
      "grad_norm": 0.8105107545852661,
      "learning_rate": 0.00020411702670767375,
      "loss": 3.8437,
      "step": 184840
    },
    {
      "epoch": 0.3851041666666667,
      "grad_norm": 0.7617461085319519,
      "learning_rate": 0.00020410783200141053,
      "loss": 3.7193,
      "step": 184850
    },
    {
      "epoch": 0.385125,
      "grad_norm": 0.692283034324646,
      "learning_rate": 0.00020409863706142295,
      "loss": 4.003,
      "step": 184860
    },
    {
      "epoch": 0.38514583333333335,
      "grad_norm": 0.7618789076805115,
      "learning_rate": 0.00020408944188775066,
      "loss": 3.8844,
      "step": 184870
    },
    {
      "epoch": 0.38516666666666666,
      "grad_norm": 0.6700859665870667,
      "learning_rate": 0.00020408024648043335,
      "loss": 3.8344,
      "step": 184880
    },
    {
      "epoch": 0.3851875,
      "grad_norm": 0.7193461656570435,
      "learning_rate": 0.00020407105083951083,
      "loss": 3.7954,
      "step": 184890
    },
    {
      "epoch": 0.3852083333333333,
      "grad_norm": 0.8839351534843445,
      "learning_rate": 0.00020406185496502278,
      "loss": 3.887,
      "step": 184900
    },
    {
      "epoch": 0.3852291666666667,
      "grad_norm": 0.7025924921035767,
      "learning_rate": 0.00020405265885700889,
      "loss": 3.7777,
      "step": 184910
    },
    {
      "epoch": 0.38525,
      "grad_norm": 0.8432847857475281,
      "learning_rate": 0.0002040434625155089,
      "loss": 3.7682,
      "step": 184920
    },
    {
      "epoch": 0.38527083333333334,
      "grad_norm": 0.6743607521057129,
      "learning_rate": 0.00020403426594056256,
      "loss": 3.8351,
      "step": 184930
    },
    {
      "epoch": 0.38529166666666664,
      "grad_norm": 0.7006139755249023,
      "learning_rate": 0.00020402506913220957,
      "loss": 3.7813,
      "step": 184940
    },
    {
      "epoch": 0.3853125,
      "grad_norm": 0.7184370160102844,
      "learning_rate": 0.00020401587209048968,
      "loss": 3.7068,
      "step": 184950
    },
    {
      "epoch": 0.38533333333333336,
      "grad_norm": 0.7683431506156921,
      "learning_rate": 0.0002040066748154426,
      "loss": 3.8336,
      "step": 184960
    },
    {
      "epoch": 0.38535416666666666,
      "grad_norm": 0.8159494996070862,
      "learning_rate": 0.00020399747730710804,
      "loss": 3.7982,
      "step": 184970
    },
    {
      "epoch": 0.385375,
      "grad_norm": 0.8467214107513428,
      "learning_rate": 0.00020398827956552578,
      "loss": 3.8464,
      "step": 184980
    },
    {
      "epoch": 0.3853958333333333,
      "grad_norm": 0.7905129790306091,
      "learning_rate": 0.0002039790815907355,
      "loss": 3.8539,
      "step": 184990
    },
    {
      "epoch": 0.3854166666666667,
      "grad_norm": 0.813246488571167,
      "learning_rate": 0.00020396988338277695,
      "loss": 3.7619,
      "step": 185000
    },
    {
      "epoch": 0.3854166666666667,
      "eval_loss": 4.17980432510376,
      "eval_runtime": 8.0662,
      "eval_samples_per_second": 1.24,
      "eval_steps_per_second": 0.372,
      "step": 185000
    },
    {
      "epoch": 0.3854375,
      "grad_norm": 1.165526032447815,
      "learning_rate": 0.00020396068494168995,
      "loss": 3.7672,
      "step": 185010
    },
    {
      "epoch": 0.38545833333333335,
      "grad_norm": 0.8632137775421143,
      "learning_rate": 0.00020395148626751403,
      "loss": 3.7546,
      "step": 185020
    },
    {
      "epoch": 0.38547916666666665,
      "grad_norm": 0.7273595929145813,
      "learning_rate": 0.0002039422873602891,
      "loss": 4.0229,
      "step": 185030
    },
    {
      "epoch": 0.3855,
      "grad_norm": 0.8571352362632751,
      "learning_rate": 0.00020393308822005485,
      "loss": 3.9354,
      "step": 185040
    },
    {
      "epoch": 0.3855208333333333,
      "grad_norm": 0.7326648831367493,
      "learning_rate": 0.00020392388884685097,
      "loss": 3.8696,
      "step": 185050
    },
    {
      "epoch": 0.38554166666666667,
      "grad_norm": 0.8329343795776367,
      "learning_rate": 0.0002039146892407173,
      "loss": 3.8903,
      "step": 185060
    },
    {
      "epoch": 0.3855625,
      "grad_norm": 0.7949770092964172,
      "learning_rate": 0.00020390548940169345,
      "loss": 3.7814,
      "step": 185070
    },
    {
      "epoch": 0.38558333333333333,
      "grad_norm": 0.6909623146057129,
      "learning_rate": 0.00020389628932981926,
      "loss": 3.7707,
      "step": 185080
    },
    {
      "epoch": 0.3856041666666667,
      "grad_norm": 0.7078709006309509,
      "learning_rate": 0.0002038870890251344,
      "loss": 3.9735,
      "step": 185090
    },
    {
      "epoch": 0.385625,
      "grad_norm": 0.857683002948761,
      "learning_rate": 0.00020387788848767868,
      "loss": 3.7632,
      "step": 185100
    },
    {
      "epoch": 0.38564583333333335,
      "grad_norm": 0.7764294147491455,
      "learning_rate": 0.0002038686877174918,
      "loss": 3.9342,
      "step": 185110
    },
    {
      "epoch": 0.38566666666666666,
      "grad_norm": 0.7804339528083801,
      "learning_rate": 0.0002038594867146135,
      "loss": 3.9318,
      "step": 185120
    },
    {
      "epoch": 0.3856875,
      "grad_norm": 0.7464151382446289,
      "learning_rate": 0.0002038502854790835,
      "loss": 3.665,
      "step": 185130
    },
    {
      "epoch": 0.3857083333333333,
      "grad_norm": 0.737450897693634,
      "learning_rate": 0.00020384108401094167,
      "loss": 3.792,
      "step": 185140
    },
    {
      "epoch": 0.3857291666666667,
      "grad_norm": 0.7810535430908203,
      "learning_rate": 0.0002038318823102276,
      "loss": 4.0465,
      "step": 185150
    },
    {
      "epoch": 0.38575,
      "grad_norm": 0.7948051691055298,
      "learning_rate": 0.00020382268037698111,
      "loss": 3.949,
      "step": 185160
    },
    {
      "epoch": 0.38577083333333334,
      "grad_norm": 0.7217899560928345,
      "learning_rate": 0.00020381347821124202,
      "loss": 3.8479,
      "step": 185170
    },
    {
      "epoch": 0.38579166666666664,
      "grad_norm": 0.7736271619796753,
      "learning_rate": 0.00020380427581304992,
      "loss": 3.8969,
      "step": 185180
    },
    {
      "epoch": 0.3858125,
      "grad_norm": 0.7796666622161865,
      "learning_rate": 0.00020379507318244467,
      "loss": 3.9967,
      "step": 185190
    },
    {
      "epoch": 0.3858333333333333,
      "grad_norm": 0.7979621291160583,
      "learning_rate": 0.00020378587031946602,
      "loss": 3.9442,
      "step": 185200
    },
    {
      "epoch": 0.38585416666666666,
      "grad_norm": 0.8244317770004272,
      "learning_rate": 0.0002037766672241537,
      "loss": 3.7465,
      "step": 185210
    },
    {
      "epoch": 0.385875,
      "grad_norm": 0.7480159401893616,
      "learning_rate": 0.0002037674638965474,
      "loss": 3.9706,
      "step": 185220
    },
    {
      "epoch": 0.3858958333333333,
      "grad_norm": 0.7362226247787476,
      "learning_rate": 0.000203758260336687,
      "loss": 3.9718,
      "step": 185230
    },
    {
      "epoch": 0.3859166666666667,
      "grad_norm": 0.8704776167869568,
      "learning_rate": 0.00020374905654461218,
      "loss": 4.0418,
      "step": 185240
    },
    {
      "epoch": 0.3859375,
      "grad_norm": 0.8292331695556641,
      "learning_rate": 0.0002037398525203627,
      "loss": 3.9363,
      "step": 185250
    },
    {
      "epoch": 0.38595833333333335,
      "grad_norm": 0.8045403957366943,
      "learning_rate": 0.00020373064826397836,
      "loss": 3.8547,
      "step": 185260
    },
    {
      "epoch": 0.38597916666666665,
      "grad_norm": 0.7404030561447144,
      "learning_rate": 0.00020372144377549885,
      "loss": 3.7855,
      "step": 185270
    },
    {
      "epoch": 0.386,
      "grad_norm": 0.7182057499885559,
      "learning_rate": 0.000203712239054964,
      "loss": 3.8643,
      "step": 185280
    },
    {
      "epoch": 0.3860208333333333,
      "grad_norm": 0.809219479560852,
      "learning_rate": 0.0002037030341024135,
      "loss": 3.9698,
      "step": 185290
    },
    {
      "epoch": 0.38604166666666667,
      "grad_norm": 0.7046252489089966,
      "learning_rate": 0.00020369382891788717,
      "loss": 3.8806,
      "step": 185300
    },
    {
      "epoch": 0.3860625,
      "grad_norm": 0.8098703026771545,
      "learning_rate": 0.0002036846235014248,
      "loss": 3.8951,
      "step": 185310
    },
    {
      "epoch": 0.38608333333333333,
      "grad_norm": 0.7022702097892761,
      "learning_rate": 0.000203675417853066,
      "loss": 3.813,
      "step": 185320
    },
    {
      "epoch": 0.3861041666666667,
      "grad_norm": 0.7507396340370178,
      "learning_rate": 0.0002036662119728507,
      "loss": 3.9866,
      "step": 185330
    },
    {
      "epoch": 0.386125,
      "grad_norm": 0.7120214700698853,
      "learning_rate": 0.00020365700586081869,
      "loss": 3.8938,
      "step": 185340
    },
    {
      "epoch": 0.38614583333333335,
      "grad_norm": 0.7614344358444214,
      "learning_rate": 0.0002036477995170095,
      "loss": 3.9766,
      "step": 185350
    },
    {
      "epoch": 0.38616666666666666,
      "grad_norm": 0.6917430758476257,
      "learning_rate": 0.00020363859294146312,
      "loss": 3.8242,
      "step": 185360
    },
    {
      "epoch": 0.3861875,
      "grad_norm": 0.7087938189506531,
      "learning_rate": 0.0002036293861342193,
      "loss": 3.7987,
      "step": 185370
    },
    {
      "epoch": 0.3862083333333333,
      "grad_norm": 0.7772992253303528,
      "learning_rate": 0.00020362017909531768,
      "loss": 3.9352,
      "step": 185380
    },
    {
      "epoch": 0.3862291666666667,
      "grad_norm": 0.701147198677063,
      "learning_rate": 0.00020361097182479814,
      "loss": 3.7233,
      "step": 185390
    },
    {
      "epoch": 0.38625,
      "grad_norm": 1.038955807685852,
      "learning_rate": 0.00020360176432270043,
      "loss": 3.9291,
      "step": 185400
    },
    {
      "epoch": 0.38627083333333334,
      "grad_norm": 0.9873120784759521,
      "learning_rate": 0.00020359255658906433,
      "loss": 3.817,
      "step": 185410
    },
    {
      "epoch": 0.38629166666666664,
      "grad_norm": 0.6724789142608643,
      "learning_rate": 0.00020358334862392955,
      "loss": 3.7953,
      "step": 185420
    },
    {
      "epoch": 0.3863125,
      "grad_norm": 0.6837841868400574,
      "learning_rate": 0.00020357414042733595,
      "loss": 3.9712,
      "step": 185430
    },
    {
      "epoch": 0.3863333333333333,
      "grad_norm": 0.8929346799850464,
      "learning_rate": 0.00020356493199932328,
      "loss": 3.903,
      "step": 185440
    },
    {
      "epoch": 0.38635416666666667,
      "grad_norm": 0.7369946241378784,
      "learning_rate": 0.00020355572333993129,
      "loss": 3.746,
      "step": 185450
    },
    {
      "epoch": 0.386375,
      "grad_norm": 0.7942480444908142,
      "learning_rate": 0.00020354651444919977,
      "loss": 3.8833,
      "step": 185460
    },
    {
      "epoch": 0.3863958333333333,
      "grad_norm": 0.6919618248939514,
      "learning_rate": 0.00020353730532716852,
      "loss": 4.0501,
      "step": 185470
    },
    {
      "epoch": 0.3864166666666667,
      "grad_norm": 0.7949250340461731,
      "learning_rate": 0.00020352809597387728,
      "loss": 3.9492,
      "step": 185480
    },
    {
      "epoch": 0.3864375,
      "grad_norm": 0.885734498500824,
      "learning_rate": 0.00020351888638936585,
      "loss": 3.7898,
      "step": 185490
    },
    {
      "epoch": 0.38645833333333335,
      "grad_norm": 0.6806196570396423,
      "learning_rate": 0.00020350967657367403,
      "loss": 3.9484,
      "step": 185500
    },
    {
      "epoch": 0.38647916666666665,
      "grad_norm": 0.7574902772903442,
      "learning_rate": 0.0002035004665268416,
      "loss": 3.9255,
      "step": 185510
    },
    {
      "epoch": 0.3865,
      "grad_norm": 0.8233001232147217,
      "learning_rate": 0.00020349125624890833,
      "loss": 3.7258,
      "step": 185520
    },
    {
      "epoch": 0.3865208333333333,
      "grad_norm": 0.822024405002594,
      "learning_rate": 0.00020348204573991395,
      "loss": 4.0151,
      "step": 185530
    },
    {
      "epoch": 0.3865416666666667,
      "grad_norm": 0.7795882225036621,
      "learning_rate": 0.0002034728349998984,
      "loss": 3.8819,
      "step": 185540
    },
    {
      "epoch": 0.3865625,
      "grad_norm": 0.7401202917098999,
      "learning_rate": 0.00020346362402890125,
      "loss": 3.8136,
      "step": 185550
    },
    {
      "epoch": 0.38658333333333333,
      "grad_norm": 0.7891374826431274,
      "learning_rate": 0.0002034544128269625,
      "loss": 3.9533,
      "step": 185560
    },
    {
      "epoch": 0.3866041666666667,
      "grad_norm": 0.6599395275115967,
      "learning_rate": 0.00020344520139412183,
      "loss": 3.8866,
      "step": 185570
    },
    {
      "epoch": 0.386625,
      "grad_norm": 0.9401381015777588,
      "learning_rate": 0.00020343598973041906,
      "loss": 3.9342,
      "step": 185580
    },
    {
      "epoch": 0.38664583333333336,
      "grad_norm": 0.8507123589515686,
      "learning_rate": 0.0002034267778358939,
      "loss": 3.988,
      "step": 185590
    },
    {
      "epoch": 0.38666666666666666,
      "grad_norm": 0.77707439661026,
      "learning_rate": 0.00020341756571058624,
      "loss": 3.8253,
      "step": 185600
    },
    {
      "epoch": 0.3866875,
      "grad_norm": 0.7471888661384583,
      "learning_rate": 0.00020340835335453585,
      "loss": 3.8517,
      "step": 185610
    },
    {
      "epoch": 0.3867083333333333,
      "grad_norm": 0.7735704183578491,
      "learning_rate": 0.00020339914076778252,
      "loss": 3.9348,
      "step": 185620
    },
    {
      "epoch": 0.3867291666666667,
      "grad_norm": 0.8309678435325623,
      "learning_rate": 0.00020338992795036604,
      "loss": 3.9469,
      "step": 185630
    },
    {
      "epoch": 0.38675,
      "grad_norm": 0.8764657378196716,
      "learning_rate": 0.00020338071490232616,
      "loss": 3.8668,
      "step": 185640
    },
    {
      "epoch": 0.38677083333333334,
      "grad_norm": 0.9198101758956909,
      "learning_rate": 0.00020337150162370274,
      "loss": 3.8966,
      "step": 185650
    },
    {
      "epoch": 0.38679166666666664,
      "grad_norm": 0.698399543762207,
      "learning_rate": 0.0002033622881145356,
      "loss": 3.9064,
      "step": 185660
    },
    {
      "epoch": 0.3868125,
      "grad_norm": 0.753882884979248,
      "learning_rate": 0.00020335307437486445,
      "loss": 3.9499,
      "step": 185670
    },
    {
      "epoch": 0.3868333333333333,
      "grad_norm": 0.6788793802261353,
      "learning_rate": 0.0002033438604047292,
      "loss": 3.6605,
      "step": 185680
    },
    {
      "epoch": 0.38685416666666667,
      "grad_norm": 0.9630357623100281,
      "learning_rate": 0.0002033346462041695,
      "loss": 3.957,
      "step": 185690
    },
    {
      "epoch": 0.386875,
      "grad_norm": 0.7593013048171997,
      "learning_rate": 0.00020332543177322532,
      "loss": 3.8488,
      "step": 185700
    },
    {
      "epoch": 0.3868958333333333,
      "grad_norm": 0.7991886734962463,
      "learning_rate": 0.00020331621711193633,
      "loss": 3.745,
      "step": 185710
    },
    {
      "epoch": 0.3869166666666667,
      "grad_norm": 0.7604977488517761,
      "learning_rate": 0.0002033070022203424,
      "loss": 3.6593,
      "step": 185720
    },
    {
      "epoch": 0.3869375,
      "grad_norm": 0.7004989981651306,
      "learning_rate": 0.0002032977870984833,
      "loss": 3.9313,
      "step": 185730
    },
    {
      "epoch": 0.38695833333333335,
      "grad_norm": 0.7587642669677734,
      "learning_rate": 0.00020328857174639893,
      "loss": 3.8757,
      "step": 185740
    },
    {
      "epoch": 0.38697916666666665,
      "grad_norm": 0.8213560581207275,
      "learning_rate": 0.00020327935616412893,
      "loss": 3.6697,
      "step": 185750
    },
    {
      "epoch": 0.387,
      "grad_norm": 0.9484999775886536,
      "learning_rate": 0.0002032701403517133,
      "loss": 3.8882,
      "step": 185760
    },
    {
      "epoch": 0.3870208333333333,
      "grad_norm": 0.7926416397094727,
      "learning_rate": 0.00020326092430919166,
      "loss": 3.7719,
      "step": 185770
    },
    {
      "epoch": 0.3870416666666667,
      "grad_norm": 0.6661025285720825,
      "learning_rate": 0.00020325170803660393,
      "loss": 3.8024,
      "step": 185780
    },
    {
      "epoch": 0.3870625,
      "grad_norm": 0.722271740436554,
      "learning_rate": 0.00020324249153398993,
      "loss": 3.8197,
      "step": 185790
    },
    {
      "epoch": 0.38708333333333333,
      "grad_norm": 0.6863305568695068,
      "learning_rate": 0.00020323327480138942,
      "loss": 3.9059,
      "step": 185800
    },
    {
      "epoch": 0.3871041666666667,
      "grad_norm": 0.8599027991294861,
      "learning_rate": 0.00020322405783884225,
      "loss": 3.9481,
      "step": 185810
    },
    {
      "epoch": 0.387125,
      "grad_norm": 0.8106309175491333,
      "learning_rate": 0.00020321484064638818,
      "loss": 3.8671,
      "step": 185820
    },
    {
      "epoch": 0.38714583333333336,
      "grad_norm": 0.7713215947151184,
      "learning_rate": 0.0002032056232240671,
      "loss": 4.0209,
      "step": 185830
    },
    {
      "epoch": 0.38716666666666666,
      "grad_norm": 0.7976604700088501,
      "learning_rate": 0.00020319640557191877,
      "loss": 3.5931,
      "step": 185840
    },
    {
      "epoch": 0.3871875,
      "grad_norm": 0.7829596996307373,
      "learning_rate": 0.000203187187689983,
      "loss": 3.7477,
      "step": 185850
    },
    {
      "epoch": 0.3872083333333333,
      "grad_norm": 0.8006004691123962,
      "learning_rate": 0.00020317796957829967,
      "loss": 3.7701,
      "step": 185860
    },
    {
      "epoch": 0.3872291666666667,
      "grad_norm": 0.7918956875801086,
      "learning_rate": 0.00020316875123690858,
      "loss": 3.8873,
      "step": 185870
    },
    {
      "epoch": 0.38725,
      "grad_norm": 0.8108767867088318,
      "learning_rate": 0.00020315953266584948,
      "loss": 3.9555,
      "step": 185880
    },
    {
      "epoch": 0.38727083333333334,
      "grad_norm": 0.8003575205802917,
      "learning_rate": 0.00020315031386516227,
      "loss": 3.9382,
      "step": 185890
    },
    {
      "epoch": 0.38729166666666665,
      "grad_norm": 0.8235945105552673,
      "learning_rate": 0.00020314109483488677,
      "loss": 3.9115,
      "step": 185900
    },
    {
      "epoch": 0.3873125,
      "grad_norm": 0.6842561960220337,
      "learning_rate": 0.00020313187557506276,
      "loss": 3.7281,
      "step": 185910
    },
    {
      "epoch": 0.3873333333333333,
      "grad_norm": 0.7361241579055786,
      "learning_rate": 0.00020312265608573,
      "loss": 3.8541,
      "step": 185920
    },
    {
      "epoch": 0.38735416666666667,
      "grad_norm": 1.033736228942871,
      "learning_rate": 0.0002031134363669285,
      "loss": 3.8869,
      "step": 185930
    },
    {
      "epoch": 0.387375,
      "grad_norm": 0.8184711933135986,
      "learning_rate": 0.00020310421641869792,
      "loss": 3.7523,
      "step": 185940
    },
    {
      "epoch": 0.38739583333333333,
      "grad_norm": 0.6979275345802307,
      "learning_rate": 0.00020309499624107812,
      "loss": 3.8461,
      "step": 185950
    },
    {
      "epoch": 0.3874166666666667,
      "grad_norm": 0.8761763572692871,
      "learning_rate": 0.00020308577583410905,
      "loss": 3.8212,
      "step": 185960
    },
    {
      "epoch": 0.3874375,
      "grad_norm": 0.6751614809036255,
      "learning_rate": 0.00020307655519783034,
      "loss": 3.7783,
      "step": 185970
    },
    {
      "epoch": 0.38745833333333335,
      "grad_norm": 0.6980342268943787,
      "learning_rate": 0.00020306733433228196,
      "loss": 3.691,
      "step": 185980
    },
    {
      "epoch": 0.38747916666666665,
      "grad_norm": 1.0428825616836548,
      "learning_rate": 0.00020305811323750373,
      "loss": 3.7468,
      "step": 185990
    },
    {
      "epoch": 0.3875,
      "grad_norm": 0.7641571760177612,
      "learning_rate": 0.0002030488919135354,
      "loss": 3.6499,
      "step": 186000
    },
    {
      "epoch": 0.3875,
      "eval_loss": 4.1672186851501465,
      "eval_runtime": 11.1627,
      "eval_samples_per_second": 0.896,
      "eval_steps_per_second": 0.269,
      "step": 186000
    },
    {
      "epoch": 0.3875208333333333,
      "grad_norm": 0.7474573850631714,
      "learning_rate": 0.0002030396703604169,
      "loss": 3.6926,
      "step": 186010
    },
    {
      "epoch": 0.3875416666666667,
      "grad_norm": 0.7229782938957214,
      "learning_rate": 0.000203030448578188,
      "loss": 3.8589,
      "step": 186020
    },
    {
      "epoch": 0.3875625,
      "grad_norm": 0.6948051452636719,
      "learning_rate": 0.00020302122656688858,
      "loss": 3.8049,
      "step": 186030
    },
    {
      "epoch": 0.38758333333333334,
      "grad_norm": 0.8276007771492004,
      "learning_rate": 0.00020301200432655843,
      "loss": 3.8058,
      "step": 186040
    },
    {
      "epoch": 0.3876041666666667,
      "grad_norm": 0.943095862865448,
      "learning_rate": 0.00020300278185723738,
      "loss": 3.9461,
      "step": 186050
    },
    {
      "epoch": 0.387625,
      "grad_norm": 0.7068561911582947,
      "learning_rate": 0.0002029935591589653,
      "loss": 3.6642,
      "step": 186060
    },
    {
      "epoch": 0.38764583333333336,
      "grad_norm": 0.8551464676856995,
      "learning_rate": 0.00020298433623178205,
      "loss": 3.8281,
      "step": 186070
    },
    {
      "epoch": 0.38766666666666666,
      "grad_norm": 0.7546170353889465,
      "learning_rate": 0.00020297511307572743,
      "loss": 3.8148,
      "step": 186080
    },
    {
      "epoch": 0.3876875,
      "grad_norm": 0.7594446539878845,
      "learning_rate": 0.00020296588969084126,
      "loss": 3.7939,
      "step": 186090
    },
    {
      "epoch": 0.3877083333333333,
      "grad_norm": 0.8749465942382812,
      "learning_rate": 0.0002029566660771634,
      "loss": 3.6648,
      "step": 186100
    },
    {
      "epoch": 0.3877291666666667,
      "grad_norm": 0.7332690954208374,
      "learning_rate": 0.00020294744223473376,
      "loss": 3.7348,
      "step": 186110
    },
    {
      "epoch": 0.38775,
      "grad_norm": 0.7263673543930054,
      "learning_rate": 0.00020293821816359206,
      "loss": 3.8248,
      "step": 186120
    },
    {
      "epoch": 0.38777083333333334,
      "grad_norm": 0.7366303205490112,
      "learning_rate": 0.0002029289938637783,
      "loss": 3.9341,
      "step": 186130
    },
    {
      "epoch": 0.38779166666666665,
      "grad_norm": 0.8264275193214417,
      "learning_rate": 0.00020291976933533218,
      "loss": 3.7542,
      "step": 186140
    },
    {
      "epoch": 0.3878125,
      "grad_norm": 0.7784681916236877,
      "learning_rate": 0.0002029105445782936,
      "loss": 3.7085,
      "step": 186150
    },
    {
      "epoch": 0.3878333333333333,
      "grad_norm": 0.9031888246536255,
      "learning_rate": 0.00020290131959270247,
      "loss": 3.8002,
      "step": 186160
    },
    {
      "epoch": 0.38785416666666667,
      "grad_norm": 0.8341600298881531,
      "learning_rate": 0.0002028920943785985,
      "loss": 3.9896,
      "step": 186170
    },
    {
      "epoch": 0.387875,
      "grad_norm": 0.893777072429657,
      "learning_rate": 0.00020288286893602167,
      "loss": 3.9744,
      "step": 186180
    },
    {
      "epoch": 0.38789583333333333,
      "grad_norm": 0.7585930824279785,
      "learning_rate": 0.00020287364326501177,
      "loss": 3.8297,
      "step": 186190
    },
    {
      "epoch": 0.3879166666666667,
      "grad_norm": 0.8221830725669861,
      "learning_rate": 0.00020286441736560865,
      "loss": 3.8697,
      "step": 186200
    },
    {
      "epoch": 0.3879375,
      "grad_norm": 0.8273375630378723,
      "learning_rate": 0.0002028551912378522,
      "loss": 3.8035,
      "step": 186210
    },
    {
      "epoch": 0.38795833333333335,
      "grad_norm": 0.7908914089202881,
      "learning_rate": 0.0002028459648817822,
      "loss": 3.841,
      "step": 186220
    },
    {
      "epoch": 0.38797916666666665,
      "grad_norm": 0.8441260457038879,
      "learning_rate": 0.00020283673829743856,
      "loss": 3.8324,
      "step": 186230
    },
    {
      "epoch": 0.388,
      "grad_norm": 0.7254923582077026,
      "learning_rate": 0.00020282751148486118,
      "loss": 3.675,
      "step": 186240
    },
    {
      "epoch": 0.3880208333333333,
      "grad_norm": 0.6956819295883179,
      "learning_rate": 0.00020281828444408976,
      "loss": 3.7554,
      "step": 186250
    },
    {
      "epoch": 0.3880416666666667,
      "grad_norm": 0.8219417929649353,
      "learning_rate": 0.00020280905717516432,
      "loss": 4.058,
      "step": 186260
    },
    {
      "epoch": 0.3880625,
      "grad_norm": 0.7446237206459045,
      "learning_rate": 0.00020279982967812469,
      "loss": 3.9102,
      "step": 186270
    },
    {
      "epoch": 0.38808333333333334,
      "grad_norm": 0.7747615575790405,
      "learning_rate": 0.00020279060195301063,
      "loss": 3.9478,
      "step": 186280
    },
    {
      "epoch": 0.38810416666666664,
      "grad_norm": 0.811244785785675,
      "learning_rate": 0.00020278137399986205,
      "loss": 3.7971,
      "step": 186290
    },
    {
      "epoch": 0.388125,
      "grad_norm": 0.7598944902420044,
      "learning_rate": 0.0002027721458187189,
      "loss": 3.6939,
      "step": 186300
    },
    {
      "epoch": 0.38814583333333336,
      "grad_norm": 0.824256181716919,
      "learning_rate": 0.00020276291740962095,
      "loss": 3.8661,
      "step": 186310
    },
    {
      "epoch": 0.38816666666666666,
      "grad_norm": 0.7422463893890381,
      "learning_rate": 0.00020275368877260803,
      "loss": 3.7941,
      "step": 186320
    },
    {
      "epoch": 0.3881875,
      "grad_norm": 0.7506173849105835,
      "learning_rate": 0.00020274445990772012,
      "loss": 3.6961,
      "step": 186330
    },
    {
      "epoch": 0.3882083333333333,
      "grad_norm": 1.1921123266220093,
      "learning_rate": 0.00020273523081499703,
      "loss": 3.9674,
      "step": 186340
    },
    {
      "epoch": 0.3882291666666667,
      "grad_norm": 0.7301670908927917,
      "learning_rate": 0.00020272600149447856,
      "loss": 3.7974,
      "step": 186350
    },
    {
      "epoch": 0.38825,
      "grad_norm": 1.026472568511963,
      "learning_rate": 0.00020271677194620463,
      "loss": 4.0198,
      "step": 186360
    },
    {
      "epoch": 0.38827083333333334,
      "grad_norm": 0.78217613697052,
      "learning_rate": 0.00020270754217021519,
      "loss": 3.844,
      "step": 186370
    },
    {
      "epoch": 0.38829166666666665,
      "grad_norm": 0.7472132444381714,
      "learning_rate": 0.00020269831216654998,
      "loss": 3.7649,
      "step": 186380
    },
    {
      "epoch": 0.3883125,
      "grad_norm": 0.7471312284469604,
      "learning_rate": 0.00020268908193524888,
      "loss": 3.8182,
      "step": 186390
    },
    {
      "epoch": 0.3883333333333333,
      "grad_norm": 0.7999638319015503,
      "learning_rate": 0.00020267985147635187,
      "loss": 3.8411,
      "step": 186400
    },
    {
      "epoch": 0.38835416666666667,
      "grad_norm": 0.745969295501709,
      "learning_rate": 0.00020267062078989872,
      "loss": 3.8514,
      "step": 186410
    },
    {
      "epoch": 0.388375,
      "grad_norm": 0.7068589925765991,
      "learning_rate": 0.00020266138987592931,
      "loss": 3.8988,
      "step": 186420
    },
    {
      "epoch": 0.38839583333333333,
      "grad_norm": 0.8025997281074524,
      "learning_rate": 0.0002026521587344836,
      "loss": 3.8603,
      "step": 186430
    },
    {
      "epoch": 0.3884166666666667,
      "grad_norm": 0.7702677845954895,
      "learning_rate": 0.00020264292736560141,
      "loss": 3.8577,
      "step": 186440
    },
    {
      "epoch": 0.3884375,
      "grad_norm": 0.7681719660758972,
      "learning_rate": 0.00020263369576932255,
      "loss": 3.9234,
      "step": 186450
    },
    {
      "epoch": 0.38845833333333335,
      "grad_norm": 0.8400760889053345,
      "learning_rate": 0.00020262446394568698,
      "loss": 3.9071,
      "step": 186460
    },
    {
      "epoch": 0.38847916666666665,
      "grad_norm": 0.7695189118385315,
      "learning_rate": 0.00020261523189473457,
      "loss": 3.7296,
      "step": 186470
    },
    {
      "epoch": 0.3885,
      "grad_norm": 0.7399398684501648,
      "learning_rate": 0.0002026059996165052,
      "loss": 3.9198,
      "step": 186480
    },
    {
      "epoch": 0.3885208333333333,
      "grad_norm": 0.8604875206947327,
      "learning_rate": 0.0002025967671110387,
      "loss": 3.8783,
      "step": 186490
    },
    {
      "epoch": 0.3885416666666667,
      "grad_norm": 0.8615947365760803,
      "learning_rate": 0.000202587534378375,
      "loss": 3.8322,
      "step": 186500
    },
    {
      "epoch": 0.3885625,
      "grad_norm": 0.8062606453895569,
      "learning_rate": 0.00020257830141855396,
      "loss": 3.7296,
      "step": 186510
    },
    {
      "epoch": 0.38858333333333334,
      "grad_norm": 0.7226306200027466,
      "learning_rate": 0.00020256906823161547,
      "loss": 3.7746,
      "step": 186520
    },
    {
      "epoch": 0.38860416666666664,
      "grad_norm": 0.7899895310401917,
      "learning_rate": 0.00020255983481759943,
      "loss": 3.8628,
      "step": 186530
    },
    {
      "epoch": 0.388625,
      "grad_norm": 0.7723438739776611,
      "learning_rate": 0.0002025506011765457,
      "loss": 3.92,
      "step": 186540
    },
    {
      "epoch": 0.38864583333333336,
      "grad_norm": 0.7706539034843445,
      "learning_rate": 0.00020254136730849415,
      "loss": 3.9923,
      "step": 186550
    },
    {
      "epoch": 0.38866666666666666,
      "grad_norm": 0.8044964075088501,
      "learning_rate": 0.0002025321332134847,
      "loss": 3.8534,
      "step": 186560
    },
    {
      "epoch": 0.3886875,
      "grad_norm": 0.9321433305740356,
      "learning_rate": 0.00020252289889155725,
      "loss": 4.0105,
      "step": 186570
    },
    {
      "epoch": 0.3887083333333333,
      "grad_norm": 0.7682662010192871,
      "learning_rate": 0.00020251366434275169,
      "loss": 3.7252,
      "step": 186580
    },
    {
      "epoch": 0.3887291666666667,
      "grad_norm": 1.016897201538086,
      "learning_rate": 0.00020250442956710785,
      "loss": 3.7671,
      "step": 186590
    },
    {
      "epoch": 0.38875,
      "grad_norm": 0.7544580101966858,
      "learning_rate": 0.00020249519456466564,
      "loss": 3.8694,
      "step": 186600
    },
    {
      "epoch": 0.38877083333333334,
      "grad_norm": 0.9721310138702393,
      "learning_rate": 0.00020248595933546504,
      "loss": 3.7379,
      "step": 186610
    },
    {
      "epoch": 0.38879166666666665,
      "grad_norm": 0.6595035195350647,
      "learning_rate": 0.00020247672387954573,
      "loss": 3.8252,
      "step": 186620
    },
    {
      "epoch": 0.3888125,
      "grad_norm": 0.786172091960907,
      "learning_rate": 0.0002024674881969479,
      "loss": 3.9559,
      "step": 186630
    },
    {
      "epoch": 0.3888333333333333,
      "grad_norm": 0.7585811018943787,
      "learning_rate": 0.0002024582522877112,
      "loss": 3.9707,
      "step": 186640
    },
    {
      "epoch": 0.38885416666666667,
      "grad_norm": 0.8142117857933044,
      "learning_rate": 0.00020244901615187563,
      "loss": 3.7907,
      "step": 186650
    },
    {
      "epoch": 0.388875,
      "grad_norm": 0.7496047616004944,
      "learning_rate": 0.00020243977978948112,
      "loss": 3.8326,
      "step": 186660
    },
    {
      "epoch": 0.38889583333333333,
      "grad_norm": 0.9112472534179688,
      "learning_rate": 0.00020243054320056745,
      "loss": 3.7231,
      "step": 186670
    },
    {
      "epoch": 0.3889166666666667,
      "grad_norm": 0.7875626087188721,
      "learning_rate": 0.0002024213063851746,
      "loss": 3.8254,
      "step": 186680
    },
    {
      "epoch": 0.3889375,
      "grad_norm": 0.8431832790374756,
      "learning_rate": 0.0002024120693433425,
      "loss": 3.8013,
      "step": 186690
    },
    {
      "epoch": 0.38895833333333335,
      "grad_norm": 0.6606187224388123,
      "learning_rate": 0.00020240283207511098,
      "loss": 3.8498,
      "step": 186700
    },
    {
      "epoch": 0.38897916666666665,
      "grad_norm": 0.924117386341095,
      "learning_rate": 0.00020239359458051995,
      "loss": 3.6236,
      "step": 186710
    },
    {
      "epoch": 0.389,
      "grad_norm": 0.8410714864730835,
      "learning_rate": 0.00020238435685960933,
      "loss": 3.6813,
      "step": 186720
    },
    {
      "epoch": 0.3890208333333333,
      "grad_norm": 0.9046039581298828,
      "learning_rate": 0.00020237511891241905,
      "loss": 3.7738,
      "step": 186730
    },
    {
      "epoch": 0.3890416666666667,
      "grad_norm": 0.8421434164047241,
      "learning_rate": 0.000202365880738989,
      "loss": 3.6935,
      "step": 186740
    },
    {
      "epoch": 0.3890625,
      "grad_norm": 0.7967758774757385,
      "learning_rate": 0.00020235664233935903,
      "loss": 3.9494,
      "step": 186750
    },
    {
      "epoch": 0.38908333333333334,
      "grad_norm": 0.750561535358429,
      "learning_rate": 0.0002023474037135691,
      "loss": 3.9589,
      "step": 186760
    },
    {
      "epoch": 0.38910416666666664,
      "grad_norm": 0.7968310713768005,
      "learning_rate": 0.00020233816486165911,
      "loss": 3.7318,
      "step": 186770
    },
    {
      "epoch": 0.389125,
      "grad_norm": 0.8812137246131897,
      "learning_rate": 0.00020232892578366898,
      "loss": 3.9952,
      "step": 186780
    },
    {
      "epoch": 0.38914583333333336,
      "grad_norm": 1.2035351991653442,
      "learning_rate": 0.00020231968647963858,
      "loss": 3.8496,
      "step": 186790
    },
    {
      "epoch": 0.38916666666666666,
      "grad_norm": 0.8258105516433716,
      "learning_rate": 0.00020231044694960786,
      "loss": 3.9148,
      "step": 186800
    },
    {
      "epoch": 0.3891875,
      "grad_norm": 0.9098774194717407,
      "learning_rate": 0.00020230120719361676,
      "loss": 3.8669,
      "step": 186810
    },
    {
      "epoch": 0.3892083333333333,
      "grad_norm": 0.8965579271316528,
      "learning_rate": 0.00020229196721170505,
      "loss": 4.028,
      "step": 186820
    },
    {
      "epoch": 0.3892291666666667,
      "grad_norm": 0.7965260744094849,
      "learning_rate": 0.0002022827270039128,
      "loss": 3.7373,
      "step": 186830
    },
    {
      "epoch": 0.38925,
      "grad_norm": 0.7620400786399841,
      "learning_rate": 0.00020227348657027988,
      "loss": 3.8379,
      "step": 186840
    },
    {
      "epoch": 0.38927083333333334,
      "grad_norm": 0.954008936882019,
      "learning_rate": 0.00020226424591084614,
      "loss": 3.6863,
      "step": 186850
    },
    {
      "epoch": 0.38929166666666665,
      "grad_norm": 0.7284470200538635,
      "learning_rate": 0.0002022550050256516,
      "loss": 3.8964,
      "step": 186860
    },
    {
      "epoch": 0.3893125,
      "grad_norm": 0.7424871325492859,
      "learning_rate": 0.00020224576391473606,
      "loss": 3.9272,
      "step": 186870
    },
    {
      "epoch": 0.3893333333333333,
      "grad_norm": 0.9201632142066956,
      "learning_rate": 0.0002022365225781395,
      "loss": 3.7738,
      "step": 186880
    },
    {
      "epoch": 0.38935416666666667,
      "grad_norm": 0.7234595417976379,
      "learning_rate": 0.0002022272810159019,
      "loss": 3.7616,
      "step": 186890
    },
    {
      "epoch": 0.389375,
      "grad_norm": 0.8945226669311523,
      "learning_rate": 0.00020221803922806307,
      "loss": 4.0631,
      "step": 186900
    },
    {
      "epoch": 0.38939583333333333,
      "grad_norm": 0.8125472664833069,
      "learning_rate": 0.00020220879721466304,
      "loss": 3.9018,
      "step": 186910
    },
    {
      "epoch": 0.3894166666666667,
      "grad_norm": 0.8126290440559387,
      "learning_rate": 0.00020219955497574162,
      "loss": 3.7894,
      "step": 186920
    },
    {
      "epoch": 0.3894375,
      "grad_norm": 0.7310751080513,
      "learning_rate": 0.00020219031251133876,
      "loss": 3.8377,
      "step": 186930
    },
    {
      "epoch": 0.38945833333333335,
      "grad_norm": 0.8008160591125488,
      "learning_rate": 0.0002021810698214945,
      "loss": 3.8639,
      "step": 186940
    },
    {
      "epoch": 0.38947916666666665,
      "grad_norm": 0.7216527462005615,
      "learning_rate": 0.00020217182690624862,
      "loss": 3.7601,
      "step": 186950
    },
    {
      "epoch": 0.3895,
      "grad_norm": 0.7469456195831299,
      "learning_rate": 0.00020216258376564109,
      "loss": 3.7419,
      "step": 186960
    },
    {
      "epoch": 0.3895208333333333,
      "grad_norm": 0.8417870402336121,
      "learning_rate": 0.00020215334039971184,
      "loss": 3.8748,
      "step": 186970
    },
    {
      "epoch": 0.3895416666666667,
      "grad_norm": 0.8228142261505127,
      "learning_rate": 0.0002021440968085008,
      "loss": 3.7923,
      "step": 186980
    },
    {
      "epoch": 0.3895625,
      "grad_norm": 0.6601389646530151,
      "learning_rate": 0.0002021348529920479,
      "loss": 3.8887,
      "step": 186990
    },
    {
      "epoch": 0.38958333333333334,
      "grad_norm": 0.7152603268623352,
      "learning_rate": 0.00020212560895039312,
      "loss": 3.88,
      "step": 187000
    },
    {
      "epoch": 0.38958333333333334,
      "eval_loss": 4.167698860168457,
      "eval_runtime": 11.1556,
      "eval_samples_per_second": 0.896,
      "eval_steps_per_second": 0.269,
      "step": 187000
    },
    {
      "epoch": 0.38960416666666664,
      "grad_norm": 0.6989957690238953,
      "learning_rate": 0.00020211636468357632,
      "loss": 3.8481,
      "step": 187010
    },
    {
      "epoch": 0.389625,
      "grad_norm": 0.8918426036834717,
      "learning_rate": 0.00020210712019163744,
      "loss": 3.8102,
      "step": 187020
    },
    {
      "epoch": 0.38964583333333336,
      "grad_norm": 0.8197790384292603,
      "learning_rate": 0.00020209787547461643,
      "loss": 3.7589,
      "step": 187030
    },
    {
      "epoch": 0.38966666666666666,
      "grad_norm": 0.7091810703277588,
      "learning_rate": 0.0002020886305325532,
      "loss": 3.5767,
      "step": 187040
    },
    {
      "epoch": 0.3896875,
      "grad_norm": 0.7041683793067932,
      "learning_rate": 0.00020207938536548773,
      "loss": 3.8957,
      "step": 187050
    },
    {
      "epoch": 0.3897083333333333,
      "grad_norm": 0.7498518824577332,
      "learning_rate": 0.00020207013997345993,
      "loss": 3.766,
      "step": 187060
    },
    {
      "epoch": 0.3897291666666667,
      "grad_norm": 0.7540250420570374,
      "learning_rate": 0.00020206089435650972,
      "loss": 3.7538,
      "step": 187070
    },
    {
      "epoch": 0.38975,
      "grad_norm": 0.76317298412323,
      "learning_rate": 0.00020205164851467707,
      "loss": 3.9591,
      "step": 187080
    },
    {
      "epoch": 0.38977083333333334,
      "grad_norm": 0.9515215158462524,
      "learning_rate": 0.00020204240244800189,
      "loss": 3.8084,
      "step": 187090
    },
    {
      "epoch": 0.38979166666666665,
      "grad_norm": 0.8086849451065063,
      "learning_rate": 0.0002020331561565241,
      "loss": 3.8018,
      "step": 187100
    },
    {
      "epoch": 0.3898125,
      "grad_norm": 0.7650727033615112,
      "learning_rate": 0.00020202390964028377,
      "loss": 3.7933,
      "step": 187110
    },
    {
      "epoch": 0.3898333333333333,
      "grad_norm": 0.969868540763855,
      "learning_rate": 0.00020201466289932065,
      "loss": 3.8021,
      "step": 187120
    },
    {
      "epoch": 0.38985416666666667,
      "grad_norm": 0.8955146670341492,
      "learning_rate": 0.0002020054159336748,
      "loss": 3.9191,
      "step": 187130
    },
    {
      "epoch": 0.389875,
      "grad_norm": 0.7241785526275635,
      "learning_rate": 0.00020199616874338615,
      "loss": 3.7692,
      "step": 187140
    },
    {
      "epoch": 0.38989583333333333,
      "grad_norm": 0.9110916256904602,
      "learning_rate": 0.00020198692132849464,
      "loss": 3.954,
      "step": 187150
    },
    {
      "epoch": 0.3899166666666667,
      "grad_norm": 0.760759174823761,
      "learning_rate": 0.00020197767368904018,
      "loss": 3.8284,
      "step": 187160
    },
    {
      "epoch": 0.3899375,
      "grad_norm": 0.6704758405685425,
      "learning_rate": 0.00020196842582506278,
      "loss": 3.8286,
      "step": 187170
    },
    {
      "epoch": 0.38995833333333335,
      "grad_norm": 0.8540830612182617,
      "learning_rate": 0.00020195917773660233,
      "loss": 3.8736,
      "step": 187180
    },
    {
      "epoch": 0.38997916666666665,
      "grad_norm": 0.8301502466201782,
      "learning_rate": 0.00020194992942369874,
      "loss": 3.7664,
      "step": 187190
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8372231125831604,
      "learning_rate": 0.00020194068088639212,
      "loss": 3.821,
      "step": 187200
    },
    {
      "epoch": 0.3900208333333333,
      "grad_norm": 0.7890290021896362,
      "learning_rate": 0.00020193143212472226,
      "loss": 3.8313,
      "step": 187210
    },
    {
      "epoch": 0.3900416666666667,
      "grad_norm": 0.7676745057106018,
      "learning_rate": 0.0002019221831387292,
      "loss": 3.7178,
      "step": 187220
    },
    {
      "epoch": 0.3900625,
      "grad_norm": 0.921495795249939,
      "learning_rate": 0.00020191293392845286,
      "loss": 3.8683,
      "step": 187230
    },
    {
      "epoch": 0.39008333333333334,
      "grad_norm": 0.7826743721961975,
      "learning_rate": 0.00020190368449393315,
      "loss": 3.8292,
      "step": 187240
    },
    {
      "epoch": 0.39010416666666664,
      "grad_norm": 0.80544513463974,
      "learning_rate": 0.0002018944348352101,
      "loss": 3.9782,
      "step": 187250
    },
    {
      "epoch": 0.390125,
      "grad_norm": 0.7564271688461304,
      "learning_rate": 0.00020188518495232362,
      "loss": 3.754,
      "step": 187260
    },
    {
      "epoch": 0.39014583333333336,
      "grad_norm": 0.7004690170288086,
      "learning_rate": 0.0002018759348453137,
      "loss": 3.7023,
      "step": 187270
    },
    {
      "epoch": 0.39016666666666666,
      "grad_norm": 0.7614591717720032,
      "learning_rate": 0.00020186668451422027,
      "loss": 3.7901,
      "step": 187280
    },
    {
      "epoch": 0.3901875,
      "grad_norm": 0.6630182266235352,
      "learning_rate": 0.00020185743395908327,
      "loss": 3.8884,
      "step": 187290
    },
    {
      "epoch": 0.3902083333333333,
      "grad_norm": 0.813753068447113,
      "learning_rate": 0.0002018481831799427,
      "loss": 3.741,
      "step": 187300
    },
    {
      "epoch": 0.3902291666666667,
      "grad_norm": 1.0530427694320679,
      "learning_rate": 0.00020183893217683854,
      "loss": 3.7973,
      "step": 187310
    },
    {
      "epoch": 0.39025,
      "grad_norm": 0.9578317999839783,
      "learning_rate": 0.00020182968094981064,
      "loss": 3.678,
      "step": 187320
    },
    {
      "epoch": 0.39027083333333334,
      "grad_norm": 0.7011755108833313,
      "learning_rate": 0.00020182042949889905,
      "loss": 3.6552,
      "step": 187330
    },
    {
      "epoch": 0.39029166666666665,
      "grad_norm": 1.0583221912384033,
      "learning_rate": 0.00020181117782414377,
      "loss": 3.8555,
      "step": 187340
    },
    {
      "epoch": 0.3903125,
      "grad_norm": 0.7922451496124268,
      "learning_rate": 0.00020180192592558467,
      "loss": 3.7728,
      "step": 187350
    },
    {
      "epoch": 0.3903333333333333,
      "grad_norm": 0.7770780324935913,
      "learning_rate": 0.00020179267380326173,
      "loss": 3.9836,
      "step": 187360
    },
    {
      "epoch": 0.39035416666666667,
      "grad_norm": 0.7175225019454956,
      "learning_rate": 0.000201783421457215,
      "loss": 3.9383,
      "step": 187370
    },
    {
      "epoch": 0.390375,
      "grad_norm": 0.7627639770507812,
      "learning_rate": 0.00020177416888748434,
      "loss": 3.5859,
      "step": 187380
    },
    {
      "epoch": 0.39039583333333333,
      "grad_norm": 0.7959890365600586,
      "learning_rate": 0.00020176491609410978,
      "loss": 3.9211,
      "step": 187390
    },
    {
      "epoch": 0.3904166666666667,
      "grad_norm": 0.8381862044334412,
      "learning_rate": 0.00020175566307713128,
      "loss": 3.8773,
      "step": 187400
    },
    {
      "epoch": 0.3904375,
      "grad_norm": 0.779616117477417,
      "learning_rate": 0.00020174640983658878,
      "loss": 3.8447,
      "step": 187410
    },
    {
      "epoch": 0.39045833333333335,
      "grad_norm": 0.8347191214561462,
      "learning_rate": 0.00020173715637252228,
      "loss": 3.7945,
      "step": 187420
    },
    {
      "epoch": 0.39047916666666665,
      "grad_norm": 0.7778608202934265,
      "learning_rate": 0.00020172790268497176,
      "loss": 3.782,
      "step": 187430
    },
    {
      "epoch": 0.3905,
      "grad_norm": 0.7530525922775269,
      "learning_rate": 0.00020171864877397715,
      "loss": 3.7821,
      "step": 187440
    },
    {
      "epoch": 0.3905208333333333,
      "grad_norm": 0.9548311233520508,
      "learning_rate": 0.00020170939463957848,
      "loss": 3.7438,
      "step": 187450
    },
    {
      "epoch": 0.3905416666666667,
      "grad_norm": 0.8492161631584167,
      "learning_rate": 0.00020170014028181565,
      "loss": 3.801,
      "step": 187460
    },
    {
      "epoch": 0.3905625,
      "grad_norm": 0.8113964200019836,
      "learning_rate": 0.00020169088570072872,
      "loss": 3.7966,
      "step": 187470
    },
    {
      "epoch": 0.39058333333333334,
      "grad_norm": 0.9093465209007263,
      "learning_rate": 0.0002016816308963576,
      "loss": 3.6786,
      "step": 187480
    },
    {
      "epoch": 0.39060416666666664,
      "grad_norm": 0.8197064995765686,
      "learning_rate": 0.0002016723758687423,
      "loss": 3.8275,
      "step": 187490
    },
    {
      "epoch": 0.390625,
      "grad_norm": 0.8176263570785522,
      "learning_rate": 0.00020166312061792278,
      "loss": 3.8837,
      "step": 187500
    },
    {
      "epoch": 0.39064583333333336,
      "grad_norm": 0.7255712151527405,
      "learning_rate": 0.00020165386514393906,
      "loss": 3.7369,
      "step": 187510
    },
    {
      "epoch": 0.39066666666666666,
      "grad_norm": 0.8000866174697876,
      "learning_rate": 0.0002016446094468311,
      "loss": 3.912,
      "step": 187520
    },
    {
      "epoch": 0.3906875,
      "grad_norm": 0.702134370803833,
      "learning_rate": 0.00020163535352663882,
      "loss": 3.7912,
      "step": 187530
    },
    {
      "epoch": 0.3907083333333333,
      "grad_norm": 0.8789812922477722,
      "learning_rate": 0.00020162609738340228,
      "loss": 3.8693,
      "step": 187540
    },
    {
      "epoch": 0.3907291666666667,
      "grad_norm": 0.7274177074432373,
      "learning_rate": 0.00020161684101716138,
      "loss": 4.0321,
      "step": 187550
    },
    {
      "epoch": 0.39075,
      "grad_norm": 0.7169783115386963,
      "learning_rate": 0.00020160758442795625,
      "loss": 3.8015,
      "step": 187560
    },
    {
      "epoch": 0.39077083333333335,
      "grad_norm": 0.6759582757949829,
      "learning_rate": 0.00020159832761582668,
      "loss": 3.8665,
      "step": 187570
    },
    {
      "epoch": 0.39079166666666665,
      "grad_norm": 0.7514581680297852,
      "learning_rate": 0.00020158907058081283,
      "loss": 3.8494,
      "step": 187580
    },
    {
      "epoch": 0.3908125,
      "grad_norm": 0.8283213376998901,
      "learning_rate": 0.0002015798133229546,
      "loss": 3.829,
      "step": 187590
    },
    {
      "epoch": 0.3908333333333333,
      "grad_norm": 0.9924708008766174,
      "learning_rate": 0.000201570555842292,
      "loss": 3.9808,
      "step": 187600
    },
    {
      "epoch": 0.39085416666666667,
      "grad_norm": 0.821854829788208,
      "learning_rate": 0.00020156129813886497,
      "loss": 3.7341,
      "step": 187610
    },
    {
      "epoch": 0.390875,
      "grad_norm": 0.8103502988815308,
      "learning_rate": 0.0002015520402127136,
      "loss": 3.8324,
      "step": 187620
    },
    {
      "epoch": 0.39089583333333333,
      "grad_norm": 0.7780589461326599,
      "learning_rate": 0.00020154278206387777,
      "loss": 3.7813,
      "step": 187630
    },
    {
      "epoch": 0.3909166666666667,
      "grad_norm": 1.0976804494857788,
      "learning_rate": 0.00020153352369239758,
      "loss": 3.8705,
      "step": 187640
    },
    {
      "epoch": 0.3909375,
      "grad_norm": 0.7678709626197815,
      "learning_rate": 0.00020152426509831297,
      "loss": 3.7641,
      "step": 187650
    },
    {
      "epoch": 0.39095833333333335,
      "grad_norm": 0.7989642024040222,
      "learning_rate": 0.00020151500628166384,
      "loss": 3.7635,
      "step": 187660
    },
    {
      "epoch": 0.39097916666666666,
      "grad_norm": 0.7646961212158203,
      "learning_rate": 0.00020150574724249037,
      "loss": 3.8426,
      "step": 187670
    },
    {
      "epoch": 0.391,
      "grad_norm": 0.7336421608924866,
      "learning_rate": 0.00020149648798083243,
      "loss": 3.8944,
      "step": 187680
    },
    {
      "epoch": 0.3910208333333333,
      "grad_norm": 1.177172064781189,
      "learning_rate": 0.00020148722849672995,
      "loss": 3.8232,
      "step": 187690
    },
    {
      "epoch": 0.3910416666666667,
      "grad_norm": 0.8239823579788208,
      "learning_rate": 0.00020147796879022316,
      "loss": 3.9154,
      "step": 187700
    },
    {
      "epoch": 0.3910625,
      "grad_norm": 0.8994254469871521,
      "learning_rate": 0.0002014687088613519,
      "loss": 3.8915,
      "step": 187710
    },
    {
      "epoch": 0.39108333333333334,
      "grad_norm": 0.9262333512306213,
      "learning_rate": 0.00020145944871015613,
      "loss": 3.7888,
      "step": 187720
    },
    {
      "epoch": 0.39110416666666664,
      "grad_norm": 0.7643892765045166,
      "learning_rate": 0.00020145018833667594,
      "loss": 3.8906,
      "step": 187730
    },
    {
      "epoch": 0.391125,
      "grad_norm": 0.8149259090423584,
      "learning_rate": 0.0002014409277409513,
      "loss": 3.7011,
      "step": 187740
    },
    {
      "epoch": 0.39114583333333336,
      "grad_norm": 0.8050640225410461,
      "learning_rate": 0.0002014316669230222,
      "loss": 3.7882,
      "step": 187750
    },
    {
      "epoch": 0.39116666666666666,
      "grad_norm": 0.7160162925720215,
      "learning_rate": 0.00020142240588292865,
      "loss": 3.8659,
      "step": 187760
    },
    {
      "epoch": 0.3911875,
      "grad_norm": 0.8303516507148743,
      "learning_rate": 0.0002014131446207107,
      "loss": 3.6502,
      "step": 187770
    },
    {
      "epoch": 0.3912083333333333,
      "grad_norm": 0.741917073726654,
      "learning_rate": 0.0002014038831364083,
      "loss": 3.8337,
      "step": 187780
    },
    {
      "epoch": 0.3912291666666667,
      "grad_norm": 0.8124635219573975,
      "learning_rate": 0.0002013946214300615,
      "loss": 3.8066,
      "step": 187790
    },
    {
      "epoch": 0.39125,
      "grad_norm": 0.7861316204071045,
      "learning_rate": 0.00020138535950171022,
      "loss": 3.8256,
      "step": 187800
    },
    {
      "epoch": 0.39127083333333335,
      "grad_norm": 0.7583640813827515,
      "learning_rate": 0.00020137609735139457,
      "loss": 3.7802,
      "step": 187810
    },
    {
      "epoch": 0.39129166666666665,
      "grad_norm": 0.8035463690757751,
      "learning_rate": 0.00020136683497915447,
      "loss": 3.8589,
      "step": 187820
    },
    {
      "epoch": 0.3913125,
      "grad_norm": 0.9242996573448181,
      "learning_rate": 0.00020135757238503002,
      "loss": 3.7863,
      "step": 187830
    },
    {
      "epoch": 0.3913333333333333,
      "grad_norm": 0.7500817179679871,
      "learning_rate": 0.0002013483095690612,
      "loss": 3.7961,
      "step": 187840
    },
    {
      "epoch": 0.39135416666666667,
      "grad_norm": 0.7919144630432129,
      "learning_rate": 0.00020133904653128797,
      "loss": 3.7911,
      "step": 187850
    },
    {
      "epoch": 0.391375,
      "grad_norm": 0.7777510285377502,
      "learning_rate": 0.00020132978327175037,
      "loss": 3.7458,
      "step": 187860
    },
    {
      "epoch": 0.39139583333333333,
      "grad_norm": 0.7717010378837585,
      "learning_rate": 0.0002013205197904885,
      "loss": 3.9401,
      "step": 187870
    },
    {
      "epoch": 0.3914166666666667,
      "grad_norm": 0.8247231245040894,
      "learning_rate": 0.0002013112560875422,
      "loss": 3.7115,
      "step": 187880
    },
    {
      "epoch": 0.3914375,
      "grad_norm": 0.785025954246521,
      "learning_rate": 0.0002013019921629516,
      "loss": 3.9597,
      "step": 187890
    },
    {
      "epoch": 0.39145833333333335,
      "grad_norm": 0.9254521131515503,
      "learning_rate": 0.00020129272801675677,
      "loss": 3.7958,
      "step": 187900
    },
    {
      "epoch": 0.39147916666666666,
      "grad_norm": 0.685754120349884,
      "learning_rate": 0.0002012834636489976,
      "loss": 3.8969,
      "step": 187910
    },
    {
      "epoch": 0.3915,
      "grad_norm": 0.7637962102890015,
      "learning_rate": 0.0002012741990597142,
      "loss": 3.8196,
      "step": 187920
    },
    {
      "epoch": 0.3915208333333333,
      "grad_norm": 0.8823176622390747,
      "learning_rate": 0.00020126493424894653,
      "loss": 4.075,
      "step": 187930
    },
    {
      "epoch": 0.3915416666666667,
      "grad_norm": 0.727555513381958,
      "learning_rate": 0.00020125566921673466,
      "loss": 3.8991,
      "step": 187940
    },
    {
      "epoch": 0.3915625,
      "grad_norm": 0.8113245368003845,
      "learning_rate": 0.0002012464039631186,
      "loss": 3.7881,
      "step": 187950
    },
    {
      "epoch": 0.39158333333333334,
      "grad_norm": 0.7001744508743286,
      "learning_rate": 0.00020123713848813827,
      "loss": 3.7612,
      "step": 187960
    },
    {
      "epoch": 0.39160416666666664,
      "grad_norm": 0.7591841816902161,
      "learning_rate": 0.00020122787279183384,
      "loss": 3.8646,
      "step": 187970
    },
    {
      "epoch": 0.391625,
      "grad_norm": 0.7172550559043884,
      "learning_rate": 0.00020121860687424533,
      "loss": 3.917,
      "step": 187980
    },
    {
      "epoch": 0.39164583333333336,
      "grad_norm": 0.8713703155517578,
      "learning_rate": 0.0002012093407354126,
      "loss": 3.849,
      "step": 187990
    },
    {
      "epoch": 0.39166666666666666,
      "grad_norm": 0.9078769683837891,
      "learning_rate": 0.00020120007437537585,
      "loss": 3.8804,
      "step": 188000
    },
    {
      "epoch": 0.39166666666666666,
      "eval_loss": 4.170716285705566,
      "eval_runtime": 9.6673,
      "eval_samples_per_second": 1.034,
      "eval_steps_per_second": 0.31,
      "step": 188000
    },
    {
      "epoch": 0.3916875,
      "grad_norm": 0.7519924640655518,
      "learning_rate": 0.0002011908077941751,
      "loss": 3.7036,
      "step": 188010
    },
    {
      "epoch": 0.3917083333333333,
      "grad_norm": 0.7731565237045288,
      "learning_rate": 0.00020118154099185026,
      "loss": 3.9518,
      "step": 188020
    },
    {
      "epoch": 0.3917291666666667,
      "grad_norm": 0.8051541447639465,
      "learning_rate": 0.00020117227396844142,
      "loss": 3.776,
      "step": 188030
    },
    {
      "epoch": 0.39175,
      "grad_norm": 0.7459749579429626,
      "learning_rate": 0.00020116300672398866,
      "loss": 3.7061,
      "step": 188040
    },
    {
      "epoch": 0.39177083333333335,
      "grad_norm": 0.761310338973999,
      "learning_rate": 0.00020115373925853192,
      "loss": 3.9282,
      "step": 188050
    },
    {
      "epoch": 0.39179166666666665,
      "grad_norm": 0.9179579615592957,
      "learning_rate": 0.00020114447157211122,
      "loss": 3.9793,
      "step": 188060
    },
    {
      "epoch": 0.3918125,
      "grad_norm": 0.8410877585411072,
      "learning_rate": 0.00020113520366476676,
      "loss": 3.7338,
      "step": 188070
    },
    {
      "epoch": 0.3918333333333333,
      "grad_norm": 0.8836259245872498,
      "learning_rate": 0.00020112593553653843,
      "loss": 3.7708,
      "step": 188080
    },
    {
      "epoch": 0.39185416666666667,
      "grad_norm": 0.7492419481277466,
      "learning_rate": 0.00020111666718746626,
      "loss": 3.9474,
      "step": 188090
    },
    {
      "epoch": 0.391875,
      "grad_norm": 0.7841771841049194,
      "learning_rate": 0.00020110739861759034,
      "loss": 3.7604,
      "step": 188100
    },
    {
      "epoch": 0.39189583333333333,
      "grad_norm": 0.795813798904419,
      "learning_rate": 0.00020109812982695065,
      "loss": 3.7999,
      "step": 188110
    },
    {
      "epoch": 0.3919166666666667,
      "grad_norm": 0.786940336227417,
      "learning_rate": 0.0002010888608155873,
      "loss": 3.7798,
      "step": 188120
    },
    {
      "epoch": 0.3919375,
      "grad_norm": 0.8315894603729248,
      "learning_rate": 0.0002010795915835403,
      "loss": 3.9395,
      "step": 188130
    },
    {
      "epoch": 0.39195833333333335,
      "grad_norm": 0.7072563171386719,
      "learning_rate": 0.0002010703221308497,
      "loss": 3.9108,
      "step": 188140
    },
    {
      "epoch": 0.39197916666666666,
      "grad_norm": 0.9708284139633179,
      "learning_rate": 0.0002010610524575555,
      "loss": 3.7748,
      "step": 188150
    },
    {
      "epoch": 0.392,
      "grad_norm": 0.7426583170890808,
      "learning_rate": 0.00020105178256369773,
      "loss": 3.6263,
      "step": 188160
    },
    {
      "epoch": 0.3920208333333333,
      "grad_norm": 0.7334222793579102,
      "learning_rate": 0.0002010425124493165,
      "loss": 3.8304,
      "step": 188170
    },
    {
      "epoch": 0.3920416666666667,
      "grad_norm": 0.9803913235664368,
      "learning_rate": 0.00020103324211445187,
      "loss": 3.7833,
      "step": 188180
    },
    {
      "epoch": 0.3920625,
      "grad_norm": 0.8363394141197205,
      "learning_rate": 0.00020102397155914375,
      "loss": 3.7145,
      "step": 188190
    },
    {
      "epoch": 0.39208333333333334,
      "grad_norm": 0.844034731388092,
      "learning_rate": 0.00020101470078343227,
      "loss": 3.9002,
      "step": 188200
    },
    {
      "epoch": 0.39210416666666664,
      "grad_norm": 0.711465060710907,
      "learning_rate": 0.00020100542978735756,
      "loss": 3.8446,
      "step": 188210
    },
    {
      "epoch": 0.392125,
      "grad_norm": 0.7064006924629211,
      "learning_rate": 0.00020099615857095953,
      "loss": 3.9017,
      "step": 188220
    },
    {
      "epoch": 0.39214583333333336,
      "grad_norm": 1.1757137775421143,
      "learning_rate": 0.00020098688713427823,
      "loss": 3.8687,
      "step": 188230
    },
    {
      "epoch": 0.39216666666666666,
      "grad_norm": 0.8033314347267151,
      "learning_rate": 0.00020097761547735387,
      "loss": 3.8919,
      "step": 188240
    },
    {
      "epoch": 0.3921875,
      "grad_norm": 0.7398850917816162,
      "learning_rate": 0.00020096834360022633,
      "loss": 3.7817,
      "step": 188250
    },
    {
      "epoch": 0.3922083333333333,
      "grad_norm": 0.8652414679527283,
      "learning_rate": 0.00020095907150293572,
      "loss": 3.8564,
      "step": 188260
    },
    {
      "epoch": 0.3922291666666667,
      "grad_norm": 0.9028533697128296,
      "learning_rate": 0.00020094979918552208,
      "loss": 3.8822,
      "step": 188270
    },
    {
      "epoch": 0.39225,
      "grad_norm": 0.6995039582252502,
      "learning_rate": 0.0002009405266480255,
      "loss": 3.7903,
      "step": 188280
    },
    {
      "epoch": 0.39227083333333335,
      "grad_norm": 0.8214446306228638,
      "learning_rate": 0.000200931253890486,
      "loss": 3.7281,
      "step": 188290
    },
    {
      "epoch": 0.39229166666666665,
      "grad_norm": 0.7786505222320557,
      "learning_rate": 0.00020092198091294365,
      "loss": 3.7821,
      "step": 188300
    },
    {
      "epoch": 0.3923125,
      "grad_norm": 0.7748424410820007,
      "learning_rate": 0.00020091270771543848,
      "loss": 3.841,
      "step": 188310
    },
    {
      "epoch": 0.3923333333333333,
      "grad_norm": 0.8761480450630188,
      "learning_rate": 0.00020090343429801058,
      "loss": 3.8211,
      "step": 188320
    },
    {
      "epoch": 0.39235416666666667,
      "grad_norm": 0.7071719169616699,
      "learning_rate": 0.00020089416066069999,
      "loss": 3.6952,
      "step": 188330
    },
    {
      "epoch": 0.392375,
      "grad_norm": 0.7240113615989685,
      "learning_rate": 0.00020088488680354677,
      "loss": 3.9788,
      "step": 188340
    },
    {
      "epoch": 0.39239583333333333,
      "grad_norm": 0.7816724181175232,
      "learning_rate": 0.000200875612726591,
      "loss": 3.7877,
      "step": 188350
    },
    {
      "epoch": 0.3924166666666667,
      "grad_norm": 0.748266339302063,
      "learning_rate": 0.00020086633842987268,
      "loss": 3.893,
      "step": 188360
    },
    {
      "epoch": 0.3924375,
      "grad_norm": 0.7342916131019592,
      "learning_rate": 0.0002008570639134319,
      "loss": 3.8953,
      "step": 188370
    },
    {
      "epoch": 0.39245833333333335,
      "grad_norm": 0.9738280773162842,
      "learning_rate": 0.0002008477891773088,
      "loss": 3.8563,
      "step": 188380
    },
    {
      "epoch": 0.39247916666666666,
      "grad_norm": 0.9873480796813965,
      "learning_rate": 0.0002008385142215433,
      "loss": 3.8161,
      "step": 188390
    },
    {
      "epoch": 0.3925,
      "grad_norm": 0.7958146929740906,
      "learning_rate": 0.00020082923904617562,
      "loss": 3.8291,
      "step": 188400
    },
    {
      "epoch": 0.3925208333333333,
      "grad_norm": 0.8060606718063354,
      "learning_rate": 0.00020081996365124574,
      "loss": 3.9524,
      "step": 188410
    },
    {
      "epoch": 0.3925416666666667,
      "grad_norm": 0.7435354590415955,
      "learning_rate": 0.00020081068803679371,
      "loss": 3.7693,
      "step": 188420
    },
    {
      "epoch": 0.3925625,
      "grad_norm": 0.7811980247497559,
      "learning_rate": 0.0002008014122028596,
      "loss": 3.8856,
      "step": 188430
    },
    {
      "epoch": 0.39258333333333334,
      "grad_norm": 0.8366444110870361,
      "learning_rate": 0.00020079213614948352,
      "loss": 3.6929,
      "step": 188440
    },
    {
      "epoch": 0.39260416666666664,
      "grad_norm": 0.78863924741745,
      "learning_rate": 0.0002007828598767055,
      "loss": 3.9671,
      "step": 188450
    },
    {
      "epoch": 0.392625,
      "grad_norm": 0.9258074760437012,
      "learning_rate": 0.00020077358338456566,
      "loss": 3.8304,
      "step": 188460
    },
    {
      "epoch": 0.39264583333333336,
      "grad_norm": 0.7688031792640686,
      "learning_rate": 0.000200764306673104,
      "loss": 4.1193,
      "step": 188470
    },
    {
      "epoch": 0.39266666666666666,
      "grad_norm": 0.8215314745903015,
      "learning_rate": 0.00020075502974236067,
      "loss": 3.731,
      "step": 188480
    },
    {
      "epoch": 0.3926875,
      "grad_norm": 0.7429081797599792,
      "learning_rate": 0.00020074575259237563,
      "loss": 3.8249,
      "step": 188490
    },
    {
      "epoch": 0.3927083333333333,
      "grad_norm": 0.7601811289787292,
      "learning_rate": 0.00020073647522318909,
      "loss": 3.9573,
      "step": 188500
    },
    {
      "epoch": 0.3927291666666667,
      "grad_norm": 0.8035322427749634,
      "learning_rate": 0.00020072719763484107,
      "loss": 3.8894,
      "step": 188510
    },
    {
      "epoch": 0.39275,
      "grad_norm": 0.7857825756072998,
      "learning_rate": 0.0002007179198273716,
      "loss": 3.8686,
      "step": 188520
    },
    {
      "epoch": 0.39277083333333335,
      "grad_norm": 0.763349175453186,
      "learning_rate": 0.00020070864180082076,
      "loss": 3.8188,
      "step": 188530
    },
    {
      "epoch": 0.39279166666666665,
      "grad_norm": 0.73203444480896,
      "learning_rate": 0.00020069936355522874,
      "loss": 3.757,
      "step": 188540
    },
    {
      "epoch": 0.3928125,
      "grad_norm": 0.9385654330253601,
      "learning_rate": 0.0002006900850906355,
      "loss": 3.7204,
      "step": 188550
    },
    {
      "epoch": 0.3928333333333333,
      "grad_norm": 0.9652789235115051,
      "learning_rate": 0.0002006808064070811,
      "loss": 3.9347,
      "step": 188560
    },
    {
      "epoch": 0.39285416666666667,
      "grad_norm": 0.759734570980072,
      "learning_rate": 0.0002006715275046058,
      "loss": 3.7239,
      "step": 188570
    },
    {
      "epoch": 0.392875,
      "grad_norm": 0.764910876750946,
      "learning_rate": 0.00020066224838324949,
      "loss": 3.7495,
      "step": 188580
    },
    {
      "epoch": 0.39289583333333333,
      "grad_norm": 0.8536385893821716,
      "learning_rate": 0.0002006529690430523,
      "loss": 3.7776,
      "step": 188590
    },
    {
      "epoch": 0.3929166666666667,
      "grad_norm": 0.9464886784553528,
      "learning_rate": 0.00020064368948405435,
      "loss": 3.8413,
      "step": 188600
    },
    {
      "epoch": 0.3929375,
      "grad_norm": 0.7748256325721741,
      "learning_rate": 0.0002006344097062957,
      "loss": 3.9041,
      "step": 188610
    },
    {
      "epoch": 0.39295833333333335,
      "grad_norm": 0.7402727603912354,
      "learning_rate": 0.00020062512970981647,
      "loss": 3.8643,
      "step": 188620
    },
    {
      "epoch": 0.39297916666666666,
      "grad_norm": 0.7740744352340698,
      "learning_rate": 0.00020061584949465668,
      "loss": 3.7122,
      "step": 188630
    },
    {
      "epoch": 0.393,
      "grad_norm": 0.7948362231254578,
      "learning_rate": 0.00020060656906085647,
      "loss": 3.7631,
      "step": 188640
    },
    {
      "epoch": 0.3930208333333333,
      "grad_norm": 0.7562112212181091,
      "learning_rate": 0.00020059728840845595,
      "loss": 3.9262,
      "step": 188650
    },
    {
      "epoch": 0.3930416666666667,
      "grad_norm": 0.8715634346008301,
      "learning_rate": 0.00020058800753749512,
      "loss": 3.7788,
      "step": 188660
    },
    {
      "epoch": 0.3930625,
      "grad_norm": 0.7684164047241211,
      "learning_rate": 0.00020057872644801413,
      "loss": 3.9431,
      "step": 188670
    },
    {
      "epoch": 0.39308333333333334,
      "grad_norm": 0.8218641877174377,
      "learning_rate": 0.0002005694451400531,
      "loss": 4.084,
      "step": 188680
    },
    {
      "epoch": 0.39310416666666664,
      "grad_norm": 0.8733190894126892,
      "learning_rate": 0.00020056016361365202,
      "loss": 3.9402,
      "step": 188690
    },
    {
      "epoch": 0.393125,
      "grad_norm": 0.7751209735870361,
      "learning_rate": 0.00020055088186885113,
      "loss": 3.7625,
      "step": 188700
    },
    {
      "epoch": 0.39314583333333336,
      "grad_norm": 0.8471246957778931,
      "learning_rate": 0.0002005415999056904,
      "loss": 3.6906,
      "step": 188710
    },
    {
      "epoch": 0.39316666666666666,
      "grad_norm": 0.7063947319984436,
      "learning_rate": 0.00020053231772420996,
      "loss": 3.831,
      "step": 188720
    },
    {
      "epoch": 0.3931875,
      "grad_norm": 0.7177914977073669,
      "learning_rate": 0.00020052303532444986,
      "loss": 3.8672,
      "step": 188730
    },
    {
      "epoch": 0.3932083333333333,
      "grad_norm": 0.7244638204574585,
      "learning_rate": 0.00020051375270645035,
      "loss": 3.7558,
      "step": 188740
    },
    {
      "epoch": 0.3932291666666667,
      "grad_norm": 0.7486054301261902,
      "learning_rate": 0.00020050446987025135,
      "loss": 3.7978,
      "step": 188750
    },
    {
      "epoch": 0.39325,
      "grad_norm": 0.7997901439666748,
      "learning_rate": 0.00020049518681589305,
      "loss": 3.8027,
      "step": 188760
    },
    {
      "epoch": 0.39327083333333335,
      "grad_norm": 0.8101829886436462,
      "learning_rate": 0.00020048590354341555,
      "loss": 3.7768,
      "step": 188770
    },
    {
      "epoch": 0.39329166666666665,
      "grad_norm": 0.7320715188980103,
      "learning_rate": 0.0002004766200528589,
      "loss": 3.8839,
      "step": 188780
    },
    {
      "epoch": 0.3933125,
      "grad_norm": 0.7506981492042542,
      "learning_rate": 0.00020046733634426325,
      "loss": 4.0448,
      "step": 188790
    },
    {
      "epoch": 0.3933333333333333,
      "grad_norm": 0.7658148407936096,
      "learning_rate": 0.0002004580524176687,
      "loss": 3.7944,
      "step": 188800
    },
    {
      "epoch": 0.39335416666666667,
      "grad_norm": 0.9240880012512207,
      "learning_rate": 0.00020044876827311528,
      "loss": 3.8379,
      "step": 188810
    },
    {
      "epoch": 0.393375,
      "grad_norm": 0.8284497857093811,
      "learning_rate": 0.00020043948391064317,
      "loss": 3.807,
      "step": 188820
    },
    {
      "epoch": 0.39339583333333333,
      "grad_norm": 0.8071033954620361,
      "learning_rate": 0.00020043019933029246,
      "loss": 3.8781,
      "step": 188830
    },
    {
      "epoch": 0.3934166666666667,
      "grad_norm": 0.7965642809867859,
      "learning_rate": 0.00020042091453210327,
      "loss": 3.7532,
      "step": 188840
    },
    {
      "epoch": 0.3934375,
      "grad_norm": 0.8247832655906677,
      "learning_rate": 0.0002004116295161157,
      "loss": 3.99,
      "step": 188850
    },
    {
      "epoch": 0.39345833333333335,
      "grad_norm": 0.7475952506065369,
      "learning_rate": 0.00020040234428236978,
      "loss": 3.8357,
      "step": 188860
    },
    {
      "epoch": 0.39347916666666666,
      "grad_norm": 0.7732117176055908,
      "learning_rate": 0.00020039305883090574,
      "loss": 3.8946,
      "step": 188870
    },
    {
      "epoch": 0.3935,
      "grad_norm": 0.7606973648071289,
      "learning_rate": 0.00020038377316176364,
      "loss": 3.8967,
      "step": 188880
    },
    {
      "epoch": 0.3935208333333333,
      "grad_norm": 0.7100887298583984,
      "learning_rate": 0.0002003744872749835,
      "loss": 3.9397,
      "step": 188890
    },
    {
      "epoch": 0.3935416666666667,
      "grad_norm": 0.753145158290863,
      "learning_rate": 0.00020036520117060557,
      "loss": 3.8754,
      "step": 188900
    },
    {
      "epoch": 0.3935625,
      "grad_norm": 0.7864042520523071,
      "learning_rate": 0.00020035591484866995,
      "loss": 3.8108,
      "step": 188910
    },
    {
      "epoch": 0.39358333333333334,
      "grad_norm": 0.8276193737983704,
      "learning_rate": 0.00020034662830921665,
      "loss": 3.7178,
      "step": 188920
    },
    {
      "epoch": 0.39360416666666664,
      "grad_norm": 0.9800392389297485,
      "learning_rate": 0.00020033734155228586,
      "loss": 3.8685,
      "step": 188930
    },
    {
      "epoch": 0.393625,
      "grad_norm": 0.932877242565155,
      "learning_rate": 0.0002003280545779177,
      "loss": 3.9333,
      "step": 188940
    },
    {
      "epoch": 0.3936458333333333,
      "grad_norm": 0.7052668929100037,
      "learning_rate": 0.00020031876738615224,
      "loss": 3.8878,
      "step": 188950
    },
    {
      "epoch": 0.39366666666666666,
      "grad_norm": 0.8068601489067078,
      "learning_rate": 0.00020030947997702966,
      "loss": 3.779,
      "step": 188960
    },
    {
      "epoch": 0.3936875,
      "grad_norm": 0.8400499820709229,
      "learning_rate": 0.00020030019235058998,
      "loss": 3.8075,
      "step": 188970
    },
    {
      "epoch": 0.3937083333333333,
      "grad_norm": 0.9595541954040527,
      "learning_rate": 0.0002002909045068734,
      "loss": 3.8009,
      "step": 188980
    },
    {
      "epoch": 0.3937291666666667,
      "grad_norm": 0.7209644913673401,
      "learning_rate": 0.00020028161644592007,
      "loss": 3.9563,
      "step": 188990
    },
    {
      "epoch": 0.39375,
      "grad_norm": 0.8462327122688293,
      "learning_rate": 0.00020027232816777,
      "loss": 3.9147,
      "step": 189000
    },
    {
      "epoch": 0.39375,
      "eval_loss": 4.175159454345703,
      "eval_runtime": 9.9455,
      "eval_samples_per_second": 1.005,
      "eval_steps_per_second": 0.302,
      "step": 189000
    },
    {
      "epoch": 0.39377083333333335,
      "grad_norm": 0.8774930834770203,
      "learning_rate": 0.00020026303967246337,
      "loss": 3.8512,
      "step": 189010
    },
    {
      "epoch": 0.39379166666666665,
      "grad_norm": 0.8940721750259399,
      "learning_rate": 0.00020025375096004034,
      "loss": 3.9183,
      "step": 189020
    },
    {
      "epoch": 0.3938125,
      "grad_norm": 1.0102691650390625,
      "learning_rate": 0.00020024446203054097,
      "loss": 3.9328,
      "step": 189030
    },
    {
      "epoch": 0.3938333333333333,
      "grad_norm": 0.9857479333877563,
      "learning_rate": 0.00020023517288400542,
      "loss": 3.9331,
      "step": 189040
    },
    {
      "epoch": 0.39385416666666667,
      "grad_norm": 0.7184646725654602,
      "learning_rate": 0.00020022588352047385,
      "loss": 3.8706,
      "step": 189050
    },
    {
      "epoch": 0.393875,
      "grad_norm": 0.8814496397972107,
      "learning_rate": 0.00020021659393998627,
      "loss": 3.8324,
      "step": 189060
    },
    {
      "epoch": 0.39389583333333333,
      "grad_norm": 0.8568623065948486,
      "learning_rate": 0.0002002073041425829,
      "loss": 3.868,
      "step": 189070
    },
    {
      "epoch": 0.3939166666666667,
      "grad_norm": 0.8198646903038025,
      "learning_rate": 0.00020019801412830392,
      "loss": 3.9918,
      "step": 189080
    },
    {
      "epoch": 0.3939375,
      "grad_norm": 0.8392384052276611,
      "learning_rate": 0.00020018872389718933,
      "loss": 3.666,
      "step": 189090
    },
    {
      "epoch": 0.39395833333333335,
      "grad_norm": 0.806666910648346,
      "learning_rate": 0.00020017943344927933,
      "loss": 3.8051,
      "step": 189100
    },
    {
      "epoch": 0.39397916666666666,
      "grad_norm": 0.7943039536476135,
      "learning_rate": 0.00020017014278461405,
      "loss": 3.9928,
      "step": 189110
    },
    {
      "epoch": 0.394,
      "grad_norm": 0.7904027104377747,
      "learning_rate": 0.00020016085190323357,
      "loss": 3.9092,
      "step": 189120
    },
    {
      "epoch": 0.3940208333333333,
      "grad_norm": 0.697689950466156,
      "learning_rate": 0.0002001515608051781,
      "loss": 3.8435,
      "step": 189130
    },
    {
      "epoch": 0.3940416666666667,
      "grad_norm": 0.9644234776496887,
      "learning_rate": 0.00020014226949048773,
      "loss": 3.8021,
      "step": 189140
    },
    {
      "epoch": 0.3940625,
      "grad_norm": 0.8762988448143005,
      "learning_rate": 0.00020013297795920258,
      "loss": 3.9995,
      "step": 189150
    },
    {
      "epoch": 0.39408333333333334,
      "grad_norm": 0.8297797441482544,
      "learning_rate": 0.00020012368621136285,
      "loss": 3.9546,
      "step": 189160
    },
    {
      "epoch": 0.39410416666666664,
      "grad_norm": 0.7518790364265442,
      "learning_rate": 0.00020011439424700862,
      "loss": 3.9485,
      "step": 189170
    },
    {
      "epoch": 0.394125,
      "grad_norm": 0.8087908625602722,
      "learning_rate": 0.00020010510206618003,
      "loss": 3.8703,
      "step": 189180
    },
    {
      "epoch": 0.3941458333333333,
      "grad_norm": 1.0254570245742798,
      "learning_rate": 0.00020009580966891724,
      "loss": 3.89,
      "step": 189190
    },
    {
      "epoch": 0.39416666666666667,
      "grad_norm": 0.767021656036377,
      "learning_rate": 0.00020008651705526038,
      "loss": 3.8748,
      "step": 189200
    },
    {
      "epoch": 0.3941875,
      "grad_norm": 1.0151057243347168,
      "learning_rate": 0.00020007722422524962,
      "loss": 3.7803,
      "step": 189210
    },
    {
      "epoch": 0.3942083333333333,
      "grad_norm": 0.7489066123962402,
      "learning_rate": 0.00020006793117892507,
      "loss": 3.8088,
      "step": 189220
    },
    {
      "epoch": 0.3942291666666667,
      "grad_norm": 0.8372907638549805,
      "learning_rate": 0.0002000586379163268,
      "loss": 3.7751,
      "step": 189230
    },
    {
      "epoch": 0.39425,
      "grad_norm": 0.9504052996635437,
      "learning_rate": 0.00020004934443749512,
      "loss": 3.9813,
      "step": 189240
    },
    {
      "epoch": 0.39427083333333335,
      "grad_norm": 0.7546856999397278,
      "learning_rate": 0.00020004005074247006,
      "loss": 3.8557,
      "step": 189250
    },
    {
      "epoch": 0.39429166666666665,
      "grad_norm": 0.8312422037124634,
      "learning_rate": 0.00020003075683129178,
      "loss": 3.9791,
      "step": 189260
    },
    {
      "epoch": 0.3943125,
      "grad_norm": 0.8205673694610596,
      "learning_rate": 0.0002000214627040004,
      "loss": 3.921,
      "step": 189270
    },
    {
      "epoch": 0.3943333333333333,
      "grad_norm": 0.7580873966217041,
      "learning_rate": 0.00020001216836063618,
      "loss": 3.795,
      "step": 189280
    },
    {
      "epoch": 0.3943541666666667,
      "grad_norm": 0.8335942029953003,
      "learning_rate": 0.00020000287380123912,
      "loss": 3.7975,
      "step": 189290
    },
    {
      "epoch": 0.394375,
      "grad_norm": 0.7914595603942871,
      "learning_rate": 0.00019999357902584947,
      "loss": 3.9855,
      "step": 189300
    },
    {
      "epoch": 0.39439583333333333,
      "grad_norm": 0.8362176418304443,
      "learning_rate": 0.00019998428403450731,
      "loss": 3.8139,
      "step": 189310
    },
    {
      "epoch": 0.3944166666666667,
      "grad_norm": 0.9180775284767151,
      "learning_rate": 0.00019997498882725283,
      "loss": 3.9229,
      "step": 189320
    },
    {
      "epoch": 0.3944375,
      "grad_norm": 0.7466679811477661,
      "learning_rate": 0.00019996569340412622,
      "loss": 3.8585,
      "step": 189330
    },
    {
      "epoch": 0.39445833333333336,
      "grad_norm": 0.7707487344741821,
      "learning_rate": 0.00019995639776516759,
      "loss": 3.8279,
      "step": 189340
    },
    {
      "epoch": 0.39447916666666666,
      "grad_norm": 0.7325364351272583,
      "learning_rate": 0.0001999471019104171,
      "loss": 3.8822,
      "step": 189350
    },
    {
      "epoch": 0.3945,
      "grad_norm": 0.9311955571174622,
      "learning_rate": 0.00019993780583991486,
      "loss": 3.7946,
      "step": 189360
    },
    {
      "epoch": 0.3945208333333333,
      "grad_norm": 0.7481427788734436,
      "learning_rate": 0.0001999285095537011,
      "loss": 4.002,
      "step": 189370
    },
    {
      "epoch": 0.3945416666666667,
      "grad_norm": 0.8256272077560425,
      "learning_rate": 0.00019991921305181592,
      "loss": 3.9279,
      "step": 189380
    },
    {
      "epoch": 0.3945625,
      "grad_norm": 0.6884897947311401,
      "learning_rate": 0.00019990991633429952,
      "loss": 3.8091,
      "step": 189390
    },
    {
      "epoch": 0.39458333333333334,
      "grad_norm": 0.8321464657783508,
      "learning_rate": 0.00019990061940119202,
      "loss": 3.7831,
      "step": 189400
    },
    {
      "epoch": 0.39460416666666664,
      "grad_norm": 0.7014882564544678,
      "learning_rate": 0.00019989132225253358,
      "loss": 3.8264,
      "step": 189410
    },
    {
      "epoch": 0.394625,
      "grad_norm": 0.8540356159210205,
      "learning_rate": 0.00019988202488836442,
      "loss": 3.7917,
      "step": 189420
    },
    {
      "epoch": 0.3946458333333333,
      "grad_norm": 0.735515832901001,
      "learning_rate": 0.0001998727273087246,
      "loss": 3.8008,
      "step": 189430
    },
    {
      "epoch": 0.39466666666666667,
      "grad_norm": 0.7583537697792053,
      "learning_rate": 0.00019986342951365443,
      "loss": 3.7857,
      "step": 189440
    },
    {
      "epoch": 0.3946875,
      "grad_norm": 1.1252981424331665,
      "learning_rate": 0.00019985413150319393,
      "loss": 3.8669,
      "step": 189450
    },
    {
      "epoch": 0.3947083333333333,
      "grad_norm": 0.7546401619911194,
      "learning_rate": 0.00019984483327738328,
      "loss": 3.8669,
      "step": 189460
    },
    {
      "epoch": 0.3947291666666667,
      "grad_norm": 0.6923245787620544,
      "learning_rate": 0.00019983553483626272,
      "loss": 3.9752,
      "step": 189470
    },
    {
      "epoch": 0.39475,
      "grad_norm": 0.746209979057312,
      "learning_rate": 0.00019982623617987235,
      "loss": 3.6735,
      "step": 189480
    },
    {
      "epoch": 0.39477083333333335,
      "grad_norm": 0.7605329751968384,
      "learning_rate": 0.00019981693730825237,
      "loss": 3.9062,
      "step": 189490
    },
    {
      "epoch": 0.39479166666666665,
      "grad_norm": 0.7611756324768066,
      "learning_rate": 0.00019980763822144296,
      "loss": 3.6538,
      "step": 189500
    },
    {
      "epoch": 0.3948125,
      "grad_norm": 0.6858136057853699,
      "learning_rate": 0.00019979833891948425,
      "loss": 3.8807,
      "step": 189510
    },
    {
      "epoch": 0.3948333333333333,
      "grad_norm": 0.6915552020072937,
      "learning_rate": 0.00019978903940241646,
      "loss": 3.5868,
      "step": 189520
    },
    {
      "epoch": 0.3948541666666667,
      "grad_norm": 0.7386254072189331,
      "learning_rate": 0.00019977973967027967,
      "loss": 3.7136,
      "step": 189530
    },
    {
      "epoch": 0.394875,
      "grad_norm": 0.7738096117973328,
      "learning_rate": 0.00019977043972311414,
      "loss": 3.7551,
      "step": 189540
    },
    {
      "epoch": 0.39489583333333333,
      "grad_norm": 0.9317187666893005,
      "learning_rate": 0.00019976113956096002,
      "loss": 3.6504,
      "step": 189550
    },
    {
      "epoch": 0.3949166666666667,
      "grad_norm": 0.7782264947891235,
      "learning_rate": 0.0001997518391838575,
      "loss": 3.9942,
      "step": 189560
    },
    {
      "epoch": 0.3949375,
      "grad_norm": 0.7568407654762268,
      "learning_rate": 0.00019974253859184667,
      "loss": 3.8611,
      "step": 189570
    },
    {
      "epoch": 0.39495833333333336,
      "grad_norm": 0.8690983653068542,
      "learning_rate": 0.0001997332377849678,
      "loss": 3.7443,
      "step": 189580
    },
    {
      "epoch": 0.39497916666666666,
      "grad_norm": 0.7995790243148804,
      "learning_rate": 0.00019972393676326102,
      "loss": 3.9425,
      "step": 189590
    },
    {
      "epoch": 0.395,
      "grad_norm": 0.7178528904914856,
      "learning_rate": 0.00019971463552676647,
      "loss": 3.9174,
      "step": 189600
    },
    {
      "epoch": 0.3950208333333333,
      "grad_norm": 0.7583917379379272,
      "learning_rate": 0.00019970533407552446,
      "loss": 3.8782,
      "step": 189610
    },
    {
      "epoch": 0.3950416666666667,
      "grad_norm": 0.749224066734314,
      "learning_rate": 0.00019969603240957504,
      "loss": 3.891,
      "step": 189620
    },
    {
      "epoch": 0.3950625,
      "grad_norm": 0.8706029653549194,
      "learning_rate": 0.00019968673052895837,
      "loss": 3.685,
      "step": 189630
    },
    {
      "epoch": 0.39508333333333334,
      "grad_norm": 0.7737053036689758,
      "learning_rate": 0.0001996774284337148,
      "loss": 3.8502,
      "step": 189640
    },
    {
      "epoch": 0.39510416666666665,
      "grad_norm": 0.9441201090812683,
      "learning_rate": 0.00019966812612388433,
      "loss": 4.0269,
      "step": 189650
    },
    {
      "epoch": 0.395125,
      "grad_norm": 0.7607427835464478,
      "learning_rate": 0.00019965882359950722,
      "loss": 3.7894,
      "step": 189660
    },
    {
      "epoch": 0.3951458333333333,
      "grad_norm": 0.7703080773353577,
      "learning_rate": 0.00019964952086062366,
      "loss": 3.7637,
      "step": 189670
    },
    {
      "epoch": 0.39516666666666667,
      "grad_norm": 0.8380357027053833,
      "learning_rate": 0.00019964021790727383,
      "loss": 3.8871,
      "step": 189680
    },
    {
      "epoch": 0.3951875,
      "grad_norm": 0.7339788675308228,
      "learning_rate": 0.00019963091473949792,
      "loss": 3.9068,
      "step": 189690
    },
    {
      "epoch": 0.39520833333333333,
      "grad_norm": 0.8137896656990051,
      "learning_rate": 0.00019962161135733607,
      "loss": 3.7678,
      "step": 189700
    },
    {
      "epoch": 0.3952291666666667,
      "grad_norm": 0.7533039450645447,
      "learning_rate": 0.00019961230776082854,
      "loss": 3.8347,
      "step": 189710
    },
    {
      "epoch": 0.39525,
      "grad_norm": 0.9826480746269226,
      "learning_rate": 0.0001996030039500155,
      "loss": 3.8983,
      "step": 189720
    },
    {
      "epoch": 0.39527083333333335,
      "grad_norm": 0.9334656596183777,
      "learning_rate": 0.00019959369992493702,
      "loss": 3.8569,
      "step": 189730
    },
    {
      "epoch": 0.39529166666666665,
      "grad_norm": 0.9880474209785461,
      "learning_rate": 0.00019958439568563345,
      "loss": 3.8714,
      "step": 189740
    },
    {
      "epoch": 0.3953125,
      "grad_norm": 0.8431870937347412,
      "learning_rate": 0.00019957509123214493,
      "loss": 3.9731,
      "step": 189750
    },
    {
      "epoch": 0.3953333333333333,
      "grad_norm": 0.7770678400993347,
      "learning_rate": 0.00019956578656451157,
      "loss": 3.826,
      "step": 189760
    },
    {
      "epoch": 0.3953541666666667,
      "grad_norm": 0.7431073784828186,
      "learning_rate": 0.0001995564816827737,
      "loss": 3.7617,
      "step": 189770
    },
    {
      "epoch": 0.395375,
      "grad_norm": 0.722262978553772,
      "learning_rate": 0.00019954717658697145,
      "loss": 3.816,
      "step": 189780
    },
    {
      "epoch": 0.39539583333333334,
      "grad_norm": 0.7967077493667603,
      "learning_rate": 0.00019953787127714498,
      "loss": 3.9173,
      "step": 189790
    },
    {
      "epoch": 0.3954166666666667,
      "grad_norm": 0.7781023383140564,
      "learning_rate": 0.00019952856575333448,
      "loss": 3.8979,
      "step": 189800
    },
    {
      "epoch": 0.3954375,
      "grad_norm": 1.0333892107009888,
      "learning_rate": 0.00019951926001558025,
      "loss": 3.7698,
      "step": 189810
    },
    {
      "epoch": 0.39545833333333336,
      "grad_norm": 0.8040222525596619,
      "learning_rate": 0.00019950995406392238,
      "loss": 3.7612,
      "step": 189820
    },
    {
      "epoch": 0.39547916666666666,
      "grad_norm": 0.7849081158638,
      "learning_rate": 0.00019950064789840105,
      "loss": 3.955,
      "step": 189830
    },
    {
      "epoch": 0.3955,
      "grad_norm": 0.7023487687110901,
      "learning_rate": 0.00019949134151905662,
      "loss": 3.9753,
      "step": 189840
    },
    {
      "epoch": 0.3955208333333333,
      "grad_norm": 0.7344098687171936,
      "learning_rate": 0.00019948203492592916,
      "loss": 3.7973,
      "step": 189850
    },
    {
      "epoch": 0.3955416666666667,
      "grad_norm": 0.7652691602706909,
      "learning_rate": 0.00019947272811905885,
      "loss": 3.7476,
      "step": 189860
    },
    {
      "epoch": 0.3955625,
      "grad_norm": 0.827728271484375,
      "learning_rate": 0.00019946342109848595,
      "loss": 3.8044,
      "step": 189870
    },
    {
      "epoch": 0.39558333333333334,
      "grad_norm": 0.8385420441627502,
      "learning_rate": 0.0001994541138642507,
      "loss": 3.8828,
      "step": 189880
    },
    {
      "epoch": 0.39560416666666665,
      "grad_norm": 0.7345587015151978,
      "learning_rate": 0.00019944480641639323,
      "loss": 3.9157,
      "step": 189890
    },
    {
      "epoch": 0.395625,
      "grad_norm": 1.1249961853027344,
      "learning_rate": 0.00019943549875495374,
      "loss": 3.798,
      "step": 189900
    },
    {
      "epoch": 0.3956458333333333,
      "grad_norm": 0.7970105409622192,
      "learning_rate": 0.00019942619087997247,
      "loss": 3.8923,
      "step": 189910
    },
    {
      "epoch": 0.39566666666666667,
      "grad_norm": 0.7644004821777344,
      "learning_rate": 0.00019941688279148965,
      "loss": 3.5821,
      "step": 189920
    },
    {
      "epoch": 0.3956875,
      "grad_norm": 0.6655669212341309,
      "learning_rate": 0.0001994075744895454,
      "loss": 3.7766,
      "step": 189930
    },
    {
      "epoch": 0.39570833333333333,
      "grad_norm": 0.7705581784248352,
      "learning_rate": 0.00019939826597418,
      "loss": 3.8262,
      "step": 189940
    },
    {
      "epoch": 0.3957291666666667,
      "grad_norm": 0.9250642657279968,
      "learning_rate": 0.0001993889572454337,
      "loss": 3.8673,
      "step": 189950
    },
    {
      "epoch": 0.39575,
      "grad_norm": 0.8442540764808655,
      "learning_rate": 0.00019937964830334665,
      "loss": 3.8014,
      "step": 189960
    },
    {
      "epoch": 0.39577083333333335,
      "grad_norm": 0.8492833971977234,
      "learning_rate": 0.000199370339147959,
      "loss": 3.8604,
      "step": 189970
    },
    {
      "epoch": 0.39579166666666665,
      "grad_norm": 0.8121992349624634,
      "learning_rate": 0.00019936102977931107,
      "loss": 3.7944,
      "step": 189980
    },
    {
      "epoch": 0.3958125,
      "grad_norm": 0.7323034405708313,
      "learning_rate": 0.00019935172019744303,
      "loss": 3.8326,
      "step": 189990
    },
    {
      "epoch": 0.3958333333333333,
      "grad_norm": 0.7055436372756958,
      "learning_rate": 0.00019934241040239501,
      "loss": 3.8926,
      "step": 190000
    },
    {
      "epoch": 0.3958333333333333,
      "eval_loss": 4.16791296005249,
      "eval_runtime": 9.43,
      "eval_samples_per_second": 1.06,
      "eval_steps_per_second": 0.318,
      "step": 190000
    },
    {
      "epoch": 0.3958541666666667,
      "grad_norm": 0.6954879760742188,
      "learning_rate": 0.00019933310039420746,
      "loss": 3.8629,
      "step": 190010
    },
    {
      "epoch": 0.395875,
      "grad_norm": 0.8433279395103455,
      "learning_rate": 0.00019932379017292037,
      "loss": 3.8952,
      "step": 190020
    },
    {
      "epoch": 0.39589583333333334,
      "grad_norm": 0.7091994285583496,
      "learning_rate": 0.000199314479738574,
      "loss": 3.7696,
      "step": 190030
    },
    {
      "epoch": 0.39591666666666664,
      "grad_norm": 0.7334423065185547,
      "learning_rate": 0.0001993051690912086,
      "loss": 3.8076,
      "step": 190040
    },
    {
      "epoch": 0.3959375,
      "grad_norm": 0.7792430520057678,
      "learning_rate": 0.00019929585823086444,
      "loss": 3.8347,
      "step": 190050
    },
    {
      "epoch": 0.39595833333333336,
      "grad_norm": 0.7899531722068787,
      "learning_rate": 0.00019928654715758163,
      "loss": 3.676,
      "step": 190060
    },
    {
      "epoch": 0.39597916666666666,
      "grad_norm": 0.8884335160255432,
      "learning_rate": 0.00019927723587140046,
      "loss": 3.8776,
      "step": 190070
    },
    {
      "epoch": 0.396,
      "grad_norm": 0.7729365825653076,
      "learning_rate": 0.0001992679243723612,
      "loss": 3.6988,
      "step": 190080
    },
    {
      "epoch": 0.3960208333333333,
      "grad_norm": 1.1319754123687744,
      "learning_rate": 0.00019925861266050394,
      "loss": 3.8327,
      "step": 190090
    },
    {
      "epoch": 0.3960416666666667,
      "grad_norm": 0.8003312945365906,
      "learning_rate": 0.00019924930073586896,
      "loss": 3.9799,
      "step": 190100
    },
    {
      "epoch": 0.3960625,
      "grad_norm": 0.7296203374862671,
      "learning_rate": 0.0001992399885984965,
      "loss": 3.8801,
      "step": 190110
    },
    {
      "epoch": 0.39608333333333334,
      "grad_norm": 0.9372369647026062,
      "learning_rate": 0.00019923067624842683,
      "loss": 3.8971,
      "step": 190120
    },
    {
      "epoch": 0.39610416666666665,
      "grad_norm": 0.8212023973464966,
      "learning_rate": 0.0001992213636857001,
      "loss": 4.0167,
      "step": 190130
    },
    {
      "epoch": 0.396125,
      "grad_norm": 0.7438948154449463,
      "learning_rate": 0.00019921205091035654,
      "loss": 3.7601,
      "step": 190140
    },
    {
      "epoch": 0.3961458333333333,
      "grad_norm": 0.7793130278587341,
      "learning_rate": 0.00019920273792243647,
      "loss": 3.9796,
      "step": 190150
    },
    {
      "epoch": 0.39616666666666667,
      "grad_norm": 0.7905284762382507,
      "learning_rate": 0.00019919342472197996,
      "loss": 3.8125,
      "step": 190160
    },
    {
      "epoch": 0.3961875,
      "grad_norm": 0.8979089856147766,
      "learning_rate": 0.00019918411130902738,
      "loss": 3.9772,
      "step": 190170
    },
    {
      "epoch": 0.39620833333333333,
      "grad_norm": 0.7101927995681763,
      "learning_rate": 0.00019917479768361888,
      "loss": 3.8993,
      "step": 190180
    },
    {
      "epoch": 0.3962291666666667,
      "grad_norm": 0.8450039625167847,
      "learning_rate": 0.00019916548384579474,
      "loss": 3.8602,
      "step": 190190
    },
    {
      "epoch": 0.39625,
      "grad_norm": 1.0117765665054321,
      "learning_rate": 0.00019915616979559515,
      "loss": 3.8186,
      "step": 190200
    },
    {
      "epoch": 0.39627083333333335,
      "grad_norm": 0.8974493145942688,
      "learning_rate": 0.00019914685553306036,
      "loss": 3.6997,
      "step": 190210
    },
    {
      "epoch": 0.39629166666666665,
      "grad_norm": 0.7825281620025635,
      "learning_rate": 0.00019913754105823064,
      "loss": 3.9109,
      "step": 190220
    },
    {
      "epoch": 0.3963125,
      "grad_norm": 0.773231565952301,
      "learning_rate": 0.0001991282263711462,
      "loss": 3.8636,
      "step": 190230
    },
    {
      "epoch": 0.3963333333333333,
      "grad_norm": 0.7891260981559753,
      "learning_rate": 0.00019911891147184722,
      "loss": 3.7976,
      "step": 190240
    },
    {
      "epoch": 0.3963541666666667,
      "grad_norm": 0.8221814632415771,
      "learning_rate": 0.00019910959636037397,
      "loss": 3.8195,
      "step": 190250
    },
    {
      "epoch": 0.396375,
      "grad_norm": 0.8187609314918518,
      "learning_rate": 0.00019910028103676676,
      "loss": 3.8072,
      "step": 190260
    },
    {
      "epoch": 0.39639583333333334,
      "grad_norm": 0.7381786108016968,
      "learning_rate": 0.00019909096550106573,
      "loss": 3.8302,
      "step": 190270
    },
    {
      "epoch": 0.39641666666666664,
      "grad_norm": 0.8525958061218262,
      "learning_rate": 0.0001990816497533112,
      "loss": 3.6361,
      "step": 190280
    },
    {
      "epoch": 0.3964375,
      "grad_norm": 0.7521949410438538,
      "learning_rate": 0.0001990723337935434,
      "loss": 3.7428,
      "step": 190290
    },
    {
      "epoch": 0.39645833333333336,
      "grad_norm": 0.8231000304222107,
      "learning_rate": 0.00019906301762180246,
      "loss": 3.8466,
      "step": 190300
    },
    {
      "epoch": 0.39647916666666666,
      "grad_norm": 0.7617257237434387,
      "learning_rate": 0.00019905370123812877,
      "loss": 3.7903,
      "step": 190310
    },
    {
      "epoch": 0.3965,
      "grad_norm": 0.8278413414955139,
      "learning_rate": 0.00019904438464256248,
      "loss": 3.815,
      "step": 190320
    },
    {
      "epoch": 0.3965208333333333,
      "grad_norm": 0.7141941785812378,
      "learning_rate": 0.0001990350678351438,
      "loss": 3.8323,
      "step": 190330
    },
    {
      "epoch": 0.3965416666666667,
      "grad_norm": 0.7635592818260193,
      "learning_rate": 0.00019902575081591313,
      "loss": 3.9173,
      "step": 190340
    },
    {
      "epoch": 0.3965625,
      "grad_norm": 0.8511501550674438,
      "learning_rate": 0.0001990164335849106,
      "loss": 3.8626,
      "step": 190350
    },
    {
      "epoch": 0.39658333333333334,
      "grad_norm": 0.8902995586395264,
      "learning_rate": 0.00019900711614217643,
      "loss": 3.8288,
      "step": 190360
    },
    {
      "epoch": 0.39660416666666665,
      "grad_norm": 0.7737725973129272,
      "learning_rate": 0.00019899779848775095,
      "loss": 4.0551,
      "step": 190370
    },
    {
      "epoch": 0.396625,
      "grad_norm": 0.8466925024986267,
      "learning_rate": 0.0001989884806216744,
      "loss": 3.8957,
      "step": 190380
    },
    {
      "epoch": 0.3966458333333333,
      "grad_norm": 0.8307653069496155,
      "learning_rate": 0.00019897916254398698,
      "loss": 3.7402,
      "step": 190390
    },
    {
      "epoch": 0.39666666666666667,
      "grad_norm": 0.7510179281234741,
      "learning_rate": 0.00019896984425472896,
      "loss": 3.9134,
      "step": 190400
    },
    {
      "epoch": 0.3966875,
      "grad_norm": 0.8542865514755249,
      "learning_rate": 0.0001989605257539406,
      "loss": 3.8909,
      "step": 190410
    },
    {
      "epoch": 0.39670833333333333,
      "grad_norm": 1.3421427011489868,
      "learning_rate": 0.00019895120704166213,
      "loss": 3.6296,
      "step": 190420
    },
    {
      "epoch": 0.3967291666666667,
      "grad_norm": 0.7280952334403992,
      "learning_rate": 0.00019894188811793385,
      "loss": 3.983,
      "step": 190430
    },
    {
      "epoch": 0.39675,
      "grad_norm": 0.8539635539054871,
      "learning_rate": 0.000198932568982796,
      "loss": 3.8534,
      "step": 190440
    },
    {
      "epoch": 0.39677083333333335,
      "grad_norm": 0.7553196549415588,
      "learning_rate": 0.00019892324963628882,
      "loss": 3.9055,
      "step": 190450
    },
    {
      "epoch": 0.39679166666666665,
      "grad_norm": 0.8332899808883667,
      "learning_rate": 0.00019891393007845254,
      "loss": 3.883,
      "step": 190460
    },
    {
      "epoch": 0.3968125,
      "grad_norm": 0.7063845992088318,
      "learning_rate": 0.00019890461030932743,
      "loss": 3.9391,
      "step": 190470
    },
    {
      "epoch": 0.3968333333333333,
      "grad_norm": 0.7554361820220947,
      "learning_rate": 0.00019889529032895382,
      "loss": 3.7043,
      "step": 190480
    },
    {
      "epoch": 0.3968541666666667,
      "grad_norm": 0.7053502202033997,
      "learning_rate": 0.00019888597013737188,
      "loss": 3.9744,
      "step": 190490
    },
    {
      "epoch": 0.396875,
      "grad_norm": 0.7886112928390503,
      "learning_rate": 0.00019887664973462183,
      "loss": 3.9018,
      "step": 190500
    },
    {
      "epoch": 0.39689583333333334,
      "grad_norm": 0.7849721312522888,
      "learning_rate": 0.0001988673291207441,
      "loss": 3.9101,
      "step": 190510
    },
    {
      "epoch": 0.39691666666666664,
      "grad_norm": 0.9573026895523071,
      "learning_rate": 0.0001988580082957788,
      "loss": 3.6967,
      "step": 190520
    },
    {
      "epoch": 0.3969375,
      "grad_norm": 0.7509134411811829,
      "learning_rate": 0.00019884868725976627,
      "loss": 3.8639,
      "step": 190530
    },
    {
      "epoch": 0.39695833333333336,
      "grad_norm": 0.7644334435462952,
      "learning_rate": 0.00019883936601274675,
      "loss": 3.8747,
      "step": 190540
    },
    {
      "epoch": 0.39697916666666666,
      "grad_norm": 0.729888916015625,
      "learning_rate": 0.00019883004455476048,
      "loss": 3.8603,
      "step": 190550
    },
    {
      "epoch": 0.397,
      "grad_norm": 0.7350350022315979,
      "learning_rate": 0.00019882072288584772,
      "loss": 3.768,
      "step": 190560
    },
    {
      "epoch": 0.3970208333333333,
      "grad_norm": 0.7628466486930847,
      "learning_rate": 0.0001988114010060488,
      "loss": 3.904,
      "step": 190570
    },
    {
      "epoch": 0.3970416666666667,
      "grad_norm": 0.783187747001648,
      "learning_rate": 0.00019880207891540393,
      "loss": 3.8459,
      "step": 190580
    },
    {
      "epoch": 0.3970625,
      "grad_norm": 0.7526111602783203,
      "learning_rate": 0.00019879275661395342,
      "loss": 3.8319,
      "step": 190590
    },
    {
      "epoch": 0.39708333333333334,
      "grad_norm": 0.9085589051246643,
      "learning_rate": 0.00019878343410173748,
      "loss": 3.9551,
      "step": 190600
    },
    {
      "epoch": 0.39710416666666665,
      "grad_norm": 0.747250497341156,
      "learning_rate": 0.00019877411137879646,
      "loss": 4.0429,
      "step": 190610
    },
    {
      "epoch": 0.397125,
      "grad_norm": 0.7209979891777039,
      "learning_rate": 0.0001987647884451706,
      "loss": 3.9507,
      "step": 190620
    },
    {
      "epoch": 0.3971458333333333,
      "grad_norm": 0.8142620325088501,
      "learning_rate": 0.00019875546530090005,
      "loss": 3.9691,
      "step": 190630
    },
    {
      "epoch": 0.39716666666666667,
      "grad_norm": 0.8141088485717773,
      "learning_rate": 0.00019874614194602524,
      "loss": 3.8193,
      "step": 190640
    },
    {
      "epoch": 0.3971875,
      "grad_norm": 0.7502877712249756,
      "learning_rate": 0.00019873681838058647,
      "loss": 3.973,
      "step": 190650
    },
    {
      "epoch": 0.39720833333333333,
      "grad_norm": 1.054332971572876,
      "learning_rate": 0.00019872749460462386,
      "loss": 3.9068,
      "step": 190660
    },
    {
      "epoch": 0.3972291666666667,
      "grad_norm": 0.8856394290924072,
      "learning_rate": 0.00019871817061817775,
      "loss": 3.8479,
      "step": 190670
    },
    {
      "epoch": 0.39725,
      "grad_norm": 0.7358154058456421,
      "learning_rate": 0.00019870884642128847,
      "loss": 3.8165,
      "step": 190680
    },
    {
      "epoch": 0.39727083333333335,
      "grad_norm": 0.9668391942977905,
      "learning_rate": 0.00019869952201399623,
      "loss": 3.8929,
      "step": 190690
    },
    {
      "epoch": 0.39729166666666665,
      "grad_norm": 0.7931057810783386,
      "learning_rate": 0.00019869019739634133,
      "loss": 3.8038,
      "step": 190700
    },
    {
      "epoch": 0.3973125,
      "grad_norm": 0.7818787097930908,
      "learning_rate": 0.00019868087256836407,
      "loss": 3.8196,
      "step": 190710
    },
    {
      "epoch": 0.3973333333333333,
      "grad_norm": 0.7532119154930115,
      "learning_rate": 0.00019867154753010468,
      "loss": 3.8977,
      "step": 190720
    },
    {
      "epoch": 0.3973541666666667,
      "grad_norm": 0.847712516784668,
      "learning_rate": 0.0001986622222816035,
      "loss": 3.7959,
      "step": 190730
    },
    {
      "epoch": 0.397375,
      "grad_norm": 0.795255184173584,
      "learning_rate": 0.00019865289682290078,
      "loss": 3.9818,
      "step": 190740
    },
    {
      "epoch": 0.39739583333333334,
      "grad_norm": 0.8369494080543518,
      "learning_rate": 0.00019864357115403677,
      "loss": 3.8464,
      "step": 190750
    },
    {
      "epoch": 0.39741666666666664,
      "grad_norm": 0.7931419610977173,
      "learning_rate": 0.0001986342452750518,
      "loss": 3.8017,
      "step": 190760
    },
    {
      "epoch": 0.3974375,
      "grad_norm": 0.9090033769607544,
      "learning_rate": 0.00019862491918598617,
      "loss": 3.8362,
      "step": 190770
    },
    {
      "epoch": 0.39745833333333336,
      "grad_norm": 0.7247582674026489,
      "learning_rate": 0.0001986155928868801,
      "loss": 3.7677,
      "step": 190780
    },
    {
      "epoch": 0.39747916666666666,
      "grad_norm": 0.7742112874984741,
      "learning_rate": 0.00019860626637777397,
      "loss": 3.8559,
      "step": 190790
    },
    {
      "epoch": 0.3975,
      "grad_norm": 0.7461768984794617,
      "learning_rate": 0.00019859693965870793,
      "loss": 3.7969,
      "step": 190800
    },
    {
      "epoch": 0.3975208333333333,
      "grad_norm": 0.7887992858886719,
      "learning_rate": 0.0001985876127297224,
      "loss": 3.7556,
      "step": 190810
    },
    {
      "epoch": 0.3975416666666667,
      "grad_norm": 0.7403301000595093,
      "learning_rate": 0.0001985782855908576,
      "loss": 3.6483,
      "step": 190820
    },
    {
      "epoch": 0.3975625,
      "grad_norm": 0.7624249458312988,
      "learning_rate": 0.0001985689582421538,
      "loss": 3.7828,
      "step": 190830
    },
    {
      "epoch": 0.39758333333333334,
      "grad_norm": 0.8835012912750244,
      "learning_rate": 0.0001985596306836514,
      "loss": 3.9071,
      "step": 190840
    },
    {
      "epoch": 0.39760416666666665,
      "grad_norm": 0.7598276138305664,
      "learning_rate": 0.0001985503029153906,
      "loss": 3.6614,
      "step": 190850
    },
    {
      "epoch": 0.397625,
      "grad_norm": 0.7164818048477173,
      "learning_rate": 0.00019854097493741168,
      "loss": 3.7947,
      "step": 190860
    },
    {
      "epoch": 0.3976458333333333,
      "grad_norm": 1.103305459022522,
      "learning_rate": 0.00019853164674975493,
      "loss": 3.7935,
      "step": 190870
    },
    {
      "epoch": 0.39766666666666667,
      "grad_norm": 0.7074570059776306,
      "learning_rate": 0.00019852231835246073,
      "loss": 3.7616,
      "step": 190880
    },
    {
      "epoch": 0.3976875,
      "grad_norm": 0.9615219235420227,
      "learning_rate": 0.00019851298974556933,
      "loss": 3.9058,
      "step": 190890
    },
    {
      "epoch": 0.39770833333333333,
      "grad_norm": 0.8199970722198486,
      "learning_rate": 0.00019850366092912097,
      "loss": 3.817,
      "step": 190900
    },
    {
      "epoch": 0.3977291666666667,
      "grad_norm": 0.7919055819511414,
      "learning_rate": 0.00019849433190315601,
      "loss": 3.8016,
      "step": 190910
    },
    {
      "epoch": 0.39775,
      "grad_norm": 0.7180479168891907,
      "learning_rate": 0.00019848500266771474,
      "loss": 3.9136,
      "step": 190920
    },
    {
      "epoch": 0.39777083333333335,
      "grad_norm": 0.7711275219917297,
      "learning_rate": 0.00019847567322283746,
      "loss": 3.6164,
      "step": 190930
    },
    {
      "epoch": 0.39779166666666665,
      "grad_norm": 0.7467184066772461,
      "learning_rate": 0.00019846634356856445,
      "loss": 3.6877,
      "step": 190940
    },
    {
      "epoch": 0.3978125,
      "grad_norm": 0.8217170834541321,
      "learning_rate": 0.000198457013704936,
      "loss": 3.6958,
      "step": 190950
    },
    {
      "epoch": 0.3978333333333333,
      "grad_norm": 0.7262240052223206,
      "learning_rate": 0.00019844768363199247,
      "loss": 3.8902,
      "step": 190960
    },
    {
      "epoch": 0.3978541666666667,
      "grad_norm": 0.8040541410446167,
      "learning_rate": 0.00019843835334977408,
      "loss": 3.7164,
      "step": 190970
    },
    {
      "epoch": 0.397875,
      "grad_norm": 0.710333526134491,
      "learning_rate": 0.00019842902285832121,
      "loss": 3.9039,
      "step": 190980
    },
    {
      "epoch": 0.39789583333333334,
      "grad_norm": 0.875490128993988,
      "learning_rate": 0.00019841969215767414,
      "loss": 3.7312,
      "step": 190990
    },
    {
      "epoch": 0.39791666666666664,
      "grad_norm": 0.8069189786911011,
      "learning_rate": 0.00019841036124787313,
      "loss": 3.914,
      "step": 191000
    },
    {
      "epoch": 0.39791666666666664,
      "eval_loss": 4.168707370758057,
      "eval_runtime": 9.4864,
      "eval_samples_per_second": 1.054,
      "eval_steps_per_second": 0.316,
      "step": 191000
    },
    {
      "epoch": 0.3979375,
      "grad_norm": 0.8052635192871094,
      "learning_rate": 0.0001984010301289585,
      "loss": 3.8077,
      "step": 191010
    },
    {
      "epoch": 0.39795833333333336,
      "grad_norm": 0.8346368670463562,
      "learning_rate": 0.00019839169880097067,
      "loss": 3.7944,
      "step": 191020
    },
    {
      "epoch": 0.39797916666666666,
      "grad_norm": 0.8253406286239624,
      "learning_rate": 0.0001983823672639498,
      "loss": 3.7336,
      "step": 191030
    },
    {
      "epoch": 0.398,
      "grad_norm": 0.7102594971656799,
      "learning_rate": 0.00019837303551793625,
      "loss": 3.951,
      "step": 191040
    },
    {
      "epoch": 0.3980208333333333,
      "grad_norm": 0.787728488445282,
      "learning_rate": 0.00019836370356297035,
      "loss": 3.9224,
      "step": 191050
    },
    {
      "epoch": 0.3980416666666667,
      "grad_norm": 0.8335250616073608,
      "learning_rate": 0.00019835437139909237,
      "loss": 3.7607,
      "step": 191060
    },
    {
      "epoch": 0.3980625,
      "grad_norm": 1.0913732051849365,
      "learning_rate": 0.00019834503902634265,
      "loss": 3.875,
      "step": 191070
    },
    {
      "epoch": 0.39808333333333334,
      "grad_norm": 0.7470784783363342,
      "learning_rate": 0.0001983357064447615,
      "loss": 3.7418,
      "step": 191080
    },
    {
      "epoch": 0.39810416666666665,
      "grad_norm": 0.7684784531593323,
      "learning_rate": 0.00019832637365438925,
      "loss": 3.7717,
      "step": 191090
    },
    {
      "epoch": 0.398125,
      "grad_norm": 0.8299435973167419,
      "learning_rate": 0.0001983170406552662,
      "loss": 3.7764,
      "step": 191100
    },
    {
      "epoch": 0.3981458333333333,
      "grad_norm": 0.7623807787895203,
      "learning_rate": 0.0001983077074474326,
      "loss": 3.8447,
      "step": 191110
    },
    {
      "epoch": 0.39816666666666667,
      "grad_norm": 0.7280346751213074,
      "learning_rate": 0.0001982983740309289,
      "loss": 3.7033,
      "step": 191120
    },
    {
      "epoch": 0.3981875,
      "grad_norm": 0.6908988952636719,
      "learning_rate": 0.00019828904040579529,
      "loss": 3.7594,
      "step": 191130
    },
    {
      "epoch": 0.39820833333333333,
      "grad_norm": 0.7126412391662598,
      "learning_rate": 0.00019827970657207216,
      "loss": 3.8518,
      "step": 191140
    },
    {
      "epoch": 0.3982291666666667,
      "grad_norm": 0.8218973278999329,
      "learning_rate": 0.0001982703725297998,
      "loss": 3.8935,
      "step": 191150
    },
    {
      "epoch": 0.39825,
      "grad_norm": 0.7236319780349731,
      "learning_rate": 0.0001982610382790186,
      "loss": 3.8448,
      "step": 191160
    },
    {
      "epoch": 0.39827083333333335,
      "grad_norm": 0.8412074446678162,
      "learning_rate": 0.00019825170381976872,
      "loss": 3.8864,
      "step": 191170
    },
    {
      "epoch": 0.39829166666666665,
      "grad_norm": 0.7984483242034912,
      "learning_rate": 0.0001982423691520906,
      "loss": 3.7534,
      "step": 191180
    },
    {
      "epoch": 0.3983125,
      "grad_norm": 0.7321339845657349,
      "learning_rate": 0.00019823303427602462,
      "loss": 3.8017,
      "step": 191190
    },
    {
      "epoch": 0.3983333333333333,
      "grad_norm": 0.8236326575279236,
      "learning_rate": 0.00019822369919161094,
      "loss": 3.9269,
      "step": 191200
    },
    {
      "epoch": 0.3983541666666667,
      "grad_norm": 0.742573082447052,
      "learning_rate": 0.00019821436389889002,
      "loss": 3.8148,
      "step": 191210
    },
    {
      "epoch": 0.398375,
      "grad_norm": 0.7830445766448975,
      "learning_rate": 0.0001982050283979021,
      "loss": 3.6563,
      "step": 191220
    },
    {
      "epoch": 0.39839583333333334,
      "grad_norm": 0.9336588382720947,
      "learning_rate": 0.00019819569268868755,
      "loss": 3.9754,
      "step": 191230
    },
    {
      "epoch": 0.39841666666666664,
      "grad_norm": 0.801539957523346,
      "learning_rate": 0.00019818635677128666,
      "loss": 3.6889,
      "step": 191240
    },
    {
      "epoch": 0.3984375,
      "grad_norm": 0.8047687411308289,
      "learning_rate": 0.0001981770206457398,
      "loss": 3.7222,
      "step": 191250
    },
    {
      "epoch": 0.39845833333333336,
      "grad_norm": 0.7210503220558167,
      "learning_rate": 0.0001981676843120873,
      "loss": 3.843,
      "step": 191260
    },
    {
      "epoch": 0.39847916666666666,
      "grad_norm": 0.855412483215332,
      "learning_rate": 0.00019815834777036942,
      "loss": 3.8087,
      "step": 191270
    },
    {
      "epoch": 0.3985,
      "grad_norm": 0.9206030964851379,
      "learning_rate": 0.00019814901102062658,
      "loss": 3.6987,
      "step": 191280
    },
    {
      "epoch": 0.3985208333333333,
      "grad_norm": 0.7634524703025818,
      "learning_rate": 0.00019813967406289907,
      "loss": 3.7751,
      "step": 191290
    },
    {
      "epoch": 0.3985416666666667,
      "grad_norm": 0.7084977626800537,
      "learning_rate": 0.00019813033689722719,
      "loss": 4.0141,
      "step": 191300
    },
    {
      "epoch": 0.3985625,
      "grad_norm": 1.3806315660476685,
      "learning_rate": 0.00019812099952365135,
      "loss": 3.9782,
      "step": 191310
    },
    {
      "epoch": 0.39858333333333335,
      "grad_norm": 0.7951266169548035,
      "learning_rate": 0.00019811166194221182,
      "loss": 3.794,
      "step": 191320
    },
    {
      "epoch": 0.39860416666666665,
      "grad_norm": 0.7267374396324158,
      "learning_rate": 0.00019810232415294897,
      "loss": 3.7317,
      "step": 191330
    },
    {
      "epoch": 0.398625,
      "grad_norm": 0.8157649636268616,
      "learning_rate": 0.0001980929861559031,
      "loss": 3.7978,
      "step": 191340
    },
    {
      "epoch": 0.3986458333333333,
      "grad_norm": 0.7912883758544922,
      "learning_rate": 0.0001980836479511146,
      "loss": 3.7432,
      "step": 191350
    },
    {
      "epoch": 0.39866666666666667,
      "grad_norm": 1.3670989274978638,
      "learning_rate": 0.00019807430953862375,
      "loss": 3.9323,
      "step": 191360
    },
    {
      "epoch": 0.3986875,
      "grad_norm": 1.0105725526809692,
      "learning_rate": 0.00019806497091847086,
      "loss": 3.6799,
      "step": 191370
    },
    {
      "epoch": 0.39870833333333333,
      "grad_norm": 0.740591824054718,
      "learning_rate": 0.0001980556320906964,
      "loss": 3.8338,
      "step": 191380
    },
    {
      "epoch": 0.3987291666666667,
      "grad_norm": 0.9216195940971375,
      "learning_rate": 0.00019804629305534058,
      "loss": 3.9923,
      "step": 191390
    },
    {
      "epoch": 0.39875,
      "grad_norm": 0.7942600250244141,
      "learning_rate": 0.00019803695381244383,
      "loss": 3.708,
      "step": 191400
    },
    {
      "epoch": 0.39877083333333335,
      "grad_norm": 0.8270763754844666,
      "learning_rate": 0.00019802761436204643,
      "loss": 3.6438,
      "step": 191410
    },
    {
      "epoch": 0.39879166666666666,
      "grad_norm": 0.8684861660003662,
      "learning_rate": 0.00019801827470418879,
      "loss": 3.8171,
      "step": 191420
    },
    {
      "epoch": 0.3988125,
      "grad_norm": 0.8563564419746399,
      "learning_rate": 0.00019800893483891115,
      "loss": 3.8321,
      "step": 191430
    },
    {
      "epoch": 0.3988333333333333,
      "grad_norm": 0.8224219083786011,
      "learning_rate": 0.00019799959476625393,
      "loss": 3.7889,
      "step": 191440
    },
    {
      "epoch": 0.3988541666666667,
      "grad_norm": 0.7917088866233826,
      "learning_rate": 0.00019799025448625747,
      "loss": 3.8245,
      "step": 191450
    },
    {
      "epoch": 0.398875,
      "grad_norm": 0.8468177914619446,
      "learning_rate": 0.0001979809139989621,
      "loss": 3.8383,
      "step": 191460
    },
    {
      "epoch": 0.39889583333333334,
      "grad_norm": 0.8838459253311157,
      "learning_rate": 0.00019797157330440817,
      "loss": 3.8907,
      "step": 191470
    },
    {
      "epoch": 0.39891666666666664,
      "grad_norm": 0.712663471698761,
      "learning_rate": 0.00019796223240263605,
      "loss": 4.0601,
      "step": 191480
    },
    {
      "epoch": 0.3989375,
      "grad_norm": 0.7292435765266418,
      "learning_rate": 0.0001979528912936861,
      "loss": 3.8576,
      "step": 191490
    },
    {
      "epoch": 0.39895833333333336,
      "grad_norm": 1.1630405187606812,
      "learning_rate": 0.00019794354997759855,
      "loss": 3.7613,
      "step": 191500
    },
    {
      "epoch": 0.39897916666666666,
      "grad_norm": 0.791410505771637,
      "learning_rate": 0.0001979342084544139,
      "loss": 3.7832,
      "step": 191510
    },
    {
      "epoch": 0.399,
      "grad_norm": 0.8047588467597961,
      "learning_rate": 0.00019792486672417245,
      "loss": 4.121,
      "step": 191520
    },
    {
      "epoch": 0.3990208333333333,
      "grad_norm": 0.7539963722229004,
      "learning_rate": 0.00019791552478691453,
      "loss": 3.7637,
      "step": 191530
    },
    {
      "epoch": 0.3990416666666667,
      "grad_norm": 0.7255217432975769,
      "learning_rate": 0.0001979061826426805,
      "loss": 3.7803,
      "step": 191540
    },
    {
      "epoch": 0.3990625,
      "grad_norm": 0.6986563205718994,
      "learning_rate": 0.00019789684029151075,
      "loss": 3.729,
      "step": 191550
    },
    {
      "epoch": 0.39908333333333335,
      "grad_norm": 0.8064493536949158,
      "learning_rate": 0.0001978874977334456,
      "loss": 3.8875,
      "step": 191560
    },
    {
      "epoch": 0.39910416666666665,
      "grad_norm": 0.6827669739723206,
      "learning_rate": 0.00019787815496852536,
      "loss": 3.859,
      "step": 191570
    },
    {
      "epoch": 0.399125,
      "grad_norm": 0.836388111114502,
      "learning_rate": 0.00019786881199679052,
      "loss": 3.7635,
      "step": 191580
    },
    {
      "epoch": 0.3991458333333333,
      "grad_norm": 0.6878176927566528,
      "learning_rate": 0.00019785946881828133,
      "loss": 3.8601,
      "step": 191590
    },
    {
      "epoch": 0.39916666666666667,
      "grad_norm": 0.978012204170227,
      "learning_rate": 0.0001978501254330382,
      "loss": 3.7285,
      "step": 191600
    },
    {
      "epoch": 0.3991875,
      "grad_norm": 0.9999337196350098,
      "learning_rate": 0.00019784078184110143,
      "loss": 3.6382,
      "step": 191610
    },
    {
      "epoch": 0.39920833333333333,
      "grad_norm": 0.7568350434303284,
      "learning_rate": 0.00019783143804251145,
      "loss": 3.849,
      "step": 191620
    },
    {
      "epoch": 0.3992291666666667,
      "grad_norm": 0.832063615322113,
      "learning_rate": 0.00019782209403730857,
      "loss": 3.8582,
      "step": 191630
    },
    {
      "epoch": 0.39925,
      "grad_norm": 0.7720268964767456,
      "learning_rate": 0.0001978127498255332,
      "loss": 3.7745,
      "step": 191640
    },
    {
      "epoch": 0.39927083333333335,
      "grad_norm": 0.9281533360481262,
      "learning_rate": 0.00019780340540722562,
      "loss": 3.9045,
      "step": 191650
    },
    {
      "epoch": 0.39929166666666666,
      "grad_norm": 0.9698363542556763,
      "learning_rate": 0.00019779406078242634,
      "loss": 3.9542,
      "step": 191660
    },
    {
      "epoch": 0.3993125,
      "grad_norm": 0.8812299966812134,
      "learning_rate": 0.00019778471595117554,
      "loss": 3.8363,
      "step": 191670
    },
    {
      "epoch": 0.3993333333333333,
      "grad_norm": 1.0157008171081543,
      "learning_rate": 0.0001977753709135137,
      "loss": 3.8321,
      "step": 191680
    },
    {
      "epoch": 0.3993541666666667,
      "grad_norm": 0.7885676622390747,
      "learning_rate": 0.00019776602566948123,
      "loss": 3.9818,
      "step": 191690
    },
    {
      "epoch": 0.399375,
      "grad_norm": 0.818938136100769,
      "learning_rate": 0.00019775668021911839,
      "loss": 3.6622,
      "step": 191700
    },
    {
      "epoch": 0.39939583333333334,
      "grad_norm": 0.8554165959358215,
      "learning_rate": 0.0001977473345624656,
      "loss": 3.7489,
      "step": 191710
    },
    {
      "epoch": 0.39941666666666664,
      "grad_norm": 0.8515001535415649,
      "learning_rate": 0.00019773798869956327,
      "loss": 3.9278,
      "step": 191720
    },
    {
      "epoch": 0.3994375,
      "grad_norm": 0.923248827457428,
      "learning_rate": 0.00019772864263045166,
      "loss": 3.9636,
      "step": 191730
    },
    {
      "epoch": 0.39945833333333336,
      "grad_norm": 0.7219491004943848,
      "learning_rate": 0.00019771929635517118,
      "loss": 3.7424,
      "step": 191740
    },
    {
      "epoch": 0.39947916666666666,
      "grad_norm": 0.7800163626670837,
      "learning_rate": 0.00019770994987376234,
      "loss": 3.8787,
      "step": 191750
    },
    {
      "epoch": 0.3995,
      "grad_norm": 0.6960861086845398,
      "learning_rate": 0.00019770060318626532,
      "loss": 4.0191,
      "step": 191760
    },
    {
      "epoch": 0.3995208333333333,
      "grad_norm": 0.8723608255386353,
      "learning_rate": 0.00019769125629272058,
      "loss": 3.7266,
      "step": 191770
    },
    {
      "epoch": 0.3995416666666667,
      "grad_norm": 0.8813350200653076,
      "learning_rate": 0.0001976819091931685,
      "loss": 3.7844,
      "step": 191780
    },
    {
      "epoch": 0.3995625,
      "grad_norm": 0.966973066329956,
      "learning_rate": 0.00019767256188764947,
      "loss": 3.8294,
      "step": 191790
    },
    {
      "epoch": 0.39958333333333335,
      "grad_norm": 0.9542768001556396,
      "learning_rate": 0.00019766321437620385,
      "loss": 3.6988,
      "step": 191800
    },
    {
      "epoch": 0.39960416666666665,
      "grad_norm": 0.7056518793106079,
      "learning_rate": 0.00019765386665887195,
      "loss": 3.7655,
      "step": 191810
    },
    {
      "epoch": 0.399625,
      "grad_norm": 0.7935945391654968,
      "learning_rate": 0.00019764451873569426,
      "loss": 3.7796,
      "step": 191820
    },
    {
      "epoch": 0.3996458333333333,
      "grad_norm": 0.7347752451896667,
      "learning_rate": 0.0001976351706067111,
      "loss": 3.647,
      "step": 191830
    },
    {
      "epoch": 0.39966666666666667,
      "grad_norm": 0.8758161067962646,
      "learning_rate": 0.00019762582227196283,
      "loss": 3.7965,
      "step": 191840
    },
    {
      "epoch": 0.3996875,
      "grad_norm": 0.8084705471992493,
      "learning_rate": 0.00019761647373148987,
      "loss": 4.0285,
      "step": 191850
    },
    {
      "epoch": 0.39970833333333333,
      "grad_norm": 0.7854389548301697,
      "learning_rate": 0.00019760712498533264,
      "loss": 3.8247,
      "step": 191860
    },
    {
      "epoch": 0.3997291666666667,
      "grad_norm": 0.7624967694282532,
      "learning_rate": 0.00019759777603353142,
      "loss": 3.8292,
      "step": 191870
    },
    {
      "epoch": 0.39975,
      "grad_norm": 0.8129430413246155,
      "learning_rate": 0.00019758842687612663,
      "loss": 3.7365,
      "step": 191880
    },
    {
      "epoch": 0.39977083333333335,
      "grad_norm": 0.7011585831642151,
      "learning_rate": 0.00019757907751315876,
      "loss": 3.8768,
      "step": 191890
    },
    {
      "epoch": 0.39979166666666666,
      "grad_norm": 0.7265636324882507,
      "learning_rate": 0.00019756972794466804,
      "loss": 3.7115,
      "step": 191900
    },
    {
      "epoch": 0.3998125,
      "grad_norm": 0.9397512674331665,
      "learning_rate": 0.0001975603781706949,
      "loss": 4.1352,
      "step": 191910
    },
    {
      "epoch": 0.3998333333333333,
      "grad_norm": 0.933179497718811,
      "learning_rate": 0.00019755102819127982,
      "loss": 3.9643,
      "step": 191920
    },
    {
      "epoch": 0.3998541666666667,
      "grad_norm": 0.8393369913101196,
      "learning_rate": 0.0001975416780064631,
      "loss": 3.8497,
      "step": 191930
    },
    {
      "epoch": 0.399875,
      "grad_norm": 0.8453091979026794,
      "learning_rate": 0.0001975323276162851,
      "loss": 3.962,
      "step": 191940
    },
    {
      "epoch": 0.39989583333333334,
      "grad_norm": 0.7503910660743713,
      "learning_rate": 0.00019752297702078632,
      "loss": 3.906,
      "step": 191950
    },
    {
      "epoch": 0.39991666666666664,
      "grad_norm": 0.7797299027442932,
      "learning_rate": 0.00019751362622000707,
      "loss": 3.8125,
      "step": 191960
    },
    {
      "epoch": 0.3999375,
      "grad_norm": 0.7802948951721191,
      "learning_rate": 0.00019750427521398776,
      "loss": 3.5995,
      "step": 191970
    },
    {
      "epoch": 0.39995833333333336,
      "grad_norm": 0.6887674927711487,
      "learning_rate": 0.00019749492400276882,
      "loss": 3.679,
      "step": 191980
    },
    {
      "epoch": 0.39997916666666666,
      "grad_norm": 0.8302274942398071,
      "learning_rate": 0.00019748557258639056,
      "loss": 3.8017,
      "step": 191990
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8542770147323608,
      "learning_rate": 0.00019747622096489341,
      "loss": 3.8568,
      "step": 192000
    },
    {
      "epoch": 0.4,
      "eval_loss": 4.165684700012207,
      "eval_runtime": 10.6523,
      "eval_samples_per_second": 0.939,
      "eval_steps_per_second": 0.282,
      "step": 192000
    },
    {
      "epoch": 0.4000208333333333,
      "grad_norm": 0.7043061256408691,
      "learning_rate": 0.0001974668691383178,
      "loss": 3.8855,
      "step": 192010
    },
    {
      "epoch": 0.4000416666666667,
      "grad_norm": 0.7178778052330017,
      "learning_rate": 0.0001974575171067041,
      "loss": 3.8541,
      "step": 192020
    },
    {
      "epoch": 0.4000625,
      "grad_norm": 0.8512570858001709,
      "learning_rate": 0.00019744816487009278,
      "loss": 3.8117,
      "step": 192030
    },
    {
      "epoch": 0.40008333333333335,
      "grad_norm": 0.9873374700546265,
      "learning_rate": 0.00019743881242852406,
      "loss": 3.9878,
      "step": 192040
    },
    {
      "epoch": 0.40010416666666665,
      "grad_norm": 0.8564104437828064,
      "learning_rate": 0.0001974294597820385,
      "loss": 3.7549,
      "step": 192050
    },
    {
      "epoch": 0.400125,
      "grad_norm": 0.7392061948776245,
      "learning_rate": 0.00019742010693067646,
      "loss": 3.7727,
      "step": 192060
    },
    {
      "epoch": 0.4001458333333333,
      "grad_norm": 0.848007082939148,
      "learning_rate": 0.0001974107538744783,
      "loss": 3.7715,
      "step": 192070
    },
    {
      "epoch": 0.40016666666666667,
      "grad_norm": 0.7437869906425476,
      "learning_rate": 0.0001974014006134845,
      "loss": 3.8237,
      "step": 192080
    },
    {
      "epoch": 0.4001875,
      "grad_norm": 0.8589922189712524,
      "learning_rate": 0.00019739204714773535,
      "loss": 4.0429,
      "step": 192090
    },
    {
      "epoch": 0.40020833333333333,
      "grad_norm": 0.772394061088562,
      "learning_rate": 0.00019738269347727134,
      "loss": 3.8239,
      "step": 192100
    },
    {
      "epoch": 0.4002291666666667,
      "grad_norm": 0.7432374358177185,
      "learning_rate": 0.00019737333960213286,
      "loss": 3.8088,
      "step": 192110
    },
    {
      "epoch": 0.40025,
      "grad_norm": 0.7587878704071045,
      "learning_rate": 0.0001973639855223603,
      "loss": 3.6054,
      "step": 192120
    },
    {
      "epoch": 0.40027083333333335,
      "grad_norm": 0.7735959887504578,
      "learning_rate": 0.00019735463123799404,
      "loss": 3.8281,
      "step": 192130
    },
    {
      "epoch": 0.40029166666666666,
      "grad_norm": 0.9181017875671387,
      "learning_rate": 0.00019734527674907456,
      "loss": 3.9703,
      "step": 192140
    },
    {
      "epoch": 0.4003125,
      "grad_norm": 0.7546073794364929,
      "learning_rate": 0.00019733592205564216,
      "loss": 3.7813,
      "step": 192150
    },
    {
      "epoch": 0.4003333333333333,
      "grad_norm": 0.7527879476547241,
      "learning_rate": 0.0001973265671577374,
      "loss": 3.9944,
      "step": 192160
    },
    {
      "epoch": 0.4003541666666667,
      "grad_norm": 0.6423619985580444,
      "learning_rate": 0.00019731721205540055,
      "loss": 3.7543,
      "step": 192170
    },
    {
      "epoch": 0.400375,
      "grad_norm": 0.9198228716850281,
      "learning_rate": 0.0001973078567486721,
      "loss": 3.7579,
      "step": 192180
    },
    {
      "epoch": 0.40039583333333334,
      "grad_norm": 0.7905765175819397,
      "learning_rate": 0.0001972985012375924,
      "loss": 4.0969,
      "step": 192190
    },
    {
      "epoch": 0.40041666666666664,
      "grad_norm": 0.6929128766059875,
      "learning_rate": 0.00019728914552220192,
      "loss": 3.7058,
      "step": 192200
    },
    {
      "epoch": 0.4004375,
      "grad_norm": 0.7736326456069946,
      "learning_rate": 0.00019727978960254106,
      "loss": 4.0238,
      "step": 192210
    },
    {
      "epoch": 0.40045833333333336,
      "grad_norm": 0.7336540222167969,
      "learning_rate": 0.0001972704334786502,
      "loss": 3.7842,
      "step": 192220
    },
    {
      "epoch": 0.40047916666666666,
      "grad_norm": 0.8897665739059448,
      "learning_rate": 0.00019726107715056982,
      "loss": 3.819,
      "step": 192230
    },
    {
      "epoch": 0.4005,
      "grad_norm": 0.8548793196678162,
      "learning_rate": 0.0001972517206183402,
      "loss": 3.8632,
      "step": 192240
    },
    {
      "epoch": 0.4005208333333333,
      "grad_norm": 0.9309865236282349,
      "learning_rate": 0.00019724236388200198,
      "loss": 3.9365,
      "step": 192250
    },
    {
      "epoch": 0.4005416666666667,
      "grad_norm": 0.7029681205749512,
      "learning_rate": 0.00019723300694159536,
      "loss": 3.8786,
      "step": 192260
    },
    {
      "epoch": 0.4005625,
      "grad_norm": 0.6853303909301758,
      "learning_rate": 0.00019722364979716085,
      "loss": 3.8818,
      "step": 192270
    },
    {
      "epoch": 0.40058333333333335,
      "grad_norm": 0.7989661693572998,
      "learning_rate": 0.0001972142924487389,
      "loss": 3.9701,
      "step": 192280
    },
    {
      "epoch": 0.40060416666666665,
      "grad_norm": 0.7503150701522827,
      "learning_rate": 0.0001972049348963699,
      "loss": 3.8883,
      "step": 192290
    },
    {
      "epoch": 0.400625,
      "grad_norm": 0.7140821218490601,
      "learning_rate": 0.00019719557714009423,
      "loss": 3.6849,
      "step": 192300
    },
    {
      "epoch": 0.4006458333333333,
      "grad_norm": 0.7752259969711304,
      "learning_rate": 0.00019718621917995234,
      "loss": 3.8934,
      "step": 192310
    },
    {
      "epoch": 0.40066666666666667,
      "grad_norm": 0.6568371057510376,
      "learning_rate": 0.0001971768610159847,
      "loss": 3.8492,
      "step": 192320
    },
    {
      "epoch": 0.4006875,
      "grad_norm": 0.8617711663246155,
      "learning_rate": 0.00019716750264823168,
      "loss": 3.7447,
      "step": 192330
    },
    {
      "epoch": 0.40070833333333333,
      "grad_norm": 0.7226147651672363,
      "learning_rate": 0.0001971581440767337,
      "loss": 3.927,
      "step": 192340
    },
    {
      "epoch": 0.4007291666666667,
      "grad_norm": 0.908633291721344,
      "learning_rate": 0.00019714878530153123,
      "loss": 3.7423,
      "step": 192350
    },
    {
      "epoch": 0.40075,
      "grad_norm": 0.8764553666114807,
      "learning_rate": 0.00019713942632266465,
      "loss": 3.6411,
      "step": 192360
    },
    {
      "epoch": 0.40077083333333335,
      "grad_norm": 0.70762038230896,
      "learning_rate": 0.00019713006714017442,
      "loss": 3.8819,
      "step": 192370
    },
    {
      "epoch": 0.40079166666666666,
      "grad_norm": 0.7428051829338074,
      "learning_rate": 0.00019712070775410094,
      "loss": 3.8703,
      "step": 192380
    },
    {
      "epoch": 0.4008125,
      "grad_norm": 0.8408769965171814,
      "learning_rate": 0.00019711134816448471,
      "loss": 3.7144,
      "step": 192390
    },
    {
      "epoch": 0.4008333333333333,
      "grad_norm": 0.8624700307846069,
      "learning_rate": 0.00019710198837136604,
      "loss": 3.7416,
      "step": 192400
    },
    {
      "epoch": 0.4008541666666667,
      "grad_norm": 0.8023311495780945,
      "learning_rate": 0.00019709262837478545,
      "loss": 3.7388,
      "step": 192410
    },
    {
      "epoch": 0.400875,
      "grad_norm": 0.7601895928382874,
      "learning_rate": 0.00019708326817478335,
      "loss": 3.8409,
      "step": 192420
    },
    {
      "epoch": 0.40089583333333334,
      "grad_norm": 0.7444944977760315,
      "learning_rate": 0.00019707390777140015,
      "loss": 3.9469,
      "step": 192430
    },
    {
      "epoch": 0.40091666666666664,
      "grad_norm": 0.7998902201652527,
      "learning_rate": 0.0001970645471646763,
      "loss": 3.8481,
      "step": 192440
    },
    {
      "epoch": 0.4009375,
      "grad_norm": 1.0255452394485474,
      "learning_rate": 0.00019705518635465227,
      "loss": 3.8843,
      "step": 192450
    },
    {
      "epoch": 0.40095833333333336,
      "grad_norm": 0.824369490146637,
      "learning_rate": 0.00019704582534136846,
      "loss": 3.8601,
      "step": 192460
    },
    {
      "epoch": 0.40097916666666666,
      "grad_norm": 0.7302138805389404,
      "learning_rate": 0.00019703646412486524,
      "loss": 4.0095,
      "step": 192470
    },
    {
      "epoch": 0.401,
      "grad_norm": 0.7271687984466553,
      "learning_rate": 0.00019702710270518318,
      "loss": 3.8229,
      "step": 192480
    },
    {
      "epoch": 0.4010208333333333,
      "grad_norm": 0.7835555076599121,
      "learning_rate": 0.00019701774108236262,
      "loss": 3.8971,
      "step": 192490
    },
    {
      "epoch": 0.4010416666666667,
      "grad_norm": 0.7977250218391418,
      "learning_rate": 0.00019700837925644405,
      "loss": 3.8826,
      "step": 192500
    },
    {
      "epoch": 0.4010625,
      "grad_norm": 0.776595950126648,
      "learning_rate": 0.00019699901722746785,
      "loss": 3.7783,
      "step": 192510
    },
    {
      "epoch": 0.40108333333333335,
      "grad_norm": 0.8037806749343872,
      "learning_rate": 0.00019698965499547453,
      "loss": 3.8945,
      "step": 192520
    },
    {
      "epoch": 0.40110416666666665,
      "grad_norm": 0.8273223042488098,
      "learning_rate": 0.00019698029256050452,
      "loss": 4.028,
      "step": 192530
    },
    {
      "epoch": 0.401125,
      "grad_norm": 0.6993294954299927,
      "learning_rate": 0.0001969709299225982,
      "loss": 3.8936,
      "step": 192540
    },
    {
      "epoch": 0.4011458333333333,
      "grad_norm": 0.9222604036331177,
      "learning_rate": 0.00019696156708179607,
      "loss": 3.9176,
      "step": 192550
    },
    {
      "epoch": 0.40116666666666667,
      "grad_norm": 0.7986344695091248,
      "learning_rate": 0.0001969522040381386,
      "loss": 3.9838,
      "step": 192560
    },
    {
      "epoch": 0.4011875,
      "grad_norm": 0.7723268866539001,
      "learning_rate": 0.0001969428407916661,
      "loss": 3.7592,
      "step": 192570
    },
    {
      "epoch": 0.40120833333333333,
      "grad_norm": 0.7536670565605164,
      "learning_rate": 0.0001969334773424192,
      "loss": 3.9722,
      "step": 192580
    },
    {
      "epoch": 0.4012291666666667,
      "grad_norm": 0.8277260065078735,
      "learning_rate": 0.00019692411369043824,
      "loss": 3.7318,
      "step": 192590
    },
    {
      "epoch": 0.40125,
      "grad_norm": 0.8336095809936523,
      "learning_rate": 0.00019691474983576365,
      "loss": 4.0003,
      "step": 192600
    },
    {
      "epoch": 0.40127083333333335,
      "grad_norm": 0.9293031692504883,
      "learning_rate": 0.0001969053857784359,
      "loss": 3.8188,
      "step": 192610
    },
    {
      "epoch": 0.40129166666666666,
      "grad_norm": 0.8097705245018005,
      "learning_rate": 0.00019689602151849552,
      "loss": 3.7953,
      "step": 192620
    },
    {
      "epoch": 0.4013125,
      "grad_norm": 0.7958315014839172,
      "learning_rate": 0.00019688665705598282,
      "loss": 3.7688,
      "step": 192630
    },
    {
      "epoch": 0.4013333333333333,
      "grad_norm": 0.8587836623191833,
      "learning_rate": 0.00019687729239093832,
      "loss": 3.7587,
      "step": 192640
    },
    {
      "epoch": 0.4013541666666667,
      "grad_norm": 0.8601878881454468,
      "learning_rate": 0.00019686792752340255,
      "loss": 3.7981,
      "step": 192650
    },
    {
      "epoch": 0.401375,
      "grad_norm": 0.9479457139968872,
      "learning_rate": 0.00019685856245341582,
      "loss": 3.7403,
      "step": 192660
    },
    {
      "epoch": 0.40139583333333334,
      "grad_norm": 0.814315140247345,
      "learning_rate": 0.00019684919718101866,
      "loss": 3.8499,
      "step": 192670
    },
    {
      "epoch": 0.40141666666666664,
      "grad_norm": 0.8663625121116638,
      "learning_rate": 0.00019683983170625148,
      "loss": 3.6927,
      "step": 192680
    },
    {
      "epoch": 0.4014375,
      "grad_norm": 0.7082957029342651,
      "learning_rate": 0.00019683046602915483,
      "loss": 3.8807,
      "step": 192690
    },
    {
      "epoch": 0.4014583333333333,
      "grad_norm": 0.7292149066925049,
      "learning_rate": 0.00019682110014976903,
      "loss": 3.9532,
      "step": 192700
    },
    {
      "epoch": 0.40147916666666666,
      "grad_norm": 0.713700532913208,
      "learning_rate": 0.00019681173406813467,
      "loss": 3.7891,
      "step": 192710
    },
    {
      "epoch": 0.4015,
      "grad_norm": 0.7231895327568054,
      "learning_rate": 0.00019680236778429213,
      "loss": 3.8934,
      "step": 192720
    },
    {
      "epoch": 0.4015208333333333,
      "grad_norm": 0.652346670627594,
      "learning_rate": 0.00019679300129828191,
      "loss": 3.8591,
      "step": 192730
    },
    {
      "epoch": 0.4015416666666667,
      "grad_norm": 0.8335385918617249,
      "learning_rate": 0.00019678363461014443,
      "loss": 3.8642,
      "step": 192740
    },
    {
      "epoch": 0.4015625,
      "grad_norm": 0.8740376830101013,
      "learning_rate": 0.00019677426771992016,
      "loss": 3.7042,
      "step": 192750
    },
    {
      "epoch": 0.40158333333333335,
      "grad_norm": 0.9163336157798767,
      "learning_rate": 0.00019676490062764957,
      "loss": 3.8354,
      "step": 192760
    },
    {
      "epoch": 0.40160416666666665,
      "grad_norm": 0.8528696298599243,
      "learning_rate": 0.0001967555333333731,
      "loss": 3.8978,
      "step": 192770
    },
    {
      "epoch": 0.401625,
      "grad_norm": 0.7351519465446472,
      "learning_rate": 0.00019674616583713122,
      "loss": 3.6726,
      "step": 192780
    },
    {
      "epoch": 0.4016458333333333,
      "grad_norm": 0.7910613417625427,
      "learning_rate": 0.0001967367981389645,
      "loss": 3.8577,
      "step": 192790
    },
    {
      "epoch": 0.40166666666666667,
      "grad_norm": 0.8190933465957642,
      "learning_rate": 0.00019672743023891324,
      "loss": 3.7213,
      "step": 192800
    },
    {
      "epoch": 0.4016875,
      "grad_norm": 0.754939079284668,
      "learning_rate": 0.000196718062137018,
      "loss": 3.9108,
      "step": 192810
    },
    {
      "epoch": 0.40170833333333333,
      "grad_norm": 0.8300032019615173,
      "learning_rate": 0.00019670869383331922,
      "loss": 3.7655,
      "step": 192820
    },
    {
      "epoch": 0.4017291666666667,
      "grad_norm": 0.6754395365715027,
      "learning_rate": 0.00019669932532785734,
      "loss": 3.8761,
      "step": 192830
    },
    {
      "epoch": 0.40175,
      "grad_norm": 0.8462563157081604,
      "learning_rate": 0.0001966899566206729,
      "loss": 3.8865,
      "step": 192840
    },
    {
      "epoch": 0.40177083333333335,
      "grad_norm": 0.7978268265724182,
      "learning_rate": 0.0001966805877118063,
      "loss": 3.7364,
      "step": 192850
    },
    {
      "epoch": 0.40179166666666666,
      "grad_norm": 0.9549605846405029,
      "learning_rate": 0.00019667121860129805,
      "loss": 3.731,
      "step": 192860
    },
    {
      "epoch": 0.4018125,
      "grad_norm": 0.7477754354476929,
      "learning_rate": 0.0001966618492891886,
      "loss": 3.8136,
      "step": 192870
    },
    {
      "epoch": 0.4018333333333333,
      "grad_norm": 0.7612781524658203,
      "learning_rate": 0.00019665247977551843,
      "loss": 3.7682,
      "step": 192880
    },
    {
      "epoch": 0.4018541666666667,
      "grad_norm": 0.7270643711090088,
      "learning_rate": 0.00019664311006032805,
      "loss": 3.7723,
      "step": 192890
    },
    {
      "epoch": 0.401875,
      "grad_norm": 0.7883870601654053,
      "learning_rate": 0.00019663374014365788,
      "loss": 3.7132,
      "step": 192900
    },
    {
      "epoch": 0.40189583333333334,
      "grad_norm": 1.1073191165924072,
      "learning_rate": 0.00019662437002554838,
      "loss": 3.7811,
      "step": 192910
    },
    {
      "epoch": 0.40191666666666664,
      "grad_norm": 0.7220986485481262,
      "learning_rate": 0.00019661499970604008,
      "loss": 3.8525,
      "step": 192920
    },
    {
      "epoch": 0.4019375,
      "grad_norm": 0.6848151683807373,
      "learning_rate": 0.00019660562918517348,
      "loss": 3.7898,
      "step": 192930
    },
    {
      "epoch": 0.4019583333333333,
      "grad_norm": 0.6969507932662964,
      "learning_rate": 0.00019659625846298889,
      "loss": 3.9701,
      "step": 192940
    },
    {
      "epoch": 0.40197916666666667,
      "grad_norm": 0.7639278769493103,
      "learning_rate": 0.00019658688753952704,
      "loss": 3.8622,
      "step": 192950
    },
    {
      "epoch": 0.402,
      "grad_norm": 0.7501804232597351,
      "learning_rate": 0.0001965775164148282,
      "loss": 3.7953,
      "step": 192960
    },
    {
      "epoch": 0.4020208333333333,
      "grad_norm": 0.7900826930999756,
      "learning_rate": 0.00019656814508893294,
      "loss": 3.8516,
      "step": 192970
    },
    {
      "epoch": 0.4020416666666667,
      "grad_norm": 0.707801342010498,
      "learning_rate": 0.00019655877356188173,
      "loss": 3.9601,
      "step": 192980
    },
    {
      "epoch": 0.4020625,
      "grad_norm": 0.9077727198600769,
      "learning_rate": 0.00019654940183371506,
      "loss": 3.8635,
      "step": 192990
    },
    {
      "epoch": 0.40208333333333335,
      "grad_norm": 0.7449885606765747,
      "learning_rate": 0.0001965400299044734,
      "loss": 3.9354,
      "step": 193000
    },
    {
      "epoch": 0.40208333333333335,
      "eval_loss": 4.176550388336182,
      "eval_runtime": 9.9152,
      "eval_samples_per_second": 1.009,
      "eval_steps_per_second": 0.303,
      "step": 193000
    },
    {
      "epoch": 0.40210416666666665,
      "grad_norm": 0.7832927107810974,
      "learning_rate": 0.0001965306577741972,
      "loss": 4.0786,
      "step": 193010
    },
    {
      "epoch": 0.402125,
      "grad_norm": 0.7875365018844604,
      "learning_rate": 0.00019652128544292698,
      "loss": 3.8019,
      "step": 193020
    },
    {
      "epoch": 0.4021458333333333,
      "grad_norm": 0.6622178554534912,
      "learning_rate": 0.00019651191291070324,
      "loss": 3.8864,
      "step": 193030
    },
    {
      "epoch": 0.4021666666666667,
      "grad_norm": 0.7865875363349915,
      "learning_rate": 0.00019650254017756645,
      "loss": 4.0521,
      "step": 193040
    },
    {
      "epoch": 0.4021875,
      "grad_norm": 0.8028092980384827,
      "learning_rate": 0.0001964931672435571,
      "loss": 3.7266,
      "step": 193050
    },
    {
      "epoch": 0.40220833333333333,
      "grad_norm": 0.724042534828186,
      "learning_rate": 0.00019648379410871564,
      "loss": 3.7991,
      "step": 193060
    },
    {
      "epoch": 0.4022291666666667,
      "grad_norm": 0.7212380766868591,
      "learning_rate": 0.00019647442077308259,
      "loss": 3.9667,
      "step": 193070
    },
    {
      "epoch": 0.40225,
      "grad_norm": 0.7859441637992859,
      "learning_rate": 0.00019646504723669844,
      "loss": 3.8693,
      "step": 193080
    },
    {
      "epoch": 0.40227083333333336,
      "grad_norm": 0.7274523973464966,
      "learning_rate": 0.00019645567349960372,
      "loss": 3.9184,
      "step": 193090
    },
    {
      "epoch": 0.40229166666666666,
      "grad_norm": 0.7180446982383728,
      "learning_rate": 0.00019644629956183887,
      "loss": 3.9721,
      "step": 193100
    },
    {
      "epoch": 0.4023125,
      "grad_norm": 0.7775095105171204,
      "learning_rate": 0.0001964369254234443,
      "loss": 3.8657,
      "step": 193110
    },
    {
      "epoch": 0.4023333333333333,
      "grad_norm": 0.8668113350868225,
      "learning_rate": 0.00019642755108446072,
      "loss": 3.8523,
      "step": 193120
    },
    {
      "epoch": 0.4023541666666667,
      "grad_norm": 0.7690739631652832,
      "learning_rate": 0.00019641817654492846,
      "loss": 3.7198,
      "step": 193130
    },
    {
      "epoch": 0.402375,
      "grad_norm": 0.8622471690177917,
      "learning_rate": 0.000196408801804888,
      "loss": 3.7953,
      "step": 193140
    },
    {
      "epoch": 0.40239583333333334,
      "grad_norm": 0.7820678949356079,
      "learning_rate": 0.00019639942686437993,
      "loss": 3.6999,
      "step": 193150
    },
    {
      "epoch": 0.40241666666666664,
      "grad_norm": 0.7442945837974548,
      "learning_rate": 0.0001963900517234447,
      "loss": 3.9085,
      "step": 193160
    },
    {
      "epoch": 0.4024375,
      "grad_norm": 0.769601047039032,
      "learning_rate": 0.00019638067638212277,
      "loss": 3.9145,
      "step": 193170
    },
    {
      "epoch": 0.4024583333333333,
      "grad_norm": 0.7086482644081116,
      "learning_rate": 0.00019637130084045471,
      "loss": 3.8644,
      "step": 193180
    },
    {
      "epoch": 0.40247916666666667,
      "grad_norm": 0.7601234912872314,
      "learning_rate": 0.000196361925098481,
      "loss": 3.9221,
      "step": 193190
    },
    {
      "epoch": 0.4025,
      "grad_norm": 0.7640495300292969,
      "learning_rate": 0.0001963525491562421,
      "loss": 3.9348,
      "step": 193200
    },
    {
      "epoch": 0.4025208333333333,
      "grad_norm": 0.7407307028770447,
      "learning_rate": 0.00019634317301377854,
      "loss": 3.8031,
      "step": 193210
    },
    {
      "epoch": 0.4025416666666667,
      "grad_norm": 0.8883484601974487,
      "learning_rate": 0.00019633379667113082,
      "loss": 3.9013,
      "step": 193220
    },
    {
      "epoch": 0.4025625,
      "grad_norm": 0.9664323925971985,
      "learning_rate": 0.00019632442012833943,
      "loss": 3.8759,
      "step": 193230
    },
    {
      "epoch": 0.40258333333333335,
      "grad_norm": 1.1723296642303467,
      "learning_rate": 0.0001963150433854449,
      "loss": 3.7304,
      "step": 193240
    },
    {
      "epoch": 0.40260416666666665,
      "grad_norm": 0.7398163080215454,
      "learning_rate": 0.0001963056664424877,
      "loss": 3.8347,
      "step": 193250
    },
    {
      "epoch": 0.402625,
      "grad_norm": 0.8132385611534119,
      "learning_rate": 0.00019629628929950836,
      "loss": 3.8851,
      "step": 193260
    },
    {
      "epoch": 0.4026458333333333,
      "grad_norm": 0.7238891124725342,
      "learning_rate": 0.00019628691195654736,
      "loss": 3.8867,
      "step": 193270
    },
    {
      "epoch": 0.4026666666666667,
      "grad_norm": 0.8043224811553955,
      "learning_rate": 0.00019627753441364525,
      "loss": 3.9553,
      "step": 193280
    },
    {
      "epoch": 0.4026875,
      "grad_norm": 0.8779313564300537,
      "learning_rate": 0.0001962681566708425,
      "loss": 4.0303,
      "step": 193290
    },
    {
      "epoch": 0.40270833333333333,
      "grad_norm": 0.7616326212882996,
      "learning_rate": 0.00019625877872817961,
      "loss": 3.8842,
      "step": 193300
    },
    {
      "epoch": 0.4027291666666667,
      "grad_norm": 0.7503374218940735,
      "learning_rate": 0.00019624940058569708,
      "loss": 3.8872,
      "step": 193310
    },
    {
      "epoch": 0.40275,
      "grad_norm": 0.947996973991394,
      "learning_rate": 0.0001962400222434355,
      "loss": 3.738,
      "step": 193320
    },
    {
      "epoch": 0.40277083333333336,
      "grad_norm": 0.7543661594390869,
      "learning_rate": 0.00019623064370143532,
      "loss": 3.8439,
      "step": 193330
    },
    {
      "epoch": 0.40279166666666666,
      "grad_norm": 0.8761916756629944,
      "learning_rate": 0.00019622126495973702,
      "loss": 3.7451,
      "step": 193340
    },
    {
      "epoch": 0.4028125,
      "grad_norm": 0.795881986618042,
      "learning_rate": 0.0001962118860183812,
      "loss": 3.9352,
      "step": 193350
    },
    {
      "epoch": 0.4028333333333333,
      "grad_norm": 0.8176562786102295,
      "learning_rate": 0.0001962025068774083,
      "loss": 3.8978,
      "step": 193360
    },
    {
      "epoch": 0.4028541666666667,
      "grad_norm": 1.0988482236862183,
      "learning_rate": 0.00019619312753685886,
      "loss": 3.8711,
      "step": 193370
    },
    {
      "epoch": 0.402875,
      "grad_norm": 0.7280076742172241,
      "learning_rate": 0.0001961837479967734,
      "loss": 3.8792,
      "step": 193380
    },
    {
      "epoch": 0.40289583333333334,
      "grad_norm": 0.9893854856491089,
      "learning_rate": 0.0001961743682571924,
      "loss": 3.917,
      "step": 193390
    },
    {
      "epoch": 0.40291666666666665,
      "grad_norm": 0.7684248685836792,
      "learning_rate": 0.00019616498831815648,
      "loss": 3.8324,
      "step": 193400
    },
    {
      "epoch": 0.4029375,
      "grad_norm": 0.7445756196975708,
      "learning_rate": 0.000196155608179706,
      "loss": 3.7677,
      "step": 193410
    },
    {
      "epoch": 0.4029583333333333,
      "grad_norm": 0.7948639988899231,
      "learning_rate": 0.0001961462278418816,
      "loss": 3.6996,
      "step": 193420
    },
    {
      "epoch": 0.40297916666666667,
      "grad_norm": 0.8435602784156799,
      "learning_rate": 0.0001961368473047238,
      "loss": 3.7586,
      "step": 193430
    },
    {
      "epoch": 0.403,
      "grad_norm": 0.7129584550857544,
      "learning_rate": 0.00019612746656827296,
      "loss": 3.8414,
      "step": 193440
    },
    {
      "epoch": 0.40302083333333333,
      "grad_norm": 0.9391682744026184,
      "learning_rate": 0.0001961180856325698,
      "loss": 3.7597,
      "step": 193450
    },
    {
      "epoch": 0.4030416666666667,
      "grad_norm": 0.7521688938140869,
      "learning_rate": 0.00019610870449765483,
      "loss": 3.7407,
      "step": 193460
    },
    {
      "epoch": 0.4030625,
      "grad_norm": 0.7345401644706726,
      "learning_rate": 0.00019609932316356842,
      "loss": 3.7949,
      "step": 193470
    },
    {
      "epoch": 0.40308333333333335,
      "grad_norm": 0.7719283699989319,
      "learning_rate": 0.00019608994163035118,
      "loss": 3.8827,
      "step": 193480
    },
    {
      "epoch": 0.40310416666666665,
      "grad_norm": 0.8424518704414368,
      "learning_rate": 0.0001960805598980437,
      "loss": 3.7375,
      "step": 193490
    },
    {
      "epoch": 0.403125,
      "grad_norm": 0.8682976365089417,
      "learning_rate": 0.0001960711779666864,
      "loss": 3.8643,
      "step": 193500
    },
    {
      "epoch": 0.4031458333333333,
      "grad_norm": 0.7650973200798035,
      "learning_rate": 0.00019606179583631984,
      "loss": 3.692,
      "step": 193510
    },
    {
      "epoch": 0.4031666666666667,
      "grad_norm": 0.7394102811813354,
      "learning_rate": 0.00019605241350698457,
      "loss": 3.8326,
      "step": 193520
    },
    {
      "epoch": 0.4031875,
      "grad_norm": 0.9968351721763611,
      "learning_rate": 0.00019604303097872107,
      "loss": 3.7414,
      "step": 193530
    },
    {
      "epoch": 0.40320833333333334,
      "grad_norm": 1.0139635801315308,
      "learning_rate": 0.00019603364825156996,
      "loss": 3.9862,
      "step": 193540
    },
    {
      "epoch": 0.4032291666666667,
      "grad_norm": 1.137591004371643,
      "learning_rate": 0.00019602426532557165,
      "loss": 3.8516,
      "step": 193550
    },
    {
      "epoch": 0.40325,
      "grad_norm": 0.6880180835723877,
      "learning_rate": 0.00019601488220076678,
      "loss": 3.8207,
      "step": 193560
    },
    {
      "epoch": 0.40327083333333336,
      "grad_norm": 1.2420454025268555,
      "learning_rate": 0.0001960054988771958,
      "loss": 3.8391,
      "step": 193570
    },
    {
      "epoch": 0.40329166666666666,
      "grad_norm": 0.8277884125709534,
      "learning_rate": 0.00019599611535489928,
      "loss": 3.8914,
      "step": 193580
    },
    {
      "epoch": 0.4033125,
      "grad_norm": 0.92365962266922,
      "learning_rate": 0.00019598673163391777,
      "loss": 3.83,
      "step": 193590
    },
    {
      "epoch": 0.4033333333333333,
      "grad_norm": 0.7006399035453796,
      "learning_rate": 0.00019597734771429178,
      "loss": 3.899,
      "step": 193600
    },
    {
      "epoch": 0.4033541666666667,
      "grad_norm": 0.8776986002922058,
      "learning_rate": 0.00019596796359606185,
      "loss": 3.8336,
      "step": 193610
    },
    {
      "epoch": 0.403375,
      "grad_norm": 0.8294241428375244,
      "learning_rate": 0.00019595857927926847,
      "loss": 3.861,
      "step": 193620
    },
    {
      "epoch": 0.40339583333333334,
      "grad_norm": 0.7669289112091064,
      "learning_rate": 0.00019594919476395228,
      "loss": 3.9155,
      "step": 193630
    },
    {
      "epoch": 0.40341666666666665,
      "grad_norm": 0.7294880747795105,
      "learning_rate": 0.0001959398100501537,
      "loss": 3.773,
      "step": 193640
    },
    {
      "epoch": 0.4034375,
      "grad_norm": 0.836288571357727,
      "learning_rate": 0.00019593042513791332,
      "loss": 3.7999,
      "step": 193650
    },
    {
      "epoch": 0.4034583333333333,
      "grad_norm": 0.7971420884132385,
      "learning_rate": 0.00019592104002727175,
      "loss": 3.8004,
      "step": 193660
    },
    {
      "epoch": 0.40347916666666667,
      "grad_norm": 0.8755049705505371,
      "learning_rate": 0.00019591165471826943,
      "loss": 3.7449,
      "step": 193670
    },
    {
      "epoch": 0.4035,
      "grad_norm": 0.813643753528595,
      "learning_rate": 0.0001959022692109469,
      "loss": 3.8197,
      "step": 193680
    },
    {
      "epoch": 0.40352083333333333,
      "grad_norm": 0.907209038734436,
      "learning_rate": 0.0001958928835053448,
      "loss": 3.9243,
      "step": 193690
    },
    {
      "epoch": 0.4035416666666667,
      "grad_norm": 0.8041625022888184,
      "learning_rate": 0.0001958834976015036,
      "loss": 3.7236,
      "step": 193700
    },
    {
      "epoch": 0.4035625,
      "grad_norm": 0.765728235244751,
      "learning_rate": 0.0001958741114994638,
      "loss": 3.7838,
      "step": 193710
    },
    {
      "epoch": 0.40358333333333335,
      "grad_norm": 0.7795925736427307,
      "learning_rate": 0.00019586472519926603,
      "loss": 3.7942,
      "step": 193720
    },
    {
      "epoch": 0.40360416666666665,
      "grad_norm": 0.6868396997451782,
      "learning_rate": 0.0001958553387009508,
      "loss": 3.7916,
      "step": 193730
    },
    {
      "epoch": 0.403625,
      "grad_norm": 0.7599954605102539,
      "learning_rate": 0.00019584595200455865,
      "loss": 3.7509,
      "step": 193740
    },
    {
      "epoch": 0.4036458333333333,
      "grad_norm": 0.7165738940238953,
      "learning_rate": 0.00019583656511013012,
      "loss": 3.8962,
      "step": 193750
    },
    {
      "epoch": 0.4036666666666667,
      "grad_norm": 0.77553391456604,
      "learning_rate": 0.0001958271780177058,
      "loss": 3.7653,
      "step": 193760
    },
    {
      "epoch": 0.4036875,
      "grad_norm": 0.8960345387458801,
      "learning_rate": 0.00019581779072732619,
      "loss": 3.8091,
      "step": 193770
    },
    {
      "epoch": 0.40370833333333334,
      "grad_norm": 0.8802191019058228,
      "learning_rate": 0.00019580840323903188,
      "loss": 3.7651,
      "step": 193780
    },
    {
      "epoch": 0.40372916666666664,
      "grad_norm": 0.7406399250030518,
      "learning_rate": 0.00019579901555286339,
      "loss": 3.8498,
      "step": 193790
    },
    {
      "epoch": 0.40375,
      "grad_norm": 0.930400550365448,
      "learning_rate": 0.00019578962766886134,
      "loss": 3.77,
      "step": 193800
    },
    {
      "epoch": 0.40377083333333336,
      "grad_norm": 0.9118642807006836,
      "learning_rate": 0.00019578023958706611,
      "loss": 3.7634,
      "step": 193810
    },
    {
      "epoch": 0.40379166666666666,
      "grad_norm": 0.7606923580169678,
      "learning_rate": 0.0001957708513075184,
      "loss": 3.8365,
      "step": 193820
    },
    {
      "epoch": 0.4038125,
      "grad_norm": 0.8064560294151306,
      "learning_rate": 0.00019576146283025884,
      "loss": 3.9619,
      "step": 193830
    },
    {
      "epoch": 0.4038333333333333,
      "grad_norm": 0.8441545367240906,
      "learning_rate": 0.00019575207415532773,
      "loss": 3.8019,
      "step": 193840
    },
    {
      "epoch": 0.4038541666666667,
      "grad_norm": 0.7728874683380127,
      "learning_rate": 0.00019574268528276586,
      "loss": 3.6439,
      "step": 193850
    },
    {
      "epoch": 0.403875,
      "grad_norm": 0.7479208707809448,
      "learning_rate": 0.00019573329621261367,
      "loss": 3.6564,
      "step": 193860
    },
    {
      "epoch": 0.40389583333333334,
      "grad_norm": 0.879187822341919,
      "learning_rate": 0.00019572390694491175,
      "loss": 3.8241,
      "step": 193870
    },
    {
      "epoch": 0.40391666666666665,
      "grad_norm": 1.0776457786560059,
      "learning_rate": 0.0001957145174797006,
      "loss": 3.6931,
      "step": 193880
    },
    {
      "epoch": 0.4039375,
      "grad_norm": 0.6885167956352234,
      "learning_rate": 0.00019570512781702087,
      "loss": 3.7108,
      "step": 193890
    },
    {
      "epoch": 0.4039583333333333,
      "grad_norm": 0.8678536415100098,
      "learning_rate": 0.0001956957379569131,
      "loss": 3.8906,
      "step": 193900
    },
    {
      "epoch": 0.40397916666666667,
      "grad_norm": 0.9282569289207458,
      "learning_rate": 0.0001956863478994178,
      "loss": 3.7192,
      "step": 193910
    },
    {
      "epoch": 0.404,
      "grad_norm": 1.3555824756622314,
      "learning_rate": 0.00019567695764457555,
      "loss": 3.8992,
      "step": 193920
    },
    {
      "epoch": 0.40402083333333333,
      "grad_norm": 0.8409428596496582,
      "learning_rate": 0.00019566756719242693,
      "loss": 3.6697,
      "step": 193930
    },
    {
      "epoch": 0.4040416666666667,
      "grad_norm": 0.8345975279808044,
      "learning_rate": 0.00019565817654301252,
      "loss": 3.6943,
      "step": 193940
    },
    {
      "epoch": 0.4040625,
      "grad_norm": 0.8042447566986084,
      "learning_rate": 0.00019564878569637283,
      "loss": 3.7957,
      "step": 193950
    },
    {
      "epoch": 0.40408333333333335,
      "grad_norm": 0.6946160197257996,
      "learning_rate": 0.00019563939465254846,
      "loss": 3.9197,
      "step": 193960
    },
    {
      "epoch": 0.40410416666666665,
      "grad_norm": 0.678525984287262,
      "learning_rate": 0.00019563000341158004,
      "loss": 3.7598,
      "step": 193970
    },
    {
      "epoch": 0.404125,
      "grad_norm": 0.9151737689971924,
      "learning_rate": 0.00019562061197350795,
      "loss": 3.8317,
      "step": 193980
    },
    {
      "epoch": 0.4041458333333333,
      "grad_norm": 0.701300859451294,
      "learning_rate": 0.00019561122033837298,
      "loss": 3.8269,
      "step": 193990
    },
    {
      "epoch": 0.4041666666666667,
      "grad_norm": 0.9151172041893005,
      "learning_rate": 0.00019560182850621554,
      "loss": 4.0083,
      "step": 194000
    },
    {
      "epoch": 0.4041666666666667,
      "eval_loss": 4.180254936218262,
      "eval_runtime": 9.4096,
      "eval_samples_per_second": 1.063,
      "eval_steps_per_second": 0.319,
      "step": 194000
    },
    {
      "epoch": 0.4041875,
      "grad_norm": 0.7694148421287537,
      "learning_rate": 0.0001955924364770762,
      "loss": 3.808,
      "step": 194010
    },
    {
      "epoch": 0.40420833333333334,
      "grad_norm": 0.8127598166465759,
      "learning_rate": 0.00019558304425099568,
      "loss": 3.7157,
      "step": 194020
    },
    {
      "epoch": 0.40422916666666664,
      "grad_norm": 0.8937053084373474,
      "learning_rate": 0.0001955736518280144,
      "loss": 3.6871,
      "step": 194030
    },
    {
      "epoch": 0.40425,
      "grad_norm": 0.8504681587219238,
      "learning_rate": 0.00019556425920817298,
      "loss": 3.777,
      "step": 194040
    },
    {
      "epoch": 0.40427083333333336,
      "grad_norm": 0.7977461218833923,
      "learning_rate": 0.00019555486639151202,
      "loss": 3.9139,
      "step": 194050
    },
    {
      "epoch": 0.40429166666666666,
      "grad_norm": 0.6680142283439636,
      "learning_rate": 0.00019554547337807208,
      "loss": 3.7188,
      "step": 194060
    },
    {
      "epoch": 0.4043125,
      "grad_norm": 0.8211458325386047,
      "learning_rate": 0.00019553608016789365,
      "loss": 3.8741,
      "step": 194070
    },
    {
      "epoch": 0.4043333333333333,
      "grad_norm": 0.8083829879760742,
      "learning_rate": 0.00019552668676101745,
      "loss": 3.7326,
      "step": 194080
    },
    {
      "epoch": 0.4043541666666667,
      "grad_norm": 0.8097203373908997,
      "learning_rate": 0.00019551729315748397,
      "loss": 3.9819,
      "step": 194090
    },
    {
      "epoch": 0.404375,
      "grad_norm": 0.9173896312713623,
      "learning_rate": 0.0001955078993573338,
      "loss": 3.8307,
      "step": 194100
    },
    {
      "epoch": 0.40439583333333334,
      "grad_norm": 0.8721756935119629,
      "learning_rate": 0.00019549850536060748,
      "loss": 3.7953,
      "step": 194110
    },
    {
      "epoch": 0.40441666666666665,
      "grad_norm": 0.8352811932563782,
      "learning_rate": 0.00019548911116734564,
      "loss": 3.8359,
      "step": 194120
    },
    {
      "epoch": 0.4044375,
      "grad_norm": 0.8474622368812561,
      "learning_rate": 0.00019547971677758892,
      "loss": 3.7695,
      "step": 194130
    },
    {
      "epoch": 0.4044583333333333,
      "grad_norm": 0.7787188291549683,
      "learning_rate": 0.00019547032219137771,
      "loss": 3.7593,
      "step": 194140
    },
    {
      "epoch": 0.40447916666666667,
      "grad_norm": 0.8200960755348206,
      "learning_rate": 0.00019546092740875277,
      "loss": 3.9307,
      "step": 194150
    },
    {
      "epoch": 0.4045,
      "grad_norm": 0.7986174821853638,
      "learning_rate": 0.00019545153242975466,
      "loss": 3.7103,
      "step": 194160
    },
    {
      "epoch": 0.40452083333333333,
      "grad_norm": 0.9560858011245728,
      "learning_rate": 0.00019544213725442388,
      "loss": 3.8865,
      "step": 194170
    },
    {
      "epoch": 0.4045416666666667,
      "grad_norm": 0.7461559772491455,
      "learning_rate": 0.00019543274188280098,
      "loss": 3.9176,
      "step": 194180
    },
    {
      "epoch": 0.4045625,
      "grad_norm": 0.7826871275901794,
      "learning_rate": 0.00019542334631492673,
      "loss": 3.7475,
      "step": 194190
    },
    {
      "epoch": 0.40458333333333335,
      "grad_norm": 0.8251165747642517,
      "learning_rate": 0.00019541395055084156,
      "loss": 3.7651,
      "step": 194200
    },
    {
      "epoch": 0.40460416666666665,
      "grad_norm": 0.7730002403259277,
      "learning_rate": 0.00019540455459058606,
      "loss": 3.7852,
      "step": 194210
    },
    {
      "epoch": 0.404625,
      "grad_norm": 0.8221646547317505,
      "learning_rate": 0.00019539515843420093,
      "loss": 3.8379,
      "step": 194220
    },
    {
      "epoch": 0.4046458333333333,
      "grad_norm": 0.8255507349967957,
      "learning_rate": 0.00019538576208172668,
      "loss": 3.6418,
      "step": 194230
    },
    {
      "epoch": 0.4046666666666667,
      "grad_norm": 0.741275429725647,
      "learning_rate": 0.00019537636553320387,
      "loss": 3.6958,
      "step": 194240
    },
    {
      "epoch": 0.4046875,
      "grad_norm": 0.7374998927116394,
      "learning_rate": 0.0001953669687886731,
      "loss": 3.6947,
      "step": 194250
    },
    {
      "epoch": 0.40470833333333334,
      "grad_norm": 0.7144660353660583,
      "learning_rate": 0.00019535757184817502,
      "loss": 3.6123,
      "step": 194260
    },
    {
      "epoch": 0.40472916666666664,
      "grad_norm": 0.6712825894355774,
      "learning_rate": 0.00019534817471175017,
      "loss": 3.8117,
      "step": 194270
    },
    {
      "epoch": 0.40475,
      "grad_norm": 0.9729337096214294,
      "learning_rate": 0.00019533877737943912,
      "loss": 3.7693,
      "step": 194280
    },
    {
      "epoch": 0.40477083333333336,
      "grad_norm": 0.8373510837554932,
      "learning_rate": 0.00019532937985128253,
      "loss": 3.7795,
      "step": 194290
    },
    {
      "epoch": 0.40479166666666666,
      "grad_norm": 0.8104931712150574,
      "learning_rate": 0.00019531998212732102,
      "loss": 3.8473,
      "step": 194300
    },
    {
      "epoch": 0.4048125,
      "grad_norm": 0.7671303153038025,
      "learning_rate": 0.00019531058420759503,
      "loss": 3.8839,
      "step": 194310
    },
    {
      "epoch": 0.4048333333333333,
      "grad_norm": 0.8365216255187988,
      "learning_rate": 0.0001953011860921453,
      "loss": 4.0124,
      "step": 194320
    },
    {
      "epoch": 0.4048541666666667,
      "grad_norm": 0.702893078327179,
      "learning_rate": 0.00019529178778101243,
      "loss": 4.0352,
      "step": 194330
    },
    {
      "epoch": 0.404875,
      "grad_norm": 0.9161686897277832,
      "learning_rate": 0.0001952823892742369,
      "loss": 3.8334,
      "step": 194340
    },
    {
      "epoch": 0.40489583333333334,
      "grad_norm": 0.7747822999954224,
      "learning_rate": 0.00019527299057185932,
      "loss": 3.7604,
      "step": 194350
    },
    {
      "epoch": 0.40491666666666665,
      "grad_norm": 0.7668566703796387,
      "learning_rate": 0.00019526359167392043,
      "loss": 4.0341,
      "step": 194360
    },
    {
      "epoch": 0.4049375,
      "grad_norm": 1.1246429681777954,
      "learning_rate": 0.0001952541925804607,
      "loss": 3.8784,
      "step": 194370
    },
    {
      "epoch": 0.4049583333333333,
      "grad_norm": 0.7413864731788635,
      "learning_rate": 0.00019524479329152076,
      "loss": 3.9156,
      "step": 194380
    },
    {
      "epoch": 0.40497916666666667,
      "grad_norm": 0.7277371883392334,
      "learning_rate": 0.00019523539380714126,
      "loss": 3.5602,
      "step": 194390
    },
    {
      "epoch": 0.405,
      "grad_norm": 0.7579582929611206,
      "learning_rate": 0.00019522599412736275,
      "loss": 3.9413,
      "step": 194400
    },
    {
      "epoch": 0.40502083333333333,
      "grad_norm": 0.8432784080505371,
      "learning_rate": 0.00019521659425222586,
      "loss": 3.7847,
      "step": 194410
    },
    {
      "epoch": 0.4050416666666667,
      "grad_norm": 0.724804162979126,
      "learning_rate": 0.00019520719418177114,
      "loss": 3.7952,
      "step": 194420
    },
    {
      "epoch": 0.4050625,
      "grad_norm": 0.8665130734443665,
      "learning_rate": 0.00019519779391603926,
      "loss": 3.8078,
      "step": 194430
    },
    {
      "epoch": 0.40508333333333335,
      "grad_norm": 0.7338718771934509,
      "learning_rate": 0.0001951883934550708,
      "loss": 3.8911,
      "step": 194440
    },
    {
      "epoch": 0.40510416666666665,
      "grad_norm": 0.8797960877418518,
      "learning_rate": 0.00019517899279890638,
      "loss": 3.8171,
      "step": 194450
    },
    {
      "epoch": 0.405125,
      "grad_norm": 0.8132423162460327,
      "learning_rate": 0.00019516959194758657,
      "loss": 4.1017,
      "step": 194460
    },
    {
      "epoch": 0.4051458333333333,
      "grad_norm": 0.7896438837051392,
      "learning_rate": 0.00019516019090115206,
      "loss": 3.8002,
      "step": 194470
    },
    {
      "epoch": 0.4051666666666667,
      "grad_norm": 0.8110748529434204,
      "learning_rate": 0.0001951507896596433,
      "loss": 3.7634,
      "step": 194480
    },
    {
      "epoch": 0.4051875,
      "grad_norm": 0.8314445614814758,
      "learning_rate": 0.00019514138822310107,
      "loss": 3.7109,
      "step": 194490
    },
    {
      "epoch": 0.40520833333333334,
      "grad_norm": 0.7536861300468445,
      "learning_rate": 0.00019513198659156593,
      "loss": 3.753,
      "step": 194500
    },
    {
      "epoch": 0.40522916666666664,
      "grad_norm": 0.7415453791618347,
      "learning_rate": 0.0001951225847650784,
      "loss": 3.8769,
      "step": 194510
    },
    {
      "epoch": 0.40525,
      "grad_norm": 0.7192992568016052,
      "learning_rate": 0.00019511318274367923,
      "loss": 3.6912,
      "step": 194520
    },
    {
      "epoch": 0.40527083333333336,
      "grad_norm": 0.692153811454773,
      "learning_rate": 0.00019510378052740895,
      "loss": 4.0911,
      "step": 194530
    },
    {
      "epoch": 0.40529166666666666,
      "grad_norm": 0.8555721044540405,
      "learning_rate": 0.00019509437811630816,
      "loss": 3.7761,
      "step": 194540
    },
    {
      "epoch": 0.4053125,
      "grad_norm": 0.7538372874259949,
      "learning_rate": 0.00019508497551041753,
      "loss": 3.7154,
      "step": 194550
    },
    {
      "epoch": 0.4053333333333333,
      "grad_norm": 0.7965213656425476,
      "learning_rate": 0.00019507557270977764,
      "loss": 3.7201,
      "step": 194560
    },
    {
      "epoch": 0.4053541666666667,
      "grad_norm": 0.763582706451416,
      "learning_rate": 0.00019506616971442917,
      "loss": 3.8286,
      "step": 194570
    },
    {
      "epoch": 0.405375,
      "grad_norm": 0.7715234160423279,
      "learning_rate": 0.0001950567665244126,
      "loss": 3.6694,
      "step": 194580
    },
    {
      "epoch": 0.40539583333333334,
      "grad_norm": 0.768170952796936,
      "learning_rate": 0.0001950473631397687,
      "loss": 3.8419,
      "step": 194590
    },
    {
      "epoch": 0.40541666666666665,
      "grad_norm": 0.8955515623092651,
      "learning_rate": 0.000195037959560538,
      "loss": 3.8695,
      "step": 194600
    },
    {
      "epoch": 0.4054375,
      "grad_norm": 0.8951588273048401,
      "learning_rate": 0.00019502855578676115,
      "loss": 3.9306,
      "step": 194610
    },
    {
      "epoch": 0.4054583333333333,
      "grad_norm": 0.7870962619781494,
      "learning_rate": 0.00019501915181847874,
      "loss": 3.7486,
      "step": 194620
    },
    {
      "epoch": 0.40547916666666667,
      "grad_norm": 0.835700511932373,
      "learning_rate": 0.0001950097476557314,
      "loss": 3.762,
      "step": 194630
    },
    {
      "epoch": 0.4055,
      "grad_norm": 0.8351972699165344,
      "learning_rate": 0.0001950003432985598,
      "loss": 3.8358,
      "step": 194640
    },
    {
      "epoch": 0.40552083333333333,
      "grad_norm": 0.9091237187385559,
      "learning_rate": 0.00019499093874700456,
      "loss": 3.7665,
      "step": 194650
    },
    {
      "epoch": 0.4055416666666667,
      "grad_norm": 0.7025943994522095,
      "learning_rate": 0.00019498153400110624,
      "loss": 3.8159,
      "step": 194660
    },
    {
      "epoch": 0.4055625,
      "grad_norm": 0.9117801189422607,
      "learning_rate": 0.0001949721290609055,
      "loss": 3.9165,
      "step": 194670
    },
    {
      "epoch": 0.40558333333333335,
      "grad_norm": 0.7454450130462646,
      "learning_rate": 0.00019496272392644293,
      "loss": 3.923,
      "step": 194680
    },
    {
      "epoch": 0.40560416666666665,
      "grad_norm": 0.8083614110946655,
      "learning_rate": 0.00019495331859775922,
      "loss": 3.7453,
      "step": 194690
    },
    {
      "epoch": 0.405625,
      "grad_norm": 0.7706153392791748,
      "learning_rate": 0.00019494391307489498,
      "loss": 3.7606,
      "step": 194700
    },
    {
      "epoch": 0.4056458333333333,
      "grad_norm": 1.0424082279205322,
      "learning_rate": 0.0001949345073578908,
      "loss": 3.7384,
      "step": 194710
    },
    {
      "epoch": 0.4056666666666667,
      "grad_norm": 0.6993447542190552,
      "learning_rate": 0.00019492510144678737,
      "loss": 3.708,
      "step": 194720
    },
    {
      "epoch": 0.4056875,
      "grad_norm": 0.758039116859436,
      "learning_rate": 0.00019491569534162525,
      "loss": 3.8472,
      "step": 194730
    },
    {
      "epoch": 0.40570833333333334,
      "grad_norm": 0.7086935043334961,
      "learning_rate": 0.00019490628904244512,
      "loss": 3.7992,
      "step": 194740
    },
    {
      "epoch": 0.40572916666666664,
      "grad_norm": 0.7702664732933044,
      "learning_rate": 0.0001948968825492876,
      "loss": 3.8361,
      "step": 194750
    },
    {
      "epoch": 0.40575,
      "grad_norm": 0.7374884486198425,
      "learning_rate": 0.0001948874758621933,
      "loss": 3.8051,
      "step": 194760
    },
    {
      "epoch": 0.40577083333333336,
      "grad_norm": 0.7991885542869568,
      "learning_rate": 0.00019487806898120288,
      "loss": 3.7148,
      "step": 194770
    },
    {
      "epoch": 0.40579166666666666,
      "grad_norm": 0.8504029512405396,
      "learning_rate": 0.00019486866190635696,
      "loss": 3.7185,
      "step": 194780
    },
    {
      "epoch": 0.4058125,
      "grad_norm": 0.7983840107917786,
      "learning_rate": 0.00019485925463769618,
      "loss": 3.7379,
      "step": 194790
    },
    {
      "epoch": 0.4058333333333333,
      "grad_norm": 0.7411507964134216,
      "learning_rate": 0.00019484984717526118,
      "loss": 3.8219,
      "step": 194800
    },
    {
      "epoch": 0.4058541666666667,
      "grad_norm": 0.778827965259552,
      "learning_rate": 0.00019484043951909264,
      "loss": 3.9245,
      "step": 194810
    },
    {
      "epoch": 0.405875,
      "grad_norm": 0.7870485186576843,
      "learning_rate": 0.00019483103166923109,
      "loss": 3.791,
      "step": 194820
    },
    {
      "epoch": 0.40589583333333334,
      "grad_norm": 0.6815444231033325,
      "learning_rate": 0.00019482162362571725,
      "loss": 3.966,
      "step": 194830
    },
    {
      "epoch": 0.40591666666666665,
      "grad_norm": 0.7571131587028503,
      "learning_rate": 0.00019481221538859175,
      "loss": 3.9193,
      "step": 194840
    },
    {
      "epoch": 0.4059375,
      "grad_norm": 0.7533265352249146,
      "learning_rate": 0.00019480280695789517,
      "loss": 3.7693,
      "step": 194850
    },
    {
      "epoch": 0.4059583333333333,
      "grad_norm": 0.6751761436462402,
      "learning_rate": 0.00019479339833366826,
      "loss": 3.9194,
      "step": 194860
    },
    {
      "epoch": 0.40597916666666667,
      "grad_norm": 0.7080559134483337,
      "learning_rate": 0.00019478398951595157,
      "loss": 3.7821,
      "step": 194870
    },
    {
      "epoch": 0.406,
      "grad_norm": 0.8818930387496948,
      "learning_rate": 0.00019477458050478575,
      "loss": 3.9577,
      "step": 194880
    },
    {
      "epoch": 0.40602083333333333,
      "grad_norm": 0.7380582094192505,
      "learning_rate": 0.0001947651713002115,
      "loss": 3.7232,
      "step": 194890
    },
    {
      "epoch": 0.4060416666666667,
      "grad_norm": 0.7407050132751465,
      "learning_rate": 0.00019475576190226943,
      "loss": 3.9194,
      "step": 194900
    },
    {
      "epoch": 0.4060625,
      "grad_norm": 0.7469950914382935,
      "learning_rate": 0.00019474635231100015,
      "loss": 3.7641,
      "step": 194910
    },
    {
      "epoch": 0.40608333333333335,
      "grad_norm": 0.9155732989311218,
      "learning_rate": 0.00019473694252644438,
      "loss": 3.8076,
      "step": 194920
    },
    {
      "epoch": 0.40610416666666665,
      "grad_norm": 0.759475588798523,
      "learning_rate": 0.0001947275325486427,
      "loss": 3.6172,
      "step": 194930
    },
    {
      "epoch": 0.406125,
      "grad_norm": 0.7702187895774841,
      "learning_rate": 0.0001947181223776358,
      "loss": 3.7864,
      "step": 194940
    },
    {
      "epoch": 0.4061458333333333,
      "grad_norm": 0.8296583294868469,
      "learning_rate": 0.0001947087120134643,
      "loss": 3.8126,
      "step": 194950
    },
    {
      "epoch": 0.4061666666666667,
      "grad_norm": 0.7475996017456055,
      "learning_rate": 0.00019469930145616884,
      "loss": 3.8567,
      "step": 194960
    },
    {
      "epoch": 0.4061875,
      "grad_norm": 0.7318405508995056,
      "learning_rate": 0.0001946898907057901,
      "loss": 3.7656,
      "step": 194970
    },
    {
      "epoch": 0.40620833333333334,
      "grad_norm": 0.8068037033081055,
      "learning_rate": 0.00019468047976236875,
      "loss": 3.8221,
      "step": 194980
    },
    {
      "epoch": 0.40622916666666664,
      "grad_norm": 0.9086283445358276,
      "learning_rate": 0.0001946710686259454,
      "loss": 3.8621,
      "step": 194990
    },
    {
      "epoch": 0.40625,
      "grad_norm": 0.7978875637054443,
      "learning_rate": 0.0001946616572965607,
      "loss": 3.8001,
      "step": 195000
    },
    {
      "epoch": 0.40625,
      "eval_loss": 4.185973167419434,
      "eval_runtime": 8.8206,
      "eval_samples_per_second": 1.134,
      "eval_steps_per_second": 0.34,
      "step": 195000
    },
    {
      "epoch": 0.40627083333333336,
      "grad_norm": 0.7252549529075623,
      "learning_rate": 0.00019465224577425535,
      "loss": 3.84,
      "step": 195010
    },
    {
      "epoch": 0.40629166666666666,
      "grad_norm": 0.8267555236816406,
      "learning_rate": 0.00019464283405906996,
      "loss": 3.7953,
      "step": 195020
    },
    {
      "epoch": 0.4063125,
      "grad_norm": 0.8283354640007019,
      "learning_rate": 0.00019463342215104523,
      "loss": 3.8076,
      "step": 195030
    },
    {
      "epoch": 0.4063333333333333,
      "grad_norm": 0.7209432125091553,
      "learning_rate": 0.00019462401005022173,
      "loss": 3.9255,
      "step": 195040
    },
    {
      "epoch": 0.4063541666666667,
      "grad_norm": 0.7671691179275513,
      "learning_rate": 0.00019461459775664018,
      "loss": 4.1377,
      "step": 195050
    },
    {
      "epoch": 0.406375,
      "grad_norm": 0.722560703754425,
      "learning_rate": 0.00019460518527034126,
      "loss": 3.8125,
      "step": 195060
    },
    {
      "epoch": 0.40639583333333335,
      "grad_norm": 0.8533785343170166,
      "learning_rate": 0.00019459577259136557,
      "loss": 3.8389,
      "step": 195070
    },
    {
      "epoch": 0.40641666666666665,
      "grad_norm": 0.8112741708755493,
      "learning_rate": 0.00019458635971975375,
      "loss": 3.6222,
      "step": 195080
    },
    {
      "epoch": 0.4064375,
      "grad_norm": 0.9537311792373657,
      "learning_rate": 0.00019457694665554658,
      "loss": 3.9828,
      "step": 195090
    },
    {
      "epoch": 0.4064583333333333,
      "grad_norm": 0.7644660472869873,
      "learning_rate": 0.00019456753339878462,
      "loss": 3.9839,
      "step": 195100
    },
    {
      "epoch": 0.40647916666666667,
      "grad_norm": 0.7864596247673035,
      "learning_rate": 0.00019455811994950855,
      "loss": 3.76,
      "step": 195110
    },
    {
      "epoch": 0.4065,
      "grad_norm": 0.7774301171302795,
      "learning_rate": 0.00019454870630775903,
      "loss": 3.7812,
      "step": 195120
    },
    {
      "epoch": 0.40652083333333333,
      "grad_norm": 0.7965273261070251,
      "learning_rate": 0.00019453929247357675,
      "loss": 3.7627,
      "step": 195130
    },
    {
      "epoch": 0.4065416666666667,
      "grad_norm": 0.7138428688049316,
      "learning_rate": 0.00019452987844700235,
      "loss": 3.7769,
      "step": 195140
    },
    {
      "epoch": 0.4065625,
      "grad_norm": 0.8416739106178284,
      "learning_rate": 0.00019452046422807653,
      "loss": 3.8411,
      "step": 195150
    },
    {
      "epoch": 0.40658333333333335,
      "grad_norm": 0.8370248079299927,
      "learning_rate": 0.00019451104981683986,
      "loss": 3.8522,
      "step": 195160
    },
    {
      "epoch": 0.40660416666666666,
      "grad_norm": 0.762990415096283,
      "learning_rate": 0.00019450163521333316,
      "loss": 4.0131,
      "step": 195170
    },
    {
      "epoch": 0.406625,
      "grad_norm": 0.7551764249801636,
      "learning_rate": 0.00019449222041759693,
      "loss": 3.9651,
      "step": 195180
    },
    {
      "epoch": 0.4066458333333333,
      "grad_norm": 0.8902240991592407,
      "learning_rate": 0.00019448280542967196,
      "loss": 3.853,
      "step": 195190
    },
    {
      "epoch": 0.4066666666666667,
      "grad_norm": 0.6975885033607483,
      "learning_rate": 0.00019447339024959888,
      "loss": 3.7983,
      "step": 195200
    },
    {
      "epoch": 0.4066875,
      "grad_norm": 0.758983850479126,
      "learning_rate": 0.00019446397487741832,
      "loss": 3.7798,
      "step": 195210
    },
    {
      "epoch": 0.40670833333333334,
      "grad_norm": 0.7818716764450073,
      "learning_rate": 0.00019445455931317102,
      "loss": 3.9164,
      "step": 195220
    },
    {
      "epoch": 0.40672916666666664,
      "grad_norm": 0.7457336783409119,
      "learning_rate": 0.00019444514355689766,
      "loss": 3.8773,
      "step": 195230
    },
    {
      "epoch": 0.40675,
      "grad_norm": 0.8609474301338196,
      "learning_rate": 0.00019443572760863883,
      "loss": 3.9443,
      "step": 195240
    },
    {
      "epoch": 0.40677083333333336,
      "grad_norm": 0.8147785663604736,
      "learning_rate": 0.0001944263114684352,
      "loss": 3.9261,
      "step": 195250
    },
    {
      "epoch": 0.40679166666666666,
      "grad_norm": 0.8423752784729004,
      "learning_rate": 0.00019441689513632755,
      "loss": 3.8029,
      "step": 195260
    },
    {
      "epoch": 0.4068125,
      "grad_norm": 0.6720908880233765,
      "learning_rate": 0.0001944074786123565,
      "loss": 3.6678,
      "step": 195270
    },
    {
      "epoch": 0.4068333333333333,
      "grad_norm": 0.737733006477356,
      "learning_rate": 0.00019439806189656264,
      "loss": 3.8289,
      "step": 195280
    },
    {
      "epoch": 0.4068541666666667,
      "grad_norm": 0.8874826431274414,
      "learning_rate": 0.00019438864498898682,
      "loss": 3.8139,
      "step": 195290
    },
    {
      "epoch": 0.406875,
      "grad_norm": 0.8825972080230713,
      "learning_rate": 0.0001943792278896696,
      "loss": 3.8382,
      "step": 195300
    },
    {
      "epoch": 0.40689583333333335,
      "grad_norm": 0.7653723359107971,
      "learning_rate": 0.0001943698105986517,
      "loss": 4.1123,
      "step": 195310
    },
    {
      "epoch": 0.40691666666666665,
      "grad_norm": 0.8253366351127625,
      "learning_rate": 0.00019436039311597372,
      "loss": 3.9063,
      "step": 195320
    },
    {
      "epoch": 0.4069375,
      "grad_norm": 0.7232081294059753,
      "learning_rate": 0.00019435097544167641,
      "loss": 3.7772,
      "step": 195330
    },
    {
      "epoch": 0.4069583333333333,
      "grad_norm": 0.77553391456604,
      "learning_rate": 0.0001943415575758005,
      "loss": 3.8298,
      "step": 195340
    },
    {
      "epoch": 0.40697916666666667,
      "grad_norm": 0.7638890147209167,
      "learning_rate": 0.00019433213951838656,
      "loss": 3.6309,
      "step": 195350
    },
    {
      "epoch": 0.407,
      "grad_norm": 0.7980190515518188,
      "learning_rate": 0.00019432272126947533,
      "loss": 3.7126,
      "step": 195360
    },
    {
      "epoch": 0.40702083333333333,
      "grad_norm": 0.9660741686820984,
      "learning_rate": 0.00019431330282910754,
      "loss": 3.822,
      "step": 195370
    },
    {
      "epoch": 0.4070416666666667,
      "grad_norm": 0.8241598606109619,
      "learning_rate": 0.00019430388419732376,
      "loss": 3.8403,
      "step": 195380
    },
    {
      "epoch": 0.4070625,
      "grad_norm": 0.7428840398788452,
      "learning_rate": 0.00019429446537416473,
      "loss": 3.7914,
      "step": 195390
    },
    {
      "epoch": 0.40708333333333335,
      "grad_norm": 0.82640540599823,
      "learning_rate": 0.00019428504635967124,
      "loss": 3.7452,
      "step": 195400
    },
    {
      "epoch": 0.40710416666666666,
      "grad_norm": 0.8399295210838318,
      "learning_rate": 0.0001942756271538838,
      "loss": 3.8281,
      "step": 195410
    },
    {
      "epoch": 0.407125,
      "grad_norm": 0.9151433706283569,
      "learning_rate": 0.00019426620775684313,
      "loss": 3.9644,
      "step": 195420
    },
    {
      "epoch": 0.4071458333333333,
      "grad_norm": 0.7424917817115784,
      "learning_rate": 0.00019425678816859006,
      "loss": 3.8471,
      "step": 195430
    },
    {
      "epoch": 0.4071666666666667,
      "grad_norm": 0.9357056021690369,
      "learning_rate": 0.00019424736838916516,
      "loss": 3.7718,
      "step": 195440
    },
    {
      "epoch": 0.4071875,
      "grad_norm": 0.8783342242240906,
      "learning_rate": 0.0001942379484186091,
      "loss": 3.6055,
      "step": 195450
    },
    {
      "epoch": 0.40720833333333334,
      "grad_norm": 0.8122707605361938,
      "learning_rate": 0.00019422852825696268,
      "loss": 3.8658,
      "step": 195460
    },
    {
      "epoch": 0.40722916666666664,
      "grad_norm": 0.7896695137023926,
      "learning_rate": 0.00019421910790426645,
      "loss": 3.6888,
      "step": 195470
    },
    {
      "epoch": 0.40725,
      "grad_norm": 0.7732728123664856,
      "learning_rate": 0.00019420968736056125,
      "loss": 3.9523,
      "step": 195480
    },
    {
      "epoch": 0.40727083333333336,
      "grad_norm": 0.8712944984436035,
      "learning_rate": 0.00019420026662588766,
      "loss": 4.1039,
      "step": 195490
    },
    {
      "epoch": 0.40729166666666666,
      "grad_norm": 0.8719769716262817,
      "learning_rate": 0.00019419084570028637,
      "loss": 3.9021,
      "step": 195500
    },
    {
      "epoch": 0.4073125,
      "grad_norm": 0.755706250667572,
      "learning_rate": 0.00019418142458379816,
      "loss": 3.8012,
      "step": 195510
    },
    {
      "epoch": 0.4073333333333333,
      "grad_norm": 0.9707190990447998,
      "learning_rate": 0.00019417200327646373,
      "loss": 4.0299,
      "step": 195520
    },
    {
      "epoch": 0.4073541666666667,
      "grad_norm": 0.9702433347702026,
      "learning_rate": 0.00019416258177832368,
      "loss": 3.9342,
      "step": 195530
    },
    {
      "epoch": 0.407375,
      "grad_norm": 0.78355473279953,
      "learning_rate": 0.0001941531600894188,
      "loss": 3.7671,
      "step": 195540
    },
    {
      "epoch": 0.40739583333333335,
      "grad_norm": 0.8701432347297668,
      "learning_rate": 0.00019414373820978966,
      "loss": 3.8036,
      "step": 195550
    },
    {
      "epoch": 0.40741666666666665,
      "grad_norm": 0.7848687767982483,
      "learning_rate": 0.0001941343161394771,
      "loss": 3.6875,
      "step": 195560
    },
    {
      "epoch": 0.4074375,
      "grad_norm": 0.6943529844284058,
      "learning_rate": 0.00019412489387852182,
      "loss": 3.702,
      "step": 195570
    },
    {
      "epoch": 0.4074583333333333,
      "grad_norm": 0.8359349966049194,
      "learning_rate": 0.00019411547142696435,
      "loss": 3.8123,
      "step": 195580
    },
    {
      "epoch": 0.40747916666666667,
      "grad_norm": 0.7940654754638672,
      "learning_rate": 0.00019410604878484556,
      "loss": 3.8418,
      "step": 195590
    },
    {
      "epoch": 0.4075,
      "grad_norm": 0.7171854972839355,
      "learning_rate": 0.00019409662595220613,
      "loss": 3.7686,
      "step": 195600
    },
    {
      "epoch": 0.40752083333333333,
      "grad_norm": 0.8648396730422974,
      "learning_rate": 0.00019408720292908672,
      "loss": 3.7574,
      "step": 195610
    },
    {
      "epoch": 0.4075416666666667,
      "grad_norm": 0.7208985090255737,
      "learning_rate": 0.000194077779715528,
      "loss": 3.8492,
      "step": 195620
    },
    {
      "epoch": 0.4075625,
      "grad_norm": 0.8406206965446472,
      "learning_rate": 0.00019406835631157076,
      "loss": 3.6422,
      "step": 195630
    },
    {
      "epoch": 0.40758333333333335,
      "grad_norm": 0.7483555674552917,
      "learning_rate": 0.0001940589327172556,
      "loss": 3.8726,
      "step": 195640
    },
    {
      "epoch": 0.40760416666666666,
      "grad_norm": 0.7434715032577515,
      "learning_rate": 0.00019404950893262338,
      "loss": 3.8335,
      "step": 195650
    },
    {
      "epoch": 0.407625,
      "grad_norm": 0.7866623997688293,
      "learning_rate": 0.00019404008495771467,
      "loss": 3.6667,
      "step": 195660
    },
    {
      "epoch": 0.4076458333333333,
      "grad_norm": 0.7729328274726868,
      "learning_rate": 0.00019403066079257022,
      "loss": 3.8825,
      "step": 195670
    },
    {
      "epoch": 0.4076666666666667,
      "grad_norm": 1.0769274234771729,
      "learning_rate": 0.00019402123643723072,
      "loss": 3.7744,
      "step": 195680
    },
    {
      "epoch": 0.4076875,
      "grad_norm": 0.9404153227806091,
      "learning_rate": 0.00019401181189173698,
      "loss": 3.5924,
      "step": 195690
    },
    {
      "epoch": 0.40770833333333334,
      "grad_norm": 0.8042081594467163,
      "learning_rate": 0.00019400238715612956,
      "loss": 3.9544,
      "step": 195700
    },
    {
      "epoch": 0.40772916666666664,
      "grad_norm": 0.8035704493522644,
      "learning_rate": 0.00019399296223044927,
      "loss": 3.8382,
      "step": 195710
    },
    {
      "epoch": 0.40775,
      "grad_norm": 1.073626160621643,
      "learning_rate": 0.0001939835371147368,
      "loss": 3.8497,
      "step": 195720
    },
    {
      "epoch": 0.40777083333333336,
      "grad_norm": 0.9077701568603516,
      "learning_rate": 0.00019397411180903287,
      "loss": 3.8729,
      "step": 195730
    },
    {
      "epoch": 0.40779166666666666,
      "grad_norm": 0.7460809946060181,
      "learning_rate": 0.00019396468631337823,
      "loss": 3.885,
      "step": 195740
    },
    {
      "epoch": 0.4078125,
      "grad_norm": 0.8050316572189331,
      "learning_rate": 0.00019395526062781343,
      "loss": 4.0856,
      "step": 195750
    },
    {
      "epoch": 0.4078333333333333,
      "grad_norm": 0.7717926502227783,
      "learning_rate": 0.0001939458347523794,
      "loss": 3.8502,
      "step": 195760
    },
    {
      "epoch": 0.4078541666666667,
      "grad_norm": 0.7891712784767151,
      "learning_rate": 0.00019393640868711672,
      "loss": 3.9675,
      "step": 195770
    },
    {
      "epoch": 0.407875,
      "grad_norm": 0.8145788311958313,
      "learning_rate": 0.00019392698243206612,
      "loss": 3.7784,
      "step": 195780
    },
    {
      "epoch": 0.40789583333333335,
      "grad_norm": 0.8291568756103516,
      "learning_rate": 0.00019391755598726843,
      "loss": 4.0057,
      "step": 195790
    },
    {
      "epoch": 0.40791666666666665,
      "grad_norm": 0.7488634586334229,
      "learning_rate": 0.0001939081293527642,
      "loss": 3.8485,
      "step": 195800
    },
    {
      "epoch": 0.4079375,
      "grad_norm": 0.9335806965827942,
      "learning_rate": 0.00019389870252859426,
      "loss": 3.8074,
      "step": 195810
    },
    {
      "epoch": 0.4079583333333333,
      "grad_norm": 0.8294033408164978,
      "learning_rate": 0.0001938892755147993,
      "loss": 3.7934,
      "step": 195820
    },
    {
      "epoch": 0.40797916666666667,
      "grad_norm": 0.7125259041786194,
      "learning_rate": 0.00019387984831142004,
      "loss": 3.8736,
      "step": 195830
    },
    {
      "epoch": 0.408,
      "grad_norm": 0.9186751246452332,
      "learning_rate": 0.0001938704209184972,
      "loss": 3.8026,
      "step": 195840
    },
    {
      "epoch": 0.40802083333333333,
      "grad_norm": 0.736815333366394,
      "learning_rate": 0.0001938609933360715,
      "loss": 3.9548,
      "step": 195850
    },
    {
      "epoch": 0.4080416666666667,
      "grad_norm": 0.7887657880783081,
      "learning_rate": 0.00019385156556418369,
      "loss": 3.9533,
      "step": 195860
    },
    {
      "epoch": 0.4080625,
      "grad_norm": 1.0399377346038818,
      "learning_rate": 0.00019384213760287447,
      "loss": 3.8731,
      "step": 195870
    },
    {
      "epoch": 0.40808333333333335,
      "grad_norm": 0.8007993698120117,
      "learning_rate": 0.00019383270945218456,
      "loss": 3.869,
      "step": 195880
    },
    {
      "epoch": 0.40810416666666666,
      "grad_norm": 0.8486935496330261,
      "learning_rate": 0.0001938232811121547,
      "loss": 3.7569,
      "step": 195890
    },
    {
      "epoch": 0.408125,
      "grad_norm": 0.9154973030090332,
      "learning_rate": 0.00019381385258282564,
      "loss": 3.6706,
      "step": 195900
    },
    {
      "epoch": 0.4081458333333333,
      "grad_norm": 0.74552983045578,
      "learning_rate": 0.00019380442386423806,
      "loss": 3.9839,
      "step": 195910
    },
    {
      "epoch": 0.4081666666666667,
      "grad_norm": 0.820567786693573,
      "learning_rate": 0.00019379499495643265,
      "loss": 3.9381,
      "step": 195920
    },
    {
      "epoch": 0.4081875,
      "grad_norm": 0.8938918113708496,
      "learning_rate": 0.00019378556585945028,
      "loss": 3.8853,
      "step": 195930
    },
    {
      "epoch": 0.40820833333333334,
      "grad_norm": 0.8146952390670776,
      "learning_rate": 0.00019377613657333158,
      "loss": 3.7308,
      "step": 195940
    },
    {
      "epoch": 0.40822916666666664,
      "grad_norm": 0.7541578412055969,
      "learning_rate": 0.00019376670709811723,
      "loss": 3.9878,
      "step": 195950
    },
    {
      "epoch": 0.40825,
      "grad_norm": 0.9117903709411621,
      "learning_rate": 0.0001937572774338481,
      "loss": 3.8939,
      "step": 195960
    },
    {
      "epoch": 0.40827083333333336,
      "grad_norm": 0.7258574366569519,
      "learning_rate": 0.00019374784758056484,
      "loss": 3.8946,
      "step": 195970
    },
    {
      "epoch": 0.40829166666666666,
      "grad_norm": 1.0548744201660156,
      "learning_rate": 0.0001937384175383082,
      "loss": 4.0199,
      "step": 195980
    },
    {
      "epoch": 0.4083125,
      "grad_norm": 0.905575156211853,
      "learning_rate": 0.00019372898730711887,
      "loss": 3.9354,
      "step": 195990
    },
    {
      "epoch": 0.4083333333333333,
      "grad_norm": 0.902985155582428,
      "learning_rate": 0.00019371955688703767,
      "loss": 3.8921,
      "step": 196000
    },
    {
      "epoch": 0.4083333333333333,
      "eval_loss": 4.182626247406006,
      "eval_runtime": 8.9225,
      "eval_samples_per_second": 1.121,
      "eval_steps_per_second": 0.336,
      "step": 196000
    },
    {
      "epoch": 0.4083541666666667,
      "grad_norm": 0.762326717376709,
      "learning_rate": 0.00019371012627810528,
      "loss": 3.7904,
      "step": 196010
    },
    {
      "epoch": 0.408375,
      "grad_norm": 0.8311905860900879,
      "learning_rate": 0.0001937006954803624,
      "loss": 3.7883,
      "step": 196020
    },
    {
      "epoch": 0.40839583333333335,
      "grad_norm": 0.7814012169837952,
      "learning_rate": 0.00019369126449384985,
      "loss": 3.8717,
      "step": 196030
    },
    {
      "epoch": 0.40841666666666665,
      "grad_norm": 0.9567342400550842,
      "learning_rate": 0.00019368183331860836,
      "loss": 3.9381,
      "step": 196040
    },
    {
      "epoch": 0.4084375,
      "grad_norm": 0.8373311758041382,
      "learning_rate": 0.0001936724019546786,
      "loss": 3.8191,
      "step": 196050
    },
    {
      "epoch": 0.4084583333333333,
      "grad_norm": 0.813838005065918,
      "learning_rate": 0.00019366297040210136,
      "loss": 3.8757,
      "step": 196060
    },
    {
      "epoch": 0.40847916666666667,
      "grad_norm": 0.8964939713478088,
      "learning_rate": 0.0001936535386609174,
      "loss": 3.6489,
      "step": 196070
    },
    {
      "epoch": 0.4085,
      "grad_norm": 0.7246211171150208,
      "learning_rate": 0.00019364410673116737,
      "loss": 3.8589,
      "step": 196080
    },
    {
      "epoch": 0.40852083333333333,
      "grad_norm": 0.7785637974739075,
      "learning_rate": 0.00019363467461289212,
      "loss": 3.9266,
      "step": 196090
    },
    {
      "epoch": 0.4085416666666667,
      "grad_norm": 0.8054057955741882,
      "learning_rate": 0.00019362524230613236,
      "loss": 3.6748,
      "step": 196100
    },
    {
      "epoch": 0.4085625,
      "grad_norm": 0.8104000687599182,
      "learning_rate": 0.0001936158098109288,
      "loss": 3.6914,
      "step": 196110
    },
    {
      "epoch": 0.40858333333333335,
      "grad_norm": 0.8553299903869629,
      "learning_rate": 0.00019360637712732218,
      "loss": 3.9883,
      "step": 196120
    },
    {
      "epoch": 0.40860416666666666,
      "grad_norm": 0.9452922940254211,
      "learning_rate": 0.00019359694425535333,
      "loss": 3.7753,
      "step": 196130
    },
    {
      "epoch": 0.408625,
      "grad_norm": 0.7062065005302429,
      "learning_rate": 0.0001935875111950629,
      "loss": 3.7537,
      "step": 196140
    },
    {
      "epoch": 0.4086458333333333,
      "grad_norm": 0.8335736989974976,
      "learning_rate": 0.00019357807794649162,
      "loss": 3.906,
      "step": 196150
    },
    {
      "epoch": 0.4086666666666667,
      "grad_norm": 0.8297006487846375,
      "learning_rate": 0.00019356864450968038,
      "loss": 3.837,
      "step": 196160
    },
    {
      "epoch": 0.4086875,
      "grad_norm": 0.7036313414573669,
      "learning_rate": 0.00019355921088466983,
      "loss": 3.8621,
      "step": 196170
    },
    {
      "epoch": 0.40870833333333334,
      "grad_norm": 0.9125405550003052,
      "learning_rate": 0.00019354977707150073,
      "loss": 3.8779,
      "step": 196180
    },
    {
      "epoch": 0.40872916666666664,
      "grad_norm": 0.8878064155578613,
      "learning_rate": 0.00019354034307021383,
      "loss": 3.8391,
      "step": 196190
    },
    {
      "epoch": 0.40875,
      "grad_norm": 0.7688753008842468,
      "learning_rate": 0.00019353090888084984,
      "loss": 3.7029,
      "step": 196200
    },
    {
      "epoch": 0.40877083333333336,
      "grad_norm": 0.7614287734031677,
      "learning_rate": 0.0001935214745034496,
      "loss": 3.8614,
      "step": 196210
    },
    {
      "epoch": 0.40879166666666666,
      "grad_norm": 0.8999890685081482,
      "learning_rate": 0.00019351203993805377,
      "loss": 3.9578,
      "step": 196220
    },
    {
      "epoch": 0.4088125,
      "grad_norm": 0.9338783621788025,
      "learning_rate": 0.00019350260518470318,
      "loss": 3.9286,
      "step": 196230
    },
    {
      "epoch": 0.4088333333333333,
      "grad_norm": 0.7458755970001221,
      "learning_rate": 0.00019349317024343858,
      "loss": 3.7999,
      "step": 196240
    },
    {
      "epoch": 0.4088541666666667,
      "grad_norm": 0.7281566262245178,
      "learning_rate": 0.00019348373511430064,
      "loss": 3.862,
      "step": 196250
    },
    {
      "epoch": 0.408875,
      "grad_norm": 0.8064316511154175,
      "learning_rate": 0.0001934742997973302,
      "loss": 3.8521,
      "step": 196260
    },
    {
      "epoch": 0.40889583333333335,
      "grad_norm": 0.9048774838447571,
      "learning_rate": 0.00019346486429256806,
      "loss": 3.726,
      "step": 196270
    },
    {
      "epoch": 0.40891666666666665,
      "grad_norm": 0.7716354131698608,
      "learning_rate": 0.00019345542860005482,
      "loss": 3.7461,
      "step": 196280
    },
    {
      "epoch": 0.4089375,
      "grad_norm": 0.7399380803108215,
      "learning_rate": 0.00019344599271983138,
      "loss": 3.8006,
      "step": 196290
    },
    {
      "epoch": 0.4089583333333333,
      "grad_norm": 0.7252005934715271,
      "learning_rate": 0.00019343655665193845,
      "loss": 3.8509,
      "step": 196300
    },
    {
      "epoch": 0.40897916666666667,
      "grad_norm": 1.0037567615509033,
      "learning_rate": 0.00019342712039641677,
      "loss": 3.7184,
      "step": 196310
    },
    {
      "epoch": 0.409,
      "grad_norm": 0.9980072975158691,
      "learning_rate": 0.0001934176839533071,
      "loss": 3.917,
      "step": 196320
    },
    {
      "epoch": 0.40902083333333333,
      "grad_norm": 0.7143622040748596,
      "learning_rate": 0.0001934082473226503,
      "loss": 3.7882,
      "step": 196330
    },
    {
      "epoch": 0.4090416666666667,
      "grad_norm": 0.7865405082702637,
      "learning_rate": 0.00019339881050448694,
      "loss": 3.9316,
      "step": 196340
    },
    {
      "epoch": 0.4090625,
      "grad_norm": 0.9864975810050964,
      "learning_rate": 0.00019338937349885798,
      "loss": 3.8543,
      "step": 196350
    },
    {
      "epoch": 0.40908333333333335,
      "grad_norm": 0.7823650240898132,
      "learning_rate": 0.00019337993630580405,
      "loss": 3.9243,
      "step": 196360
    },
    {
      "epoch": 0.40910416666666666,
      "grad_norm": 1.2503774166107178,
      "learning_rate": 0.000193370498925366,
      "loss": 3.8717,
      "step": 196370
    },
    {
      "epoch": 0.409125,
      "grad_norm": 0.9403663277626038,
      "learning_rate": 0.00019336106135758456,
      "loss": 3.9551,
      "step": 196380
    },
    {
      "epoch": 0.4091458333333333,
      "grad_norm": 0.7397662401199341,
      "learning_rate": 0.00019335162360250047,
      "loss": 3.8132,
      "step": 196390
    },
    {
      "epoch": 0.4091666666666667,
      "grad_norm": 0.8065736293792725,
      "learning_rate": 0.00019334218566015456,
      "loss": 3.8629,
      "step": 196400
    },
    {
      "epoch": 0.4091875,
      "grad_norm": 0.7020069360733032,
      "learning_rate": 0.00019333274753058759,
      "loss": 3.9029,
      "step": 196410
    },
    {
      "epoch": 0.40920833333333334,
      "grad_norm": 0.7250231504440308,
      "learning_rate": 0.00019332330921384023,
      "loss": 3.9351,
      "step": 196420
    },
    {
      "epoch": 0.40922916666666664,
      "grad_norm": 0.7858293056488037,
      "learning_rate": 0.00019331387070995335,
      "loss": 3.7417,
      "step": 196430
    },
    {
      "epoch": 0.40925,
      "grad_norm": 0.8295948505401611,
      "learning_rate": 0.00019330443201896774,
      "loss": 3.7809,
      "step": 196440
    },
    {
      "epoch": 0.4092708333333333,
      "grad_norm": 0.7101122736930847,
      "learning_rate": 0.00019329499314092404,
      "loss": 3.7167,
      "step": 196450
    },
    {
      "epoch": 0.40929166666666666,
      "grad_norm": 0.7184519171714783,
      "learning_rate": 0.00019328555407586317,
      "loss": 3.9188,
      "step": 196460
    },
    {
      "epoch": 0.4093125,
      "grad_norm": 0.980656087398529,
      "learning_rate": 0.00019327611482382583,
      "loss": 3.9913,
      "step": 196470
    },
    {
      "epoch": 0.4093333333333333,
      "grad_norm": 0.7330355048179626,
      "learning_rate": 0.0001932666753848528,
      "loss": 3.9586,
      "step": 196480
    },
    {
      "epoch": 0.4093541666666667,
      "grad_norm": 1.1657021045684814,
      "learning_rate": 0.00019325723575898485,
      "loss": 3.8977,
      "step": 196490
    },
    {
      "epoch": 0.409375,
      "grad_norm": 0.7507839202880859,
      "learning_rate": 0.00019324779594626277,
      "loss": 3.6922,
      "step": 196500
    },
    {
      "epoch": 0.40939583333333335,
      "grad_norm": 0.833404541015625,
      "learning_rate": 0.00019323835594672734,
      "loss": 4.0187,
      "step": 196510
    },
    {
      "epoch": 0.40941666666666665,
      "grad_norm": 0.9069460034370422,
      "learning_rate": 0.0001932289157604193,
      "loss": 3.9,
      "step": 196520
    },
    {
      "epoch": 0.4094375,
      "grad_norm": 0.7405125498771667,
      "learning_rate": 0.00019321947538737948,
      "loss": 3.8935,
      "step": 196530
    },
    {
      "epoch": 0.4094583333333333,
      "grad_norm": 0.9018637537956238,
      "learning_rate": 0.0001932100348276486,
      "loss": 3.8025,
      "step": 196540
    },
    {
      "epoch": 0.40947916666666667,
      "grad_norm": 0.6762906312942505,
      "learning_rate": 0.0001932005940812675,
      "loss": 3.6835,
      "step": 196550
    },
    {
      "epoch": 0.4095,
      "grad_norm": 0.7836417555809021,
      "learning_rate": 0.00019319115314827697,
      "loss": 3.8013,
      "step": 196560
    },
    {
      "epoch": 0.40952083333333333,
      "grad_norm": 0.713878870010376,
      "learning_rate": 0.00019318171202871768,
      "loss": 3.8862,
      "step": 196570
    },
    {
      "epoch": 0.4095416666666667,
      "grad_norm": 0.7376633286476135,
      "learning_rate": 0.0001931722707226305,
      "loss": 3.9063,
      "step": 196580
    },
    {
      "epoch": 0.4095625,
      "grad_norm": 0.8247754573822021,
      "learning_rate": 0.00019316282923005626,
      "loss": 3.742,
      "step": 196590
    },
    {
      "epoch": 0.40958333333333335,
      "grad_norm": 0.8458096981048584,
      "learning_rate": 0.00019315338755103564,
      "loss": 3.7066,
      "step": 196600
    },
    {
      "epoch": 0.40960416666666666,
      "grad_norm": 0.7383536696434021,
      "learning_rate": 0.00019314394568560947,
      "loss": 3.8943,
      "step": 196610
    },
    {
      "epoch": 0.409625,
      "grad_norm": 0.8514387011528015,
      "learning_rate": 0.0001931345036338185,
      "loss": 3.8955,
      "step": 196620
    },
    {
      "epoch": 0.4096458333333333,
      "grad_norm": 0.7694833278656006,
      "learning_rate": 0.00019312506139570364,
      "loss": 3.8438,
      "step": 196630
    },
    {
      "epoch": 0.4096666666666667,
      "grad_norm": 0.853316068649292,
      "learning_rate": 0.0001931156189713055,
      "loss": 3.8204,
      "step": 196640
    },
    {
      "epoch": 0.4096875,
      "grad_norm": 0.8049718141555786,
      "learning_rate": 0.00019310617636066494,
      "loss": 3.919,
      "step": 196650
    },
    {
      "epoch": 0.40970833333333334,
      "grad_norm": 0.828270435333252,
      "learning_rate": 0.00019309673356382285,
      "loss": 3.6699,
      "step": 196660
    },
    {
      "epoch": 0.40972916666666664,
      "grad_norm": 0.7264667749404907,
      "learning_rate": 0.0001930872905808199,
      "loss": 3.7219,
      "step": 196670
    },
    {
      "epoch": 0.40975,
      "grad_norm": 0.6993845701217651,
      "learning_rate": 0.00019307784741169685,
      "loss": 3.7911,
      "step": 196680
    },
    {
      "epoch": 0.4097708333333333,
      "grad_norm": 1.033818006515503,
      "learning_rate": 0.00019306840405649463,
      "loss": 3.823,
      "step": 196690
    },
    {
      "epoch": 0.40979166666666667,
      "grad_norm": 0.6962341070175171,
      "learning_rate": 0.0001930589605152539,
      "loss": 3.8326,
      "step": 196700
    },
    {
      "epoch": 0.4098125,
      "grad_norm": 1.068023920059204,
      "learning_rate": 0.0001930495167880155,
      "loss": 3.9766,
      "step": 196710
    },
    {
      "epoch": 0.4098333333333333,
      "grad_norm": 0.9060520529747009,
      "learning_rate": 0.00019304007287482025,
      "loss": 3.7801,
      "step": 196720
    },
    {
      "epoch": 0.4098541666666667,
      "grad_norm": 0.7895438075065613,
      "learning_rate": 0.0001930306287757089,
      "loss": 3.6466,
      "step": 196730
    },
    {
      "epoch": 0.409875,
      "grad_norm": 0.7680937647819519,
      "learning_rate": 0.00019302118449072227,
      "loss": 3.7394,
      "step": 196740
    },
    {
      "epoch": 0.40989583333333335,
      "grad_norm": 0.7005990743637085,
      "learning_rate": 0.00019301174001990122,
      "loss": 3.9019,
      "step": 196750
    },
    {
      "epoch": 0.40991666666666665,
      "grad_norm": 0.8175268173217773,
      "learning_rate": 0.00019300229536328638,
      "loss": 3.8785,
      "step": 196760
    },
    {
      "epoch": 0.4099375,
      "grad_norm": 0.7782716155052185,
      "learning_rate": 0.00019299285052091868,
      "loss": 3.9,
      "step": 196770
    },
    {
      "epoch": 0.4099583333333333,
      "grad_norm": 0.6899203658103943,
      "learning_rate": 0.0001929834054928389,
      "loss": 3.891,
      "step": 196780
    },
    {
      "epoch": 0.4099791666666667,
      "grad_norm": 0.8213937878608704,
      "learning_rate": 0.0001929739602790878,
      "loss": 3.7703,
      "step": 196790
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7861363887786865,
      "learning_rate": 0.00019296451487970628,
      "loss": 3.8105,
      "step": 196800
    },
    {
      "epoch": 0.41002083333333333,
      "grad_norm": 0.7289984822273254,
      "learning_rate": 0.00019295506929473496,
      "loss": 3.6543,
      "step": 196810
    },
    {
      "epoch": 0.4100416666666667,
      "grad_norm": 0.8415738344192505,
      "learning_rate": 0.00019294562352421477,
      "loss": 3.7996,
      "step": 196820
    },
    {
      "epoch": 0.4100625,
      "grad_norm": 0.8995678424835205,
      "learning_rate": 0.00019293617756818652,
      "loss": 3.7634,
      "step": 196830
    },
    {
      "epoch": 0.41008333333333336,
      "grad_norm": 0.8917787671089172,
      "learning_rate": 0.00019292673142669097,
      "loss": 4.0123,
      "step": 196840
    },
    {
      "epoch": 0.41010416666666666,
      "grad_norm": 0.9058002233505249,
      "learning_rate": 0.0001929172850997689,
      "loss": 3.8965,
      "step": 196850
    },
    {
      "epoch": 0.410125,
      "grad_norm": 0.7478447556495667,
      "learning_rate": 0.00019290783858746116,
      "loss": 3.9822,
      "step": 196860
    },
    {
      "epoch": 0.4101458333333333,
      "grad_norm": 0.8400604724884033,
      "learning_rate": 0.00019289839188980855,
      "loss": 3.8517,
      "step": 196870
    },
    {
      "epoch": 0.4101666666666667,
      "grad_norm": 0.8265796303749084,
      "learning_rate": 0.00019288894500685188,
      "loss": 3.7717,
      "step": 196880
    },
    {
      "epoch": 0.4101875,
      "grad_norm": 0.8637480139732361,
      "learning_rate": 0.00019287949793863192,
      "loss": 3.7826,
      "step": 196890
    },
    {
      "epoch": 0.41020833333333334,
      "grad_norm": 0.8458834886550903,
      "learning_rate": 0.0001928700506851895,
      "loss": 3.8568,
      "step": 196900
    },
    {
      "epoch": 0.41022916666666664,
      "grad_norm": 0.7258951663970947,
      "learning_rate": 0.00019286060324656543,
      "loss": 3.9715,
      "step": 196910
    },
    {
      "epoch": 0.41025,
      "grad_norm": 0.815163791179657,
      "learning_rate": 0.00019285115562280052,
      "loss": 3.9223,
      "step": 196920
    },
    {
      "epoch": 0.4102708333333333,
      "grad_norm": 0.7858485579490662,
      "learning_rate": 0.0001928417078139356,
      "loss": 3.7848,
      "step": 196930
    },
    {
      "epoch": 0.41029166666666667,
      "grad_norm": 0.8914977312088013,
      "learning_rate": 0.0001928322598200115,
      "loss": 3.7822,
      "step": 196940
    },
    {
      "epoch": 0.4103125,
      "grad_norm": 1.0741389989852905,
      "learning_rate": 0.0001928228116410689,
      "loss": 3.8756,
      "step": 196950
    },
    {
      "epoch": 0.4103333333333333,
      "grad_norm": 0.8010746240615845,
      "learning_rate": 0.00019281336327714872,
      "loss": 3.974,
      "step": 196960
    },
    {
      "epoch": 0.4103541666666667,
      "grad_norm": 0.7707740664482117,
      "learning_rate": 0.0001928039147282918,
      "loss": 3.6932,
      "step": 196970
    },
    {
      "epoch": 0.410375,
      "grad_norm": 0.8480634093284607,
      "learning_rate": 0.00019279446599453892,
      "loss": 3.9518,
      "step": 196980
    },
    {
      "epoch": 0.41039583333333335,
      "grad_norm": 0.7622759342193604,
      "learning_rate": 0.00019278501707593082,
      "loss": 3.7568,
      "step": 196990
    },
    {
      "epoch": 0.41041666666666665,
      "grad_norm": 0.8322451114654541,
      "learning_rate": 0.00019277556797250842,
      "loss": 3.8765,
      "step": 197000
    },
    {
      "epoch": 0.41041666666666665,
      "eval_loss": 4.187324523925781,
      "eval_runtime": 9.2098,
      "eval_samples_per_second": 1.086,
      "eval_steps_per_second": 0.326,
      "step": 197000
    },
    {
      "epoch": 0.4104375,
      "grad_norm": 0.7611880898475647,
      "learning_rate": 0.00019276611868431252,
      "loss": 3.734,
      "step": 197010
    },
    {
      "epoch": 0.4104583333333333,
      "grad_norm": 0.8028674721717834,
      "learning_rate": 0.00019275666921138385,
      "loss": 3.9638,
      "step": 197020
    },
    {
      "epoch": 0.4104791666666667,
      "grad_norm": 0.7327185273170471,
      "learning_rate": 0.00019274721955376336,
      "loss": 3.9025,
      "step": 197030
    },
    {
      "epoch": 0.4105,
      "grad_norm": 0.8686451315879822,
      "learning_rate": 0.0001927377697114918,
      "loss": 3.6839,
      "step": 197040
    },
    {
      "epoch": 0.41052083333333333,
      "grad_norm": 0.7394421100616455,
      "learning_rate": 0.00019272831968460995,
      "loss": 3.7705,
      "step": 197050
    },
    {
      "epoch": 0.4105416666666667,
      "grad_norm": 0.7164220213890076,
      "learning_rate": 0.0001927188694731587,
      "loss": 3.9078,
      "step": 197060
    },
    {
      "epoch": 0.4105625,
      "grad_norm": 0.8325082659721375,
      "learning_rate": 0.00019270941907717883,
      "loss": 3.8882,
      "step": 197070
    },
    {
      "epoch": 0.41058333333333336,
      "grad_norm": 1.073930025100708,
      "learning_rate": 0.00019269996849671117,
      "loss": 3.8781,
      "step": 197080
    },
    {
      "epoch": 0.41060416666666666,
      "grad_norm": 0.7842992544174194,
      "learning_rate": 0.0001926905177317966,
      "loss": 3.8726,
      "step": 197090
    },
    {
      "epoch": 0.410625,
      "grad_norm": 0.7312692999839783,
      "learning_rate": 0.0001926810667824758,
      "loss": 3.8812,
      "step": 197100
    },
    {
      "epoch": 0.4106458333333333,
      "grad_norm": 0.9606465101242065,
      "learning_rate": 0.00019267161564878976,
      "loss": 3.8642,
      "step": 197110
    },
    {
      "epoch": 0.4106666666666667,
      "grad_norm": 0.8840891122817993,
      "learning_rate": 0.0001926621643307792,
      "loss": 3.687,
      "step": 197120
    },
    {
      "epoch": 0.4106875,
      "grad_norm": 0.8815714716911316,
      "learning_rate": 0.00019265271282848496,
      "loss": 3.7383,
      "step": 197130
    },
    {
      "epoch": 0.41070833333333334,
      "grad_norm": 0.865287721157074,
      "learning_rate": 0.00019264326114194796,
      "loss": 3.756,
      "step": 197140
    },
    {
      "epoch": 0.41072916666666665,
      "grad_norm": 1.143286108970642,
      "learning_rate": 0.00019263380927120885,
      "loss": 3.9409,
      "step": 197150
    },
    {
      "epoch": 0.41075,
      "grad_norm": 0.76991868019104,
      "learning_rate": 0.0001926243572163086,
      "loss": 3.7023,
      "step": 197160
    },
    {
      "epoch": 0.4107708333333333,
      "grad_norm": 0.7424185276031494,
      "learning_rate": 0.00019261490497728806,
      "loss": 3.8889,
      "step": 197170
    },
    {
      "epoch": 0.41079166666666667,
      "grad_norm": 0.7270592451095581,
      "learning_rate": 0.00019260545255418793,
      "loss": 3.9162,
      "step": 197180
    },
    {
      "epoch": 0.4108125,
      "grad_norm": 0.8122940063476562,
      "learning_rate": 0.0001925959999470491,
      "loss": 3.7621,
      "step": 197190
    },
    {
      "epoch": 0.41083333333333333,
      "grad_norm": 0.9724702835083008,
      "learning_rate": 0.00019258654715591247,
      "loss": 3.9989,
      "step": 197200
    },
    {
      "epoch": 0.4108541666666667,
      "grad_norm": 0.7069706916809082,
      "learning_rate": 0.00019257709418081878,
      "loss": 3.9114,
      "step": 197210
    },
    {
      "epoch": 0.410875,
      "grad_norm": 0.7780327200889587,
      "learning_rate": 0.00019256764102180892,
      "loss": 3.8671,
      "step": 197220
    },
    {
      "epoch": 0.41089583333333335,
      "grad_norm": 0.7714746594429016,
      "learning_rate": 0.00019255818767892365,
      "loss": 3.7553,
      "step": 197230
    },
    {
      "epoch": 0.41091666666666665,
      "grad_norm": 0.7649571299552917,
      "learning_rate": 0.0001925487341522039,
      "loss": 3.8528,
      "step": 197240
    },
    {
      "epoch": 0.4109375,
      "grad_norm": 0.9471218585968018,
      "learning_rate": 0.0001925392804416904,
      "loss": 3.8643,
      "step": 197250
    },
    {
      "epoch": 0.4109583333333333,
      "grad_norm": 0.8899046778678894,
      "learning_rate": 0.0001925298265474241,
      "loss": 3.7203,
      "step": 197260
    },
    {
      "epoch": 0.4109791666666667,
      "grad_norm": 0.7301168441772461,
      "learning_rate": 0.00019252037246944578,
      "loss": 3.8063,
      "step": 197270
    },
    {
      "epoch": 0.411,
      "grad_norm": 0.7848758697509766,
      "learning_rate": 0.00019251091820779627,
      "loss": 3.8318,
      "step": 197280
    },
    {
      "epoch": 0.41102083333333334,
      "grad_norm": 0.909532904624939,
      "learning_rate": 0.0001925014637625164,
      "loss": 3.9348,
      "step": 197290
    },
    {
      "epoch": 0.4110416666666667,
      "grad_norm": 0.7422389388084412,
      "learning_rate": 0.00019249200913364704,
      "loss": 3.8649,
      "step": 197300
    },
    {
      "epoch": 0.4110625,
      "grad_norm": 0.8058017492294312,
      "learning_rate": 0.0001924825543212291,
      "loss": 3.7245,
      "step": 197310
    },
    {
      "epoch": 0.41108333333333336,
      "grad_norm": 0.9159464240074158,
      "learning_rate": 0.00019247309932530324,
      "loss": 3.8174,
      "step": 197320
    },
    {
      "epoch": 0.41110416666666666,
      "grad_norm": 0.87320876121521,
      "learning_rate": 0.0001924636441459104,
      "loss": 3.9557,
      "step": 197330
    },
    {
      "epoch": 0.411125,
      "grad_norm": 0.7304991483688354,
      "learning_rate": 0.00019245418878309153,
      "loss": 3.7126,
      "step": 197340
    },
    {
      "epoch": 0.4111458333333333,
      "grad_norm": 0.846195638179779,
      "learning_rate": 0.00019244473323688728,
      "loss": 3.6899,
      "step": 197350
    },
    {
      "epoch": 0.4111666666666667,
      "grad_norm": 0.8150498270988464,
      "learning_rate": 0.00019243527750733858,
      "loss": 3.8108,
      "step": 197360
    },
    {
      "epoch": 0.4111875,
      "grad_norm": 0.844147801399231,
      "learning_rate": 0.00019242582159448632,
      "loss": 3.6726,
      "step": 197370
    },
    {
      "epoch": 0.41120833333333334,
      "grad_norm": 0.7238166928291321,
      "learning_rate": 0.00019241636549837128,
      "loss": 3.8941,
      "step": 197380
    },
    {
      "epoch": 0.41122916666666665,
      "grad_norm": 1.0068254470825195,
      "learning_rate": 0.00019240690921903435,
      "loss": 3.7568,
      "step": 197390
    },
    {
      "epoch": 0.41125,
      "grad_norm": 0.7944419384002686,
      "learning_rate": 0.00019239745275651633,
      "loss": 3.6797,
      "step": 197400
    },
    {
      "epoch": 0.4112708333333333,
      "grad_norm": 0.7730845212936401,
      "learning_rate": 0.00019238799611085813,
      "loss": 3.8773,
      "step": 197410
    },
    {
      "epoch": 0.41129166666666667,
      "grad_norm": 0.7365245819091797,
      "learning_rate": 0.00019237853928210055,
      "loss": 3.8896,
      "step": 197420
    },
    {
      "epoch": 0.4113125,
      "grad_norm": 0.7839947938919067,
      "learning_rate": 0.00019236908227028443,
      "loss": 3.9411,
      "step": 197430
    },
    {
      "epoch": 0.41133333333333333,
      "grad_norm": 0.7578887939453125,
      "learning_rate": 0.00019235962507545068,
      "loss": 3.8951,
      "step": 197440
    },
    {
      "epoch": 0.4113541666666667,
      "grad_norm": 0.9068253636360168,
      "learning_rate": 0.0001923501676976401,
      "loss": 3.9662,
      "step": 197450
    },
    {
      "epoch": 0.411375,
      "grad_norm": 0.7061856985092163,
      "learning_rate": 0.00019234071013689356,
      "loss": 3.811,
      "step": 197460
    },
    {
      "epoch": 0.41139583333333335,
      "grad_norm": 0.813827395439148,
      "learning_rate": 0.00019233125239325193,
      "loss": 3.9493,
      "step": 197470
    },
    {
      "epoch": 0.41141666666666665,
      "grad_norm": 0.7598470449447632,
      "learning_rate": 0.00019232179446675604,
      "loss": 3.8658,
      "step": 197480
    },
    {
      "epoch": 0.4114375,
      "grad_norm": 0.826676070690155,
      "learning_rate": 0.0001923123363574467,
      "loss": 3.84,
      "step": 197490
    },
    {
      "epoch": 0.4114583333333333,
      "grad_norm": 0.9417728781700134,
      "learning_rate": 0.00019230287806536487,
      "loss": 3.9189,
      "step": 197500
    },
    {
      "epoch": 0.4114791666666667,
      "grad_norm": 0.7494010329246521,
      "learning_rate": 0.0001922934195905514,
      "loss": 3.9703,
      "step": 197510
    },
    {
      "epoch": 0.4115,
      "grad_norm": 0.8154772520065308,
      "learning_rate": 0.000192283960933047,
      "loss": 3.7639,
      "step": 197520
    },
    {
      "epoch": 0.41152083333333334,
      "grad_norm": 0.6619553565979004,
      "learning_rate": 0.0001922745020928927,
      "loss": 3.8471,
      "step": 197530
    },
    {
      "epoch": 0.41154166666666664,
      "grad_norm": 0.6914084553718567,
      "learning_rate": 0.00019226504307012923,
      "loss": 3.8314,
      "step": 197540
    },
    {
      "epoch": 0.4115625,
      "grad_norm": 0.8775795102119446,
      "learning_rate": 0.0001922555838647975,
      "loss": 3.9452,
      "step": 197550
    },
    {
      "epoch": 0.41158333333333336,
      "grad_norm": 0.8323537111282349,
      "learning_rate": 0.0001922461244769384,
      "loss": 3.8763,
      "step": 197560
    },
    {
      "epoch": 0.41160416666666666,
      "grad_norm": 0.8818637728691101,
      "learning_rate": 0.00019223666490659276,
      "loss": 3.8172,
      "step": 197570
    },
    {
      "epoch": 0.411625,
      "grad_norm": 0.8004529476165771,
      "learning_rate": 0.00019222720515380142,
      "loss": 3.9788,
      "step": 197580
    },
    {
      "epoch": 0.4116458333333333,
      "grad_norm": 0.8396704196929932,
      "learning_rate": 0.0001922177452186053,
      "loss": 3.7739,
      "step": 197590
    },
    {
      "epoch": 0.4116666666666667,
      "grad_norm": 0.8366435766220093,
      "learning_rate": 0.00019220828510104523,
      "loss": 3.7885,
      "step": 197600
    },
    {
      "epoch": 0.4116875,
      "grad_norm": 0.7727640867233276,
      "learning_rate": 0.00019219882480116205,
      "loss": 4.0703,
      "step": 197610
    },
    {
      "epoch": 0.41170833333333334,
      "grad_norm": 0.8445546627044678,
      "learning_rate": 0.00019218936431899665,
      "loss": 3.6931,
      "step": 197620
    },
    {
      "epoch": 0.41172916666666665,
      "grad_norm": 0.8705610036849976,
      "learning_rate": 0.00019217990365458996,
      "loss": 3.8566,
      "step": 197630
    },
    {
      "epoch": 0.41175,
      "grad_norm": 0.6747676134109497,
      "learning_rate": 0.00019217044280798272,
      "loss": 3.7773,
      "step": 197640
    },
    {
      "epoch": 0.4117708333333333,
      "grad_norm": 0.839236855506897,
      "learning_rate": 0.00019216098177921587,
      "loss": 3.8284,
      "step": 197650
    },
    {
      "epoch": 0.41179166666666667,
      "grad_norm": 0.8019768595695496,
      "learning_rate": 0.00019215152056833025,
      "loss": 3.7986,
      "step": 197660
    },
    {
      "epoch": 0.4118125,
      "grad_norm": 0.7555156350135803,
      "learning_rate": 0.00019214205917536683,
      "loss": 3.8696,
      "step": 197670
    },
    {
      "epoch": 0.41183333333333333,
      "grad_norm": 0.748777449131012,
      "learning_rate": 0.00019213259760036632,
      "loss": 3.9251,
      "step": 197680
    },
    {
      "epoch": 0.4118541666666667,
      "grad_norm": 0.965246856212616,
      "learning_rate": 0.00019212313584336964,
      "loss": 3.8871,
      "step": 197690
    },
    {
      "epoch": 0.411875,
      "grad_norm": 1.0278199911117554,
      "learning_rate": 0.00019211367390441775,
      "loss": 3.7118,
      "step": 197700
    },
    {
      "epoch": 0.41189583333333335,
      "grad_norm": 0.9698978662490845,
      "learning_rate": 0.00019210421178355146,
      "loss": 3.8005,
      "step": 197710
    },
    {
      "epoch": 0.41191666666666665,
      "grad_norm": 0.8907871842384338,
      "learning_rate": 0.00019209474948081158,
      "loss": 3.9155,
      "step": 197720
    },
    {
      "epoch": 0.4119375,
      "grad_norm": 0.7313840985298157,
      "learning_rate": 0.00019208528699623913,
      "loss": 3.9347,
      "step": 197730
    },
    {
      "epoch": 0.4119583333333333,
      "grad_norm": 0.7666521668434143,
      "learning_rate": 0.00019207582432987483,
      "loss": 3.887,
      "step": 197740
    },
    {
      "epoch": 0.4119791666666667,
      "grad_norm": 0.7592928409576416,
      "learning_rate": 0.00019206636148175963,
      "loss": 3.8217,
      "step": 197750
    },
    {
      "epoch": 0.412,
      "grad_norm": 0.7270799875259399,
      "learning_rate": 0.00019205689845193442,
      "loss": 3.7547,
      "step": 197760
    },
    {
      "epoch": 0.41202083333333334,
      "grad_norm": 0.6950159668922424,
      "learning_rate": 0.00019204743524044006,
      "loss": 3.8723,
      "step": 197770
    },
    {
      "epoch": 0.41204166666666664,
      "grad_norm": 0.7233456373214722,
      "learning_rate": 0.00019203797184731743,
      "loss": 3.8901,
      "step": 197780
    },
    {
      "epoch": 0.4120625,
      "grad_norm": 0.7871737480163574,
      "learning_rate": 0.00019202850827260734,
      "loss": 3.8299,
      "step": 197790
    },
    {
      "epoch": 0.41208333333333336,
      "grad_norm": 0.7427458167076111,
      "learning_rate": 0.0001920190445163508,
      "loss": 3.9869,
      "step": 197800
    },
    {
      "epoch": 0.41210416666666666,
      "grad_norm": 0.7427359819412231,
      "learning_rate": 0.0001920095805785886,
      "loss": 3.9091,
      "step": 197810
    },
    {
      "epoch": 0.412125,
      "grad_norm": 0.7961561679840088,
      "learning_rate": 0.0001920001164593616,
      "loss": 3.7193,
      "step": 197820
    },
    {
      "epoch": 0.4121458333333333,
      "grad_norm": 0.8921899795532227,
      "learning_rate": 0.00019199065215871075,
      "loss": 3.8338,
      "step": 197830
    },
    {
      "epoch": 0.4121666666666667,
      "grad_norm": 0.7321494817733765,
      "learning_rate": 0.00019198118767667696,
      "loss": 3.9108,
      "step": 197840
    },
    {
      "epoch": 0.4121875,
      "grad_norm": 0.7810600996017456,
      "learning_rate": 0.00019197172301330099,
      "loss": 3.8189,
      "step": 197850
    },
    {
      "epoch": 0.41220833333333334,
      "grad_norm": 0.8440855145454407,
      "learning_rate": 0.00019196225816862377,
      "loss": 3.7329,
      "step": 197860
    },
    {
      "epoch": 0.41222916666666665,
      "grad_norm": 0.8095187544822693,
      "learning_rate": 0.0001919527931426863,
      "loss": 3.9139,
      "step": 197870
    },
    {
      "epoch": 0.41225,
      "grad_norm": 1.1607645750045776,
      "learning_rate": 0.00019194332793552932,
      "loss": 3.7815,
      "step": 197880
    },
    {
      "epoch": 0.4122708333333333,
      "grad_norm": 0.7050750255584717,
      "learning_rate": 0.00019193386254719372,
      "loss": 3.7371,
      "step": 197890
    },
    {
      "epoch": 0.41229166666666667,
      "grad_norm": 0.8275094628334045,
      "learning_rate": 0.00019192439697772047,
      "loss": 3.9375,
      "step": 197900
    },
    {
      "epoch": 0.4123125,
      "grad_norm": 0.8781713843345642,
      "learning_rate": 0.00019191493122715044,
      "loss": 3.9554,
      "step": 197910
    },
    {
      "epoch": 0.41233333333333333,
      "grad_norm": 0.6997883319854736,
      "learning_rate": 0.00019190546529552447,
      "loss": 3.9694,
      "step": 197920
    },
    {
      "epoch": 0.4123541666666667,
      "grad_norm": 0.7981106638908386,
      "learning_rate": 0.00019189599918288346,
      "loss": 3.8999,
      "step": 197930
    },
    {
      "epoch": 0.412375,
      "grad_norm": 0.6971291899681091,
      "learning_rate": 0.00019188653288926836,
      "loss": 3.9387,
      "step": 197940
    },
    {
      "epoch": 0.41239583333333335,
      "grad_norm": 0.8596797585487366,
      "learning_rate": 0.00019187706641472002,
      "loss": 3.7386,
      "step": 197950
    },
    {
      "epoch": 0.41241666666666665,
      "grad_norm": 0.6909546256065369,
      "learning_rate": 0.0001918675997592793,
      "loss": 3.8711,
      "step": 197960
    },
    {
      "epoch": 0.4124375,
      "grad_norm": 0.8590965270996094,
      "learning_rate": 0.00019185813292298712,
      "loss": 3.8043,
      "step": 197970
    },
    {
      "epoch": 0.4124583333333333,
      "grad_norm": 0.8344891667366028,
      "learning_rate": 0.00019184866590588439,
      "loss": 3.7423,
      "step": 197980
    },
    {
      "epoch": 0.4124791666666667,
      "grad_norm": 0.9500018358230591,
      "learning_rate": 0.00019183919870801195,
      "loss": 3.8068,
      "step": 197990
    },
    {
      "epoch": 0.4125,
      "grad_norm": 0.9846110939979553,
      "learning_rate": 0.0001918297313294108,
      "loss": 3.8115,
      "step": 198000
    },
    {
      "epoch": 0.4125,
      "eval_loss": 4.179347038269043,
      "eval_runtime": 8.7551,
      "eval_samples_per_second": 1.142,
      "eval_steps_per_second": 0.343,
      "step": 198000
    },
    {
      "epoch": 0.41252083333333334,
      "grad_norm": 0.7386255860328674,
      "learning_rate": 0.00019182026377012176,
      "loss": 3.6731,
      "step": 198010
    },
    {
      "epoch": 0.41254166666666664,
      "grad_norm": 0.7751163244247437,
      "learning_rate": 0.00019181079603018564,
      "loss": 3.9464,
      "step": 198020
    },
    {
      "epoch": 0.4125625,
      "grad_norm": 0.7530432939529419,
      "learning_rate": 0.0001918013281096435,
      "loss": 3.8649,
      "step": 198030
    },
    {
      "epoch": 0.41258333333333336,
      "grad_norm": 0.7790982723236084,
      "learning_rate": 0.0001917918600085362,
      "loss": 4.0025,
      "step": 198040
    },
    {
      "epoch": 0.41260416666666666,
      "grad_norm": 0.7529014945030212,
      "learning_rate": 0.00019178239172690456,
      "loss": 3.9555,
      "step": 198050
    },
    {
      "epoch": 0.412625,
      "grad_norm": 0.8194721341133118,
      "learning_rate": 0.00019177292326478954,
      "loss": 3.8302,
      "step": 198060
    },
    {
      "epoch": 0.4126458333333333,
      "grad_norm": 0.9043498635292053,
      "learning_rate": 0.00019176345462223207,
      "loss": 3.8933,
      "step": 198070
    },
    {
      "epoch": 0.4126666666666667,
      "grad_norm": 0.8091381192207336,
      "learning_rate": 0.00019175398579927293,
      "loss": 3.9167,
      "step": 198080
    },
    {
      "epoch": 0.4126875,
      "grad_norm": 0.9613039493560791,
      "learning_rate": 0.0001917445167959531,
      "loss": 3.6718,
      "step": 198090
    },
    {
      "epoch": 0.41270833333333334,
      "grad_norm": 0.9455298781394958,
      "learning_rate": 0.00019173504761231354,
      "loss": 3.7893,
      "step": 198100
    },
    {
      "epoch": 0.41272916666666665,
      "grad_norm": 0.7394232153892517,
      "learning_rate": 0.0001917255782483951,
      "loss": 3.693,
      "step": 198110
    },
    {
      "epoch": 0.41275,
      "grad_norm": 1.1574231386184692,
      "learning_rate": 0.00019171610870423862,
      "loss": 3.6298,
      "step": 198120
    },
    {
      "epoch": 0.4127708333333333,
      "grad_norm": 0.8228248953819275,
      "learning_rate": 0.0001917066389798851,
      "loss": 3.7176,
      "step": 198130
    },
    {
      "epoch": 0.41279166666666667,
      "grad_norm": 0.8279806971549988,
      "learning_rate": 0.0001916971690753754,
      "loss": 4.1314,
      "step": 198140
    },
    {
      "epoch": 0.4128125,
      "grad_norm": 0.8155431151390076,
      "learning_rate": 0.0001916876989907504,
      "loss": 3.6224,
      "step": 198150
    },
    {
      "epoch": 0.41283333333333333,
      "grad_norm": 0.7345408201217651,
      "learning_rate": 0.00019167822872605107,
      "loss": 4.0066,
      "step": 198160
    },
    {
      "epoch": 0.4128541666666667,
      "grad_norm": 0.9234373569488525,
      "learning_rate": 0.0001916687582813183,
      "loss": 3.8524,
      "step": 198170
    },
    {
      "epoch": 0.412875,
      "grad_norm": 0.7900898456573486,
      "learning_rate": 0.000191659287656593,
      "loss": 3.7339,
      "step": 198180
    },
    {
      "epoch": 0.41289583333333335,
      "grad_norm": 0.8716259598731995,
      "learning_rate": 0.00019164981685191603,
      "loss": 3.8117,
      "step": 198190
    },
    {
      "epoch": 0.41291666666666665,
      "grad_norm": 0.8282591700553894,
      "learning_rate": 0.00019164034586732838,
      "loss": 3.9684,
      "step": 198200
    },
    {
      "epoch": 0.4129375,
      "grad_norm": 0.8356197476387024,
      "learning_rate": 0.0001916308747028709,
      "loss": 3.7781,
      "step": 198210
    },
    {
      "epoch": 0.4129583333333333,
      "grad_norm": 0.8009997606277466,
      "learning_rate": 0.00019162140335858446,
      "loss": 3.9784,
      "step": 198220
    },
    {
      "epoch": 0.4129791666666667,
      "grad_norm": 0.8115017414093018,
      "learning_rate": 0.00019161193183451009,
      "loss": 3.7552,
      "step": 198230
    },
    {
      "epoch": 0.413,
      "grad_norm": 0.7466937899589539,
      "learning_rate": 0.0001916024601306887,
      "loss": 3.7328,
      "step": 198240
    },
    {
      "epoch": 0.41302083333333334,
      "grad_norm": 0.7551008462905884,
      "learning_rate": 0.00019159298824716106,
      "loss": 3.791,
      "step": 198250
    },
    {
      "epoch": 0.41304166666666664,
      "grad_norm": 0.7939113974571228,
      "learning_rate": 0.00019158351618396823,
      "loss": 3.8332,
      "step": 198260
    },
    {
      "epoch": 0.4130625,
      "grad_norm": 0.7759754061698914,
      "learning_rate": 0.000191574043941151,
      "loss": 3.7339,
      "step": 198270
    },
    {
      "epoch": 0.41308333333333336,
      "grad_norm": 0.7967934012413025,
      "learning_rate": 0.00019156457151875043,
      "loss": 3.8512,
      "step": 198280
    },
    {
      "epoch": 0.41310416666666666,
      "grad_norm": 0.754275381565094,
      "learning_rate": 0.00019155509891680733,
      "loss": 3.7918,
      "step": 198290
    },
    {
      "epoch": 0.413125,
      "grad_norm": 0.6219320297241211,
      "learning_rate": 0.00019154562613536266,
      "loss": 3.789,
      "step": 198300
    },
    {
      "epoch": 0.4131458333333333,
      "grad_norm": 0.8237580060958862,
      "learning_rate": 0.00019153615317445732,
      "loss": 3.8097,
      "step": 198310
    },
    {
      "epoch": 0.4131666666666667,
      "grad_norm": 0.8411357998847961,
      "learning_rate": 0.00019152668003413225,
      "loss": 3.9184,
      "step": 198320
    },
    {
      "epoch": 0.4131875,
      "grad_norm": 0.7279715538024902,
      "learning_rate": 0.00019151720671442836,
      "loss": 4.0715,
      "step": 198330
    },
    {
      "epoch": 0.41320833333333334,
      "grad_norm": 0.7586517333984375,
      "learning_rate": 0.00019150773321538657,
      "loss": 3.6677,
      "step": 198340
    },
    {
      "epoch": 0.41322916666666665,
      "grad_norm": 0.7961942553520203,
      "learning_rate": 0.00019149825953704782,
      "loss": 3.8742,
      "step": 198350
    },
    {
      "epoch": 0.41325,
      "grad_norm": 1.0230562686920166,
      "learning_rate": 0.00019148878567945297,
      "loss": 3.8938,
      "step": 198360
    },
    {
      "epoch": 0.4132708333333333,
      "grad_norm": 0.8926021456718445,
      "learning_rate": 0.000191479311642643,
      "loss": 3.8602,
      "step": 198370
    },
    {
      "epoch": 0.41329166666666667,
      "grad_norm": 0.7439395189285278,
      "learning_rate": 0.00019146983742665885,
      "loss": 3.7997,
      "step": 198380
    },
    {
      "epoch": 0.4133125,
      "grad_norm": 0.7783722877502441,
      "learning_rate": 0.00019146036303154137,
      "loss": 3.7298,
      "step": 198390
    },
    {
      "epoch": 0.41333333333333333,
      "grad_norm": 0.7356916666030884,
      "learning_rate": 0.0001914508884573316,
      "loss": 3.8134,
      "step": 198400
    },
    {
      "epoch": 0.4133541666666667,
      "grad_norm": 0.809155285358429,
      "learning_rate": 0.00019144141370407036,
      "loss": 3.8559,
      "step": 198410
    },
    {
      "epoch": 0.413375,
      "grad_norm": 0.8309485912322998,
      "learning_rate": 0.00019143193877179862,
      "loss": 3.9171,
      "step": 198420
    },
    {
      "epoch": 0.41339583333333335,
      "grad_norm": 0.835631251335144,
      "learning_rate": 0.0001914224636605573,
      "loss": 3.7052,
      "step": 198430
    },
    {
      "epoch": 0.41341666666666665,
      "grad_norm": 0.795270562171936,
      "learning_rate": 0.00019141298837038734,
      "loss": 3.7865,
      "step": 198440
    },
    {
      "epoch": 0.4134375,
      "grad_norm": 0.7851257920265198,
      "learning_rate": 0.00019140351290132965,
      "loss": 3.9523,
      "step": 198450
    },
    {
      "epoch": 0.4134583333333333,
      "grad_norm": 0.7136538028717041,
      "learning_rate": 0.0001913940372534252,
      "loss": 3.7683,
      "step": 198460
    },
    {
      "epoch": 0.4134791666666667,
      "grad_norm": 0.8994428515434265,
      "learning_rate": 0.00019138456142671486,
      "loss": 3.8863,
      "step": 198470
    },
    {
      "epoch": 0.4135,
      "grad_norm": 0.8952925205230713,
      "learning_rate": 0.0001913750854212396,
      "loss": 3.7884,
      "step": 198480
    },
    {
      "epoch": 0.41352083333333334,
      "grad_norm": 0.743414044380188,
      "learning_rate": 0.00019136560923704038,
      "loss": 4.0244,
      "step": 198490
    },
    {
      "epoch": 0.41354166666666664,
      "grad_norm": 0.8370794653892517,
      "learning_rate": 0.00019135613287415808,
      "loss": 3.8214,
      "step": 198500
    },
    {
      "epoch": 0.4135625,
      "grad_norm": 0.7573451399803162,
      "learning_rate": 0.00019134665633263365,
      "loss": 3.7444,
      "step": 198510
    },
    {
      "epoch": 0.41358333333333336,
      "grad_norm": 0.8078216910362244,
      "learning_rate": 0.00019133717961250803,
      "loss": 3.7993,
      "step": 198520
    },
    {
      "epoch": 0.41360416666666666,
      "grad_norm": 0.8079633116722107,
      "learning_rate": 0.00019132770271382217,
      "loss": 3.7968,
      "step": 198530
    },
    {
      "epoch": 0.413625,
      "grad_norm": 0.8114941120147705,
      "learning_rate": 0.00019131822563661698,
      "loss": 3.8027,
      "step": 198540
    },
    {
      "epoch": 0.4136458333333333,
      "grad_norm": 0.7553297281265259,
      "learning_rate": 0.00019130874838093343,
      "loss": 3.9017,
      "step": 198550
    },
    {
      "epoch": 0.4136666666666667,
      "grad_norm": 0.7746846079826355,
      "learning_rate": 0.0001912992709468124,
      "loss": 3.8274,
      "step": 198560
    },
    {
      "epoch": 0.4136875,
      "grad_norm": 0.8298183083534241,
      "learning_rate": 0.00019128979333429496,
      "loss": 3.7511,
      "step": 198570
    },
    {
      "epoch": 0.41370833333333334,
      "grad_norm": 0.7616881132125854,
      "learning_rate": 0.00019128031554342185,
      "loss": 3.9803,
      "step": 198580
    },
    {
      "epoch": 0.41372916666666665,
      "grad_norm": 0.70205157995224,
      "learning_rate": 0.00019127083757423415,
      "loss": 3.7173,
      "step": 198590
    },
    {
      "epoch": 0.41375,
      "grad_norm": 0.7722429037094116,
      "learning_rate": 0.0001912613594267728,
      "loss": 3.6835,
      "step": 198600
    },
    {
      "epoch": 0.4137708333333333,
      "grad_norm": 0.7739621996879578,
      "learning_rate": 0.00019125188110107868,
      "loss": 3.8872,
      "step": 198610
    },
    {
      "epoch": 0.41379166666666667,
      "grad_norm": 0.8723918199539185,
      "learning_rate": 0.00019124240259719278,
      "loss": 3.8614,
      "step": 198620
    },
    {
      "epoch": 0.4138125,
      "grad_norm": 2.365004301071167,
      "learning_rate": 0.000191232923915156,
      "loss": 4.0527,
      "step": 198630
    },
    {
      "epoch": 0.41383333333333333,
      "grad_norm": 0.8172308802604675,
      "learning_rate": 0.0001912234450550093,
      "loss": 3.719,
      "step": 198640
    },
    {
      "epoch": 0.4138541666666667,
      "grad_norm": 0.7569607496261597,
      "learning_rate": 0.00019121396601679368,
      "loss": 3.7849,
      "step": 198650
    },
    {
      "epoch": 0.413875,
      "grad_norm": 0.7671511769294739,
      "learning_rate": 0.00019120448680055,
      "loss": 3.8199,
      "step": 198660
    },
    {
      "epoch": 0.41389583333333335,
      "grad_norm": 0.7994363307952881,
      "learning_rate": 0.00019119500740631928,
      "loss": 3.8616,
      "step": 198670
    },
    {
      "epoch": 0.41391666666666665,
      "grad_norm": 1.0068621635437012,
      "learning_rate": 0.0001911855278341424,
      "loss": 3.7902,
      "step": 198680
    },
    {
      "epoch": 0.4139375,
      "grad_norm": 0.713026225566864,
      "learning_rate": 0.00019117604808406035,
      "loss": 3.6569,
      "step": 198690
    },
    {
      "epoch": 0.4139583333333333,
      "grad_norm": 0.7590259909629822,
      "learning_rate": 0.0001911665681561141,
      "loss": 3.8427,
      "step": 198700
    },
    {
      "epoch": 0.4139791666666667,
      "grad_norm": 0.6807935833930969,
      "learning_rate": 0.00019115708805034456,
      "loss": 3.8887,
      "step": 198710
    },
    {
      "epoch": 0.414,
      "grad_norm": 0.744163990020752,
      "learning_rate": 0.00019114760776679267,
      "loss": 3.8077,
      "step": 198720
    },
    {
      "epoch": 0.41402083333333334,
      "grad_norm": 1.0975089073181152,
      "learning_rate": 0.0001911381273054994,
      "loss": 4.0175,
      "step": 198730
    },
    {
      "epoch": 0.41404166666666664,
      "grad_norm": 0.8291214108467102,
      "learning_rate": 0.00019112864666650573,
      "loss": 3.9745,
      "step": 198740
    },
    {
      "epoch": 0.4140625,
      "grad_norm": 1.5781528949737549,
      "learning_rate": 0.0001911191658498526,
      "loss": 3.7831,
      "step": 198750
    },
    {
      "epoch": 0.41408333333333336,
      "grad_norm": 0.7879693508148193,
      "learning_rate": 0.0001911096848555809,
      "loss": 3.8194,
      "step": 198760
    },
    {
      "epoch": 0.41410416666666666,
      "grad_norm": 0.7140738368034363,
      "learning_rate": 0.00019110020368373167,
      "loss": 3.7598,
      "step": 198770
    },
    {
      "epoch": 0.414125,
      "grad_norm": 0.7697778940200806,
      "learning_rate": 0.00019109072233434584,
      "loss": 3.7566,
      "step": 198780
    },
    {
      "epoch": 0.4141458333333333,
      "grad_norm": 0.8523765802383423,
      "learning_rate": 0.0001910812408074643,
      "loss": 3.6077,
      "step": 198790
    },
    {
      "epoch": 0.4141666666666667,
      "grad_norm": 0.723342776298523,
      "learning_rate": 0.00019107175910312808,
      "loss": 3.8768,
      "step": 198800
    },
    {
      "epoch": 0.4141875,
      "grad_norm": 1.075643539428711,
      "learning_rate": 0.00019106227722137816,
      "loss": 3.9847,
      "step": 198810
    },
    {
      "epoch": 0.41420833333333335,
      "grad_norm": 0.7704694867134094,
      "learning_rate": 0.00019105279516225542,
      "loss": 3.9955,
      "step": 198820
    },
    {
      "epoch": 0.41422916666666665,
      "grad_norm": 0.6968965530395508,
      "learning_rate": 0.00019104331292580084,
      "loss": 4.0033,
      "step": 198830
    },
    {
      "epoch": 0.41425,
      "grad_norm": 0.7532533407211304,
      "learning_rate": 0.0001910338305120554,
      "loss": 3.9577,
      "step": 198840
    },
    {
      "epoch": 0.4142708333333333,
      "grad_norm": 0.6429358720779419,
      "learning_rate": 0.0001910243479210601,
      "loss": 3.8132,
      "step": 198850
    },
    {
      "epoch": 0.41429166666666667,
      "grad_norm": 0.6919031739234924,
      "learning_rate": 0.0001910148651528558,
      "loss": 3.7023,
      "step": 198860
    },
    {
      "epoch": 0.4143125,
      "grad_norm": 0.8179826736450195,
      "learning_rate": 0.00019100538220748355,
      "loss": 3.9273,
      "step": 198870
    },
    {
      "epoch": 0.41433333333333333,
      "grad_norm": 0.8286969661712646,
      "learning_rate": 0.0001909958990849843,
      "loss": 3.8759,
      "step": 198880
    },
    {
      "epoch": 0.4143541666666667,
      "grad_norm": 0.8045631051063538,
      "learning_rate": 0.00019098641578539895,
      "loss": 3.8343,
      "step": 198890
    },
    {
      "epoch": 0.414375,
      "grad_norm": 0.8925571441650391,
      "learning_rate": 0.0001909769323087685,
      "loss": 3.9202,
      "step": 198900
    },
    {
      "epoch": 0.41439583333333335,
      "grad_norm": 1.097497582435608,
      "learning_rate": 0.000190967448655134,
      "loss": 3.821,
      "step": 198910
    },
    {
      "epoch": 0.41441666666666666,
      "grad_norm": 0.6804782748222351,
      "learning_rate": 0.00019095796482453625,
      "loss": 3.971,
      "step": 198920
    },
    {
      "epoch": 0.4144375,
      "grad_norm": 0.8191559314727783,
      "learning_rate": 0.00019094848081701633,
      "loss": 3.7938,
      "step": 198930
    },
    {
      "epoch": 0.4144583333333333,
      "grad_norm": 0.8288017511367798,
      "learning_rate": 0.0001909389966326152,
      "loss": 3.7698,
      "step": 198940
    },
    {
      "epoch": 0.4144791666666667,
      "grad_norm": 0.8324046730995178,
      "learning_rate": 0.00019092951227137379,
      "loss": 3.7211,
      "step": 198950
    },
    {
      "epoch": 0.4145,
      "grad_norm": 0.8604570627212524,
      "learning_rate": 0.00019092002773333307,
      "loss": 3.9088,
      "step": 198960
    },
    {
      "epoch": 0.41452083333333334,
      "grad_norm": 0.8147269487380981,
      "learning_rate": 0.00019091054301853408,
      "loss": 3.7533,
      "step": 198970
    },
    {
      "epoch": 0.41454166666666664,
      "grad_norm": 0.7927502393722534,
      "learning_rate": 0.0001909010581270177,
      "loss": 3.8469,
      "step": 198980
    },
    {
      "epoch": 0.4145625,
      "grad_norm": 0.6908013820648193,
      "learning_rate": 0.00019089157305882495,
      "loss": 3.9193,
      "step": 198990
    },
    {
      "epoch": 0.41458333333333336,
      "grad_norm": 0.8029571175575256,
      "learning_rate": 0.0001908820878139968,
      "loss": 3.7874,
      "step": 199000
    },
    {
      "epoch": 0.41458333333333336,
      "eval_loss": 4.172617435455322,
      "eval_runtime": 9.6817,
      "eval_samples_per_second": 1.033,
      "eval_steps_per_second": 0.31,
      "step": 199000
    },
    {
      "epoch": 0.41460416666666666,
      "grad_norm": 0.9240431785583496,
      "learning_rate": 0.0001908726023925742,
      "loss": 3.9556,
      "step": 199010
    },
    {
      "epoch": 0.414625,
      "grad_norm": 0.8244194984436035,
      "learning_rate": 0.00019086311679459813,
      "loss": 3.9807,
      "step": 199020
    },
    {
      "epoch": 0.4146458333333333,
      "grad_norm": 0.881938636302948,
      "learning_rate": 0.0001908536310201096,
      "loss": 3.8278,
      "step": 199030
    },
    {
      "epoch": 0.4146666666666667,
      "grad_norm": 0.7881781458854675,
      "learning_rate": 0.00019084414506914953,
      "loss": 3.9413,
      "step": 199040
    },
    {
      "epoch": 0.4146875,
      "grad_norm": 1.0713762044906616,
      "learning_rate": 0.00019083465894175893,
      "loss": 3.8721,
      "step": 199050
    },
    {
      "epoch": 0.41470833333333335,
      "grad_norm": 0.712416410446167,
      "learning_rate": 0.00019082517263797872,
      "loss": 3.812,
      "step": 199060
    },
    {
      "epoch": 0.41472916666666665,
      "grad_norm": 0.7208976745605469,
      "learning_rate": 0.00019081568615785,
      "loss": 3.8806,
      "step": 199070
    },
    {
      "epoch": 0.41475,
      "grad_norm": 0.7111936807632446,
      "learning_rate": 0.00019080619950141364,
      "loss": 3.8666,
      "step": 199080
    },
    {
      "epoch": 0.4147708333333333,
      "grad_norm": 0.706294059753418,
      "learning_rate": 0.00019079671266871063,
      "loss": 3.9394,
      "step": 199090
    },
    {
      "epoch": 0.41479166666666667,
      "grad_norm": 0.8063806891441345,
      "learning_rate": 0.000190787225659782,
      "loss": 3.7449,
      "step": 199100
    },
    {
      "epoch": 0.4148125,
      "grad_norm": 0.7819275856018066,
      "learning_rate": 0.0001907777384746687,
      "loss": 3.8387,
      "step": 199110
    },
    {
      "epoch": 0.41483333333333333,
      "grad_norm": 0.7486871480941772,
      "learning_rate": 0.00019076825111341168,
      "loss": 3.8371,
      "step": 199120
    },
    {
      "epoch": 0.4148541666666667,
      "grad_norm": 0.9704729318618774,
      "learning_rate": 0.00019075876357605193,
      "loss": 3.9489,
      "step": 199130
    },
    {
      "epoch": 0.414875,
      "grad_norm": 0.7374415993690491,
      "learning_rate": 0.00019074927586263055,
      "loss": 4.0115,
      "step": 199140
    },
    {
      "epoch": 0.41489583333333335,
      "grad_norm": 0.7689446806907654,
      "learning_rate": 0.00019073978797318834,
      "loss": 3.8715,
      "step": 199150
    },
    {
      "epoch": 0.41491666666666666,
      "grad_norm": 0.7769610285758972,
      "learning_rate": 0.0001907302999077664,
      "loss": 3.8676,
      "step": 199160
    },
    {
      "epoch": 0.4149375,
      "grad_norm": 0.715311586856842,
      "learning_rate": 0.0001907208116664057,
      "loss": 3.6972,
      "step": 199170
    },
    {
      "epoch": 0.4149583333333333,
      "grad_norm": 1.0134958028793335,
      "learning_rate": 0.00019071132324914721,
      "loss": 3.8539,
      "step": 199180
    },
    {
      "epoch": 0.4149791666666667,
      "grad_norm": 0.8009616136550903,
      "learning_rate": 0.00019070183465603191,
      "loss": 3.681,
      "step": 199190
    },
    {
      "epoch": 0.415,
      "grad_norm": 1.0174041986465454,
      "learning_rate": 0.00019069234588710082,
      "loss": 3.7622,
      "step": 199200
    },
    {
      "epoch": 0.41502083333333334,
      "grad_norm": 1.482805848121643,
      "learning_rate": 0.00019068285694239485,
      "loss": 3.7307,
      "step": 199210
    },
    {
      "epoch": 0.41504166666666664,
      "grad_norm": 0.9934275150299072,
      "learning_rate": 0.00019067336782195509,
      "loss": 3.9773,
      "step": 199220
    },
    {
      "epoch": 0.4150625,
      "grad_norm": 0.9077218770980835,
      "learning_rate": 0.00019066387852582244,
      "loss": 3.7589,
      "step": 199230
    },
    {
      "epoch": 0.41508333333333336,
      "grad_norm": 0.8894057273864746,
      "learning_rate": 0.00019065438905403794,
      "loss": 3.6867,
      "step": 199240
    },
    {
      "epoch": 0.41510416666666666,
      "grad_norm": 0.7307252287864685,
      "learning_rate": 0.00019064489940664263,
      "loss": 3.7882,
      "step": 199250
    },
    {
      "epoch": 0.415125,
      "grad_norm": 0.8393940925598145,
      "learning_rate": 0.00019063540958367737,
      "loss": 3.8931,
      "step": 199260
    },
    {
      "epoch": 0.4151458333333333,
      "grad_norm": 0.7720737457275391,
      "learning_rate": 0.00019062591958518324,
      "loss": 3.7719,
      "step": 199270
    },
    {
      "epoch": 0.4151666666666667,
      "grad_norm": 0.8691018223762512,
      "learning_rate": 0.00019061642941120126,
      "loss": 3.8017,
      "step": 199280
    },
    {
      "epoch": 0.4151875,
      "grad_norm": 1.0695326328277588,
      "learning_rate": 0.00019060693906177236,
      "loss": 3.754,
      "step": 199290
    },
    {
      "epoch": 0.41520833333333335,
      "grad_norm": 0.8423741459846497,
      "learning_rate": 0.00019059744853693755,
      "loss": 3.7326,
      "step": 199300
    },
    {
      "epoch": 0.41522916666666665,
      "grad_norm": 0.7648728489875793,
      "learning_rate": 0.0001905879578367378,
      "loss": 3.9296,
      "step": 199310
    },
    {
      "epoch": 0.41525,
      "grad_norm": 0.8706427216529846,
      "learning_rate": 0.0001905784669612142,
      "loss": 3.9683,
      "step": 199320
    },
    {
      "epoch": 0.4152708333333333,
      "grad_norm": 0.9632470011711121,
      "learning_rate": 0.00019056897591040764,
      "loss": 3.7706,
      "step": 199330
    },
    {
      "epoch": 0.41529166666666667,
      "grad_norm": 0.7096273303031921,
      "learning_rate": 0.0001905594846843592,
      "loss": 3.9544,
      "step": 199340
    },
    {
      "epoch": 0.4153125,
      "grad_norm": 0.7309845685958862,
      "learning_rate": 0.0001905499932831098,
      "loss": 4.0164,
      "step": 199350
    },
    {
      "epoch": 0.41533333333333333,
      "grad_norm": 0.715699315071106,
      "learning_rate": 0.0001905405017067005,
      "loss": 3.7628,
      "step": 199360
    },
    {
      "epoch": 0.4153541666666667,
      "grad_norm": 0.8910897970199585,
      "learning_rate": 0.0001905310099551723,
      "loss": 3.6819,
      "step": 199370
    },
    {
      "epoch": 0.415375,
      "grad_norm": 0.9702208042144775,
      "learning_rate": 0.0001905215180285661,
      "loss": 3.8045,
      "step": 199380
    },
    {
      "epoch": 0.41539583333333335,
      "grad_norm": 0.85726398229599,
      "learning_rate": 0.00019051202592692304,
      "loss": 3.9932,
      "step": 199390
    },
    {
      "epoch": 0.41541666666666666,
      "grad_norm": 0.850956916809082,
      "learning_rate": 0.00019050253365028406,
      "loss": 3.9068,
      "step": 199400
    },
    {
      "epoch": 0.4154375,
      "grad_norm": 0.8499026298522949,
      "learning_rate": 0.00019049304119869018,
      "loss": 3.9513,
      "step": 199410
    },
    {
      "epoch": 0.4154583333333333,
      "grad_norm": 0.7932860851287842,
      "learning_rate": 0.00019048354857218242,
      "loss": 3.7989,
      "step": 199420
    },
    {
      "epoch": 0.4154791666666667,
      "grad_norm": 0.826318085193634,
      "learning_rate": 0.00019047405577080165,
      "loss": 3.7804,
      "step": 199430
    },
    {
      "epoch": 0.4155,
      "grad_norm": 0.7504119873046875,
      "learning_rate": 0.0001904645627945891,
      "loss": 3.8296,
      "step": 199440
    },
    {
      "epoch": 0.41552083333333334,
      "grad_norm": 0.8166970610618591,
      "learning_rate": 0.0001904550696435856,
      "loss": 3.8083,
      "step": 199450
    },
    {
      "epoch": 0.41554166666666664,
      "grad_norm": 0.9541258215904236,
      "learning_rate": 0.00019044557631783216,
      "loss": 3.7528,
      "step": 199460
    },
    {
      "epoch": 0.4155625,
      "grad_norm": 0.7658985257148743,
      "learning_rate": 0.00019043608281736992,
      "loss": 3.8628,
      "step": 199470
    },
    {
      "epoch": 0.41558333333333336,
      "grad_norm": 0.8802781105041504,
      "learning_rate": 0.0001904265891422398,
      "loss": 3.965,
      "step": 199480
    },
    {
      "epoch": 0.41560416666666666,
      "grad_norm": 1.0288701057434082,
      "learning_rate": 0.00019041709529248277,
      "loss": 3.8484,
      "step": 199490
    },
    {
      "epoch": 0.415625,
      "grad_norm": 0.7604876160621643,
      "learning_rate": 0.00019040760126813993,
      "loss": 4.1488,
      "step": 199500
    },
    {
      "epoch": 0.4156458333333333,
      "grad_norm": 0.7074591517448425,
      "learning_rate": 0.00019039810706925222,
      "loss": 3.9581,
      "step": 199510
    },
    {
      "epoch": 0.4156666666666667,
      "grad_norm": 0.8093685507774353,
      "learning_rate": 0.0001903886126958607,
      "loss": 4.0144,
      "step": 199520
    },
    {
      "epoch": 0.4156875,
      "grad_norm": 0.8286947011947632,
      "learning_rate": 0.00019037911814800634,
      "loss": 3.9104,
      "step": 199530
    },
    {
      "epoch": 0.41570833333333335,
      "grad_norm": 0.7020241618156433,
      "learning_rate": 0.00019036962342573017,
      "loss": 3.8078,
      "step": 199540
    },
    {
      "epoch": 0.41572916666666665,
      "grad_norm": 0.7869219183921814,
      "learning_rate": 0.00019036012852907322,
      "loss": 3.9217,
      "step": 199550
    },
    {
      "epoch": 0.41575,
      "grad_norm": 0.7693302035331726,
      "learning_rate": 0.00019035063345807646,
      "loss": 3.7542,
      "step": 199560
    },
    {
      "epoch": 0.4157708333333333,
      "grad_norm": 0.777883768081665,
      "learning_rate": 0.00019034113821278097,
      "loss": 3.8111,
      "step": 199570
    },
    {
      "epoch": 0.41579166666666667,
      "grad_norm": 0.841885507106781,
      "learning_rate": 0.00019033164279322776,
      "loss": 4.0324,
      "step": 199580
    },
    {
      "epoch": 0.4158125,
      "grad_norm": 0.7735850811004639,
      "learning_rate": 0.00019032214719945774,
      "loss": 3.8801,
      "step": 199590
    },
    {
      "epoch": 0.41583333333333333,
      "grad_norm": 0.814636766910553,
      "learning_rate": 0.00019031265143151205,
      "loss": 3.7889,
      "step": 199600
    },
    {
      "epoch": 0.4158541666666667,
      "grad_norm": 0.879124104976654,
      "learning_rate": 0.0001903031554894317,
      "loss": 3.6898,
      "step": 199610
    },
    {
      "epoch": 0.415875,
      "grad_norm": 0.9087897539138794,
      "learning_rate": 0.00019029365937325762,
      "loss": 3.7181,
      "step": 199620
    },
    {
      "epoch": 0.41589583333333335,
      "grad_norm": 0.9419931769371033,
      "learning_rate": 0.00019028416308303084,
      "loss": 3.7858,
      "step": 199630
    },
    {
      "epoch": 0.41591666666666666,
      "grad_norm": 0.7302626967430115,
      "learning_rate": 0.00019027466661879252,
      "loss": 3.7917,
      "step": 199640
    },
    {
      "epoch": 0.4159375,
      "grad_norm": 0.8260369300842285,
      "learning_rate": 0.00019026516998058352,
      "loss": 3.9656,
      "step": 199650
    },
    {
      "epoch": 0.4159583333333333,
      "grad_norm": 0.7759503722190857,
      "learning_rate": 0.0001902556731684449,
      "loss": 3.7906,
      "step": 199660
    },
    {
      "epoch": 0.4159791666666667,
      "grad_norm": 1.003491759300232,
      "learning_rate": 0.00019024617618241778,
      "loss": 3.9008,
      "step": 199670
    },
    {
      "epoch": 0.416,
      "grad_norm": 0.7472840547561646,
      "learning_rate": 0.0001902366790225431,
      "loss": 3.7556,
      "step": 199680
    },
    {
      "epoch": 0.41602083333333334,
      "grad_norm": 0.9342556595802307,
      "learning_rate": 0.00019022718168886182,
      "loss": 3.9487,
      "step": 199690
    },
    {
      "epoch": 0.41604166666666664,
      "grad_norm": 0.8156266212463379,
      "learning_rate": 0.00019021768418141512,
      "loss": 3.8137,
      "step": 199700
    },
    {
      "epoch": 0.4160625,
      "grad_norm": 0.7328879833221436,
      "learning_rate": 0.00019020818650024388,
      "loss": 4.0311,
      "step": 199710
    },
    {
      "epoch": 0.41608333333333336,
      "grad_norm": 0.7535849809646606,
      "learning_rate": 0.00019019868864538923,
      "loss": 3.7706,
      "step": 199720
    },
    {
      "epoch": 0.41610416666666666,
      "grad_norm": 0.775215208530426,
      "learning_rate": 0.00019018919061689215,
      "loss": 3.9142,
      "step": 199730
    },
    {
      "epoch": 0.416125,
      "grad_norm": 0.7211182713508606,
      "learning_rate": 0.00019017969241479364,
      "loss": 3.9422,
      "step": 199740
    },
    {
      "epoch": 0.4161458333333333,
      "grad_norm": 0.9363105893135071,
      "learning_rate": 0.00019017019403913486,
      "loss": 3.7545,
      "step": 199750
    },
    {
      "epoch": 0.4161666666666667,
      "grad_norm": 0.8140429854393005,
      "learning_rate": 0.00019016069548995662,
      "loss": 3.8389,
      "step": 199760
    },
    {
      "epoch": 0.4161875,
      "grad_norm": 0.7205854058265686,
      "learning_rate": 0.00019015119676730013,
      "loss": 3.7622,
      "step": 199770
    },
    {
      "epoch": 0.41620833333333335,
      "grad_norm": 0.7920039892196655,
      "learning_rate": 0.0001901416978712064,
      "loss": 3.6505,
      "step": 199780
    },
    {
      "epoch": 0.41622916666666665,
      "grad_norm": 0.7781922817230225,
      "learning_rate": 0.00019013219880171636,
      "loss": 3.8322,
      "step": 199790
    },
    {
      "epoch": 0.41625,
      "grad_norm": 0.8522177338600159,
      "learning_rate": 0.0001901226995588711,
      "loss": 3.9525,
      "step": 199800
    },
    {
      "epoch": 0.4162708333333333,
      "grad_norm": 0.7993613481521606,
      "learning_rate": 0.00019011320014271173,
      "loss": 3.9354,
      "step": 199810
    },
    {
      "epoch": 0.41629166666666667,
      "grad_norm": 0.8590792417526245,
      "learning_rate": 0.00019010370055327916,
      "loss": 3.7547,
      "step": 199820
    },
    {
      "epoch": 0.4163125,
      "grad_norm": 0.691990852355957,
      "learning_rate": 0.00019009420079061447,
      "loss": 3.6725,
      "step": 199830
    },
    {
      "epoch": 0.41633333333333333,
      "grad_norm": 0.7905434966087341,
      "learning_rate": 0.00019008470085475875,
      "loss": 3.9423,
      "step": 199840
    },
    {
      "epoch": 0.4163541666666667,
      "grad_norm": 0.8244336247444153,
      "learning_rate": 0.00019007520074575295,
      "loss": 3.9544,
      "step": 199850
    },
    {
      "epoch": 0.416375,
      "grad_norm": 0.9567751288414001,
      "learning_rate": 0.00019006570046363816,
      "loss": 3.8559,
      "step": 199860
    },
    {
      "epoch": 0.41639583333333335,
      "grad_norm": 0.8306372761726379,
      "learning_rate": 0.0001900562000084554,
      "loss": 3.7673,
      "step": 199870
    },
    {
      "epoch": 0.41641666666666666,
      "grad_norm": 0.8394978642463684,
      "learning_rate": 0.00019004669938024572,
      "loss": 3.5233,
      "step": 199880
    },
    {
      "epoch": 0.4164375,
      "grad_norm": 0.6768643260002136,
      "learning_rate": 0.00019003719857905015,
      "loss": 3.7769,
      "step": 199890
    },
    {
      "epoch": 0.4164583333333333,
      "grad_norm": 0.8533174991607666,
      "learning_rate": 0.0001900276976049097,
      "loss": 3.8919,
      "step": 199900
    },
    {
      "epoch": 0.4164791666666667,
      "grad_norm": 0.8169505596160889,
      "learning_rate": 0.00019001819645786546,
      "loss": 3.8547,
      "step": 199910
    },
    {
      "epoch": 0.4165,
      "grad_norm": 0.7684786915779114,
      "learning_rate": 0.00019000869513795848,
      "loss": 3.9125,
      "step": 199920
    },
    {
      "epoch": 0.41652083333333334,
      "grad_norm": 0.7385995388031006,
      "learning_rate": 0.00018999919364522973,
      "loss": 3.8227,
      "step": 199930
    },
    {
      "epoch": 0.41654166666666664,
      "grad_norm": 0.8163550496101379,
      "learning_rate": 0.0001899896919797203,
      "loss": 3.8854,
      "step": 199940
    },
    {
      "epoch": 0.4165625,
      "grad_norm": 0.8800312280654907,
      "learning_rate": 0.00018998019014147127,
      "loss": 3.7076,
      "step": 199950
    },
    {
      "epoch": 0.41658333333333336,
      "grad_norm": 1.0500521659851074,
      "learning_rate": 0.00018997068813052362,
      "loss": 3.8038,
      "step": 199960
    },
    {
      "epoch": 0.41660416666666666,
      "grad_norm": 0.8036741018295288,
      "learning_rate": 0.0001899611859469184,
      "loss": 3.8135,
      "step": 199970
    },
    {
      "epoch": 0.416625,
      "grad_norm": 0.7582101225852966,
      "learning_rate": 0.00018995168359069671,
      "loss": 3.8412,
      "step": 199980
    },
    {
      "epoch": 0.4166458333333333,
      "grad_norm": 0.6640940308570862,
      "learning_rate": 0.00018994218106189954,
      "loss": 3.8096,
      "step": 199990
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 0.6817401051521301,
      "learning_rate": 0.00018993267836056794,
      "loss": 3.8914,
      "step": 200000
    },
    {
      "epoch": 0.4166666666666667,
      "eval_loss": 4.179460525512695,
      "eval_runtime": 8.4267,
      "eval_samples_per_second": 1.187,
      "eval_steps_per_second": 0.356,
      "step": 200000
    },
    {
      "epoch": 0.4166875,
      "grad_norm": 0.8203242421150208,
      "learning_rate": 0.000189923175486743,
      "loss": 3.7638,
      "step": 200010
    },
    {
      "epoch": 0.41670833333333335,
      "grad_norm": 0.7174976468086243,
      "learning_rate": 0.00018991367244046577,
      "loss": 3.7786,
      "step": 200020
    },
    {
      "epoch": 0.41672916666666665,
      "grad_norm": 0.7726994752883911,
      "learning_rate": 0.00018990416922177723,
      "loss": 3.7182,
      "step": 200030
    },
    {
      "epoch": 0.41675,
      "grad_norm": 0.8784170746803284,
      "learning_rate": 0.00018989466583071852,
      "loss": 3.7862,
      "step": 200040
    },
    {
      "epoch": 0.4167708333333333,
      "grad_norm": 0.8643956184387207,
      "learning_rate": 0.00018988516226733058,
      "loss": 3.8247,
      "step": 200050
    },
    {
      "epoch": 0.41679166666666667,
      "grad_norm": 0.7549756765365601,
      "learning_rate": 0.00018987565853165458,
      "loss": 3.8555,
      "step": 200060
    },
    {
      "epoch": 0.4168125,
      "grad_norm": 0.734376847743988,
      "learning_rate": 0.00018986615462373148,
      "loss": 3.754,
      "step": 200070
    },
    {
      "epoch": 0.41683333333333333,
      "grad_norm": 0.798651397228241,
      "learning_rate": 0.00018985665054360238,
      "loss": 3.9032,
      "step": 200080
    },
    {
      "epoch": 0.4168541666666667,
      "grad_norm": 0.7629038095474243,
      "learning_rate": 0.00018984714629130835,
      "loss": 3.8106,
      "step": 200090
    },
    {
      "epoch": 0.416875,
      "grad_norm": 0.76152503490448,
      "learning_rate": 0.00018983764186689041,
      "loss": 3.7382,
      "step": 200100
    },
    {
      "epoch": 0.41689583333333335,
      "grad_norm": 0.8454336524009705,
      "learning_rate": 0.00018982813727038965,
      "loss": 3.8905,
      "step": 200110
    },
    {
      "epoch": 0.41691666666666666,
      "grad_norm": 0.7636715173721313,
      "learning_rate": 0.00018981863250184709,
      "loss": 3.8588,
      "step": 200120
    },
    {
      "epoch": 0.4169375,
      "grad_norm": 0.7471469044685364,
      "learning_rate": 0.00018980912756130374,
      "loss": 3.8765,
      "step": 200130
    },
    {
      "epoch": 0.4169583333333333,
      "grad_norm": 0.8278932571411133,
      "learning_rate": 0.00018979962244880077,
      "loss": 3.7485,
      "step": 200140
    },
    {
      "epoch": 0.4169791666666667,
      "grad_norm": 0.8317841291427612,
      "learning_rate": 0.0001897901171643792,
      "loss": 3.8106,
      "step": 200150
    },
    {
      "epoch": 0.417,
      "grad_norm": 0.6751745939254761,
      "learning_rate": 0.00018978061170808,
      "loss": 3.8492,
      "step": 200160
    },
    {
      "epoch": 0.41702083333333334,
      "grad_norm": 0.8257759809494019,
      "learning_rate": 0.0001897711060799444,
      "loss": 3.8548,
      "step": 200170
    },
    {
      "epoch": 0.41704166666666664,
      "grad_norm": 0.8588259816169739,
      "learning_rate": 0.0001897616002800133,
      "loss": 3.7949,
      "step": 200180
    },
    {
      "epoch": 0.4170625,
      "grad_norm": 0.8665802478790283,
      "learning_rate": 0.00018975209430832787,
      "loss": 3.8934,
      "step": 200190
    },
    {
      "epoch": 0.4170833333333333,
      "grad_norm": 0.6818581819534302,
      "learning_rate": 0.00018974258816492907,
      "loss": 3.7257,
      "step": 200200
    },
    {
      "epoch": 0.41710416666666666,
      "grad_norm": 0.8245119452476501,
      "learning_rate": 0.00018973308184985804,
      "loss": 3.8506,
      "step": 200210
    },
    {
      "epoch": 0.417125,
      "grad_norm": 0.7563394904136658,
      "learning_rate": 0.00018972357536315587,
      "loss": 3.9945,
      "step": 200220
    },
    {
      "epoch": 0.4171458333333333,
      "grad_norm": 0.7716299295425415,
      "learning_rate": 0.00018971406870486353,
      "loss": 3.6025,
      "step": 200230
    },
    {
      "epoch": 0.4171666666666667,
      "grad_norm": 0.8433566093444824,
      "learning_rate": 0.00018970456187502213,
      "loss": 3.774,
      "step": 200240
    },
    {
      "epoch": 0.4171875,
      "grad_norm": 0.7124407291412354,
      "learning_rate": 0.00018969505487367278,
      "loss": 3.8543,
      "step": 200250
    },
    {
      "epoch": 0.41720833333333335,
      "grad_norm": 0.8316365480422974,
      "learning_rate": 0.00018968554770085647,
      "loss": 4.0047,
      "step": 200260
    },
    {
      "epoch": 0.41722916666666665,
      "grad_norm": 0.9200221300125122,
      "learning_rate": 0.0001896760403566143,
      "loss": 3.8114,
      "step": 200270
    },
    {
      "epoch": 0.41725,
      "grad_norm": 0.7209696769714355,
      "learning_rate": 0.00018966653284098738,
      "loss": 3.7988,
      "step": 200280
    },
    {
      "epoch": 0.4172708333333333,
      "grad_norm": 0.7592516541481018,
      "learning_rate": 0.00018965702515401673,
      "loss": 3.884,
      "step": 200290
    },
    {
      "epoch": 0.41729166666666667,
      "grad_norm": 0.7727393507957458,
      "learning_rate": 0.00018964751729574336,
      "loss": 3.8488,
      "step": 200300
    },
    {
      "epoch": 0.4173125,
      "grad_norm": 0.7654933333396912,
      "learning_rate": 0.00018963800926620854,
      "loss": 3.8845,
      "step": 200310
    },
    {
      "epoch": 0.41733333333333333,
      "grad_norm": 0.7799976468086243,
      "learning_rate": 0.0001896285010654531,
      "loss": 3.7664,
      "step": 200320
    },
    {
      "epoch": 0.4173541666666667,
      "grad_norm": 0.8571205139160156,
      "learning_rate": 0.00018961899269351822,
      "loss": 3.9403,
      "step": 200330
    },
    {
      "epoch": 0.417375,
      "grad_norm": 0.8802581429481506,
      "learning_rate": 0.00018960948415044506,
      "loss": 3.7916,
      "step": 200340
    },
    {
      "epoch": 0.41739583333333335,
      "grad_norm": 0.8390045166015625,
      "learning_rate": 0.00018959997543627454,
      "loss": 3.6901,
      "step": 200350
    },
    {
      "epoch": 0.41741666666666666,
      "grad_norm": 0.7877516746520996,
      "learning_rate": 0.00018959046655104783,
      "loss": 3.9136,
      "step": 200360
    },
    {
      "epoch": 0.4174375,
      "grad_norm": 0.7479024529457092,
      "learning_rate": 0.00018958095749480592,
      "loss": 3.7488,
      "step": 200370
    },
    {
      "epoch": 0.4174583333333333,
      "grad_norm": 0.7814350724220276,
      "learning_rate": 0.00018957144826759002,
      "loss": 3.8402,
      "step": 200380
    },
    {
      "epoch": 0.4174791666666667,
      "grad_norm": 0.7766282558441162,
      "learning_rate": 0.00018956193886944105,
      "loss": 3.69,
      "step": 200390
    },
    {
      "epoch": 0.4175,
      "grad_norm": 0.7414659261703491,
      "learning_rate": 0.0001895524293004002,
      "loss": 3.7491,
      "step": 200400
    },
    {
      "epoch": 0.41752083333333334,
      "grad_norm": 0.8362590670585632,
      "learning_rate": 0.0001895429195605085,
      "loss": 3.9958,
      "step": 200410
    },
    {
      "epoch": 0.41754166666666664,
      "grad_norm": 0.7947819828987122,
      "learning_rate": 0.00018953340964980705,
      "loss": 3.9444,
      "step": 200420
    },
    {
      "epoch": 0.4175625,
      "grad_norm": 0.8611812591552734,
      "learning_rate": 0.00018952389956833693,
      "loss": 3.9687,
      "step": 200430
    },
    {
      "epoch": 0.4175833333333333,
      "grad_norm": 0.7633215188980103,
      "learning_rate": 0.00018951438931613922,
      "loss": 3.6754,
      "step": 200440
    },
    {
      "epoch": 0.41760416666666667,
      "grad_norm": 0.7176138162612915,
      "learning_rate": 0.00018950487889325497,
      "loss": 3.8049,
      "step": 200450
    },
    {
      "epoch": 0.417625,
      "grad_norm": 1.060675024986267,
      "learning_rate": 0.00018949536829972525,
      "loss": 3.9425,
      "step": 200460
    },
    {
      "epoch": 0.4176458333333333,
      "grad_norm": 0.9646788239479065,
      "learning_rate": 0.0001894858575355912,
      "loss": 3.8215,
      "step": 200470
    },
    {
      "epoch": 0.4176666666666667,
      "grad_norm": 0.7587379813194275,
      "learning_rate": 0.00018947634660089393,
      "loss": 3.9925,
      "step": 200480
    },
    {
      "epoch": 0.4176875,
      "grad_norm": 0.8369232416152954,
      "learning_rate": 0.00018946683549567439,
      "loss": 3.9221,
      "step": 200490
    },
    {
      "epoch": 0.41770833333333335,
      "grad_norm": 0.8363253474235535,
      "learning_rate": 0.00018945732421997376,
      "loss": 3.8627,
      "step": 200500
    },
    {
      "epoch": 0.41772916666666665,
      "grad_norm": 0.8723824620246887,
      "learning_rate": 0.00018944781277383313,
      "loss": 4.0085,
      "step": 200510
    },
    {
      "epoch": 0.41775,
      "grad_norm": 0.7497814297676086,
      "learning_rate": 0.00018943830115729352,
      "loss": 3.8179,
      "step": 200520
    },
    {
      "epoch": 0.4177708333333333,
      "grad_norm": 0.8396056294441223,
      "learning_rate": 0.00018942878937039606,
      "loss": 3.8765,
      "step": 200530
    },
    {
      "epoch": 0.4177916666666667,
      "grad_norm": 0.7541133761405945,
      "learning_rate": 0.00018941927741318191,
      "loss": 3.8671,
      "step": 200540
    },
    {
      "epoch": 0.4178125,
      "grad_norm": 0.8598849177360535,
      "learning_rate": 0.00018940976528569205,
      "loss": 3.7699,
      "step": 200550
    },
    {
      "epoch": 0.41783333333333333,
      "grad_norm": 0.94449383020401,
      "learning_rate": 0.0001894002529879676,
      "loss": 3.8159,
      "step": 200560
    },
    {
      "epoch": 0.4178541666666667,
      "grad_norm": 0.858160138130188,
      "learning_rate": 0.00018939074052004963,
      "loss": 3.7803,
      "step": 200570
    },
    {
      "epoch": 0.417875,
      "grad_norm": 0.7624098658561707,
      "learning_rate": 0.00018938122788197926,
      "loss": 3.7354,
      "step": 200580
    },
    {
      "epoch": 0.41789583333333336,
      "grad_norm": 0.8211576342582703,
      "learning_rate": 0.0001893717150737976,
      "loss": 3.8736,
      "step": 200590
    },
    {
      "epoch": 0.41791666666666666,
      "grad_norm": 0.9594509601593018,
      "learning_rate": 0.0001893622020955457,
      "loss": 3.7328,
      "step": 200600
    },
    {
      "epoch": 0.4179375,
      "grad_norm": 0.6822031736373901,
      "learning_rate": 0.00018935268894726463,
      "loss": 4.0112,
      "step": 200610
    },
    {
      "epoch": 0.4179583333333333,
      "grad_norm": 0.8860327005386353,
      "learning_rate": 0.0001893431756289956,
      "loss": 3.8989,
      "step": 200620
    },
    {
      "epoch": 0.4179791666666667,
      "grad_norm": 0.7822662591934204,
      "learning_rate": 0.00018933366214077954,
      "loss": 3.8741,
      "step": 200630
    },
    {
      "epoch": 0.418,
      "grad_norm": 0.7291179299354553,
      "learning_rate": 0.00018932414848265767,
      "loss": 3.6689,
      "step": 200640
    },
    {
      "epoch": 0.41802083333333334,
      "grad_norm": 0.8608551621437073,
      "learning_rate": 0.0001893146346546711,
      "loss": 3.9657,
      "step": 200650
    },
    {
      "epoch": 0.41804166666666664,
      "grad_norm": 1.0479559898376465,
      "learning_rate": 0.00018930512065686074,
      "loss": 3.9344,
      "step": 200660
    },
    {
      "epoch": 0.4180625,
      "grad_norm": 0.9271143078804016,
      "learning_rate": 0.0001892956064892679,
      "loss": 3.7556,
      "step": 200670
    },
    {
      "epoch": 0.4180833333333333,
      "grad_norm": 0.7706537842750549,
      "learning_rate": 0.00018928609215193364,
      "loss": 3.8445,
      "step": 200680
    },
    {
      "epoch": 0.41810416666666667,
      "grad_norm": 0.6626061797142029,
      "learning_rate": 0.00018927657764489895,
      "loss": 3.6068,
      "step": 200690
    },
    {
      "epoch": 0.418125,
      "grad_norm": 0.7274951338768005,
      "learning_rate": 0.00018926706296820494,
      "loss": 3.9499,
      "step": 200700
    },
    {
      "epoch": 0.4181458333333333,
      "grad_norm": 0.7855287194252014,
      "learning_rate": 0.00018925754812189287,
      "loss": 3.8237,
      "step": 200710
    },
    {
      "epoch": 0.4181666666666667,
      "grad_norm": 0.7946954965591431,
      "learning_rate": 0.00018924803310600368,
      "loss": 3.743,
      "step": 200720
    },
    {
      "epoch": 0.4181875,
      "grad_norm": 0.8165044188499451,
      "learning_rate": 0.00018923851792057846,
      "loss": 3.8549,
      "step": 200730
    },
    {
      "epoch": 0.41820833333333335,
      "grad_norm": 0.857563316822052,
      "learning_rate": 0.0001892290025656585,
      "loss": 3.8744,
      "step": 200740
    },
    {
      "epoch": 0.41822916666666665,
      "grad_norm": 0.7646508812904358,
      "learning_rate": 0.00018921948704128468,
      "loss": 3.9262,
      "step": 200750
    },
    {
      "epoch": 0.41825,
      "grad_norm": 0.9292852282524109,
      "learning_rate": 0.00018920997134749826,
      "loss": 3.9453,
      "step": 200760
    },
    {
      "epoch": 0.4182708333333333,
      "grad_norm": 0.7333887815475464,
      "learning_rate": 0.00018920045548434023,
      "loss": 3.7551,
      "step": 200770
    },
    {
      "epoch": 0.4182916666666667,
      "grad_norm": 0.7885681986808777,
      "learning_rate": 0.0001891909394518518,
      "loss": 3.6865,
      "step": 200780
    },
    {
      "epoch": 0.4183125,
      "grad_norm": 0.7341709733009338,
      "learning_rate": 0.00018918142325007403,
      "loss": 3.8847,
      "step": 200790
    },
    {
      "epoch": 0.41833333333333333,
      "grad_norm": 0.7281590104103088,
      "learning_rate": 0.00018917190687904795,
      "loss": 4.0002,
      "step": 200800
    },
    {
      "epoch": 0.4183541666666667,
      "grad_norm": 0.7002066969871521,
      "learning_rate": 0.00018916239033881478,
      "loss": 3.7846,
      "step": 200810
    },
    {
      "epoch": 0.418375,
      "grad_norm": 0.7174164652824402,
      "learning_rate": 0.00018915287362941563,
      "loss": 3.791,
      "step": 200820
    },
    {
      "epoch": 0.41839583333333336,
      "grad_norm": 0.7395309805870056,
      "learning_rate": 0.00018914335675089148,
      "loss": 3.785,
      "step": 200830
    },
    {
      "epoch": 0.41841666666666666,
      "grad_norm": 0.7454773187637329,
      "learning_rate": 0.00018913383970328357,
      "loss": 3.7425,
      "step": 200840
    },
    {
      "epoch": 0.4184375,
      "grad_norm": 0.7836079001426697,
      "learning_rate": 0.00018912432248663295,
      "loss": 3.872,
      "step": 200850
    },
    {
      "epoch": 0.4184583333333333,
      "grad_norm": 0.9515683054924011,
      "learning_rate": 0.00018911480510098078,
      "loss": 3.7557,
      "step": 200860
    },
    {
      "epoch": 0.4184791666666667,
      "grad_norm": 0.7919839024543762,
      "learning_rate": 0.00018910528754636805,
      "loss": 3.8191,
      "step": 200870
    },
    {
      "epoch": 0.4185,
      "grad_norm": 0.8918582797050476,
      "learning_rate": 0.00018909576982283606,
      "loss": 3.9916,
      "step": 200880
    },
    {
      "epoch": 0.41852083333333334,
      "grad_norm": 0.8647940754890442,
      "learning_rate": 0.00018908625193042578,
      "loss": 3.8632,
      "step": 200890
    },
    {
      "epoch": 0.41854166666666665,
      "grad_norm": 0.7478999495506287,
      "learning_rate": 0.00018907673386917833,
      "loss": 3.7632,
      "step": 200900
    },
    {
      "epoch": 0.4185625,
      "grad_norm": 0.834283709526062,
      "learning_rate": 0.00018906721563913487,
      "loss": 3.9193,
      "step": 200910
    },
    {
      "epoch": 0.4185833333333333,
      "grad_norm": 0.8100249767303467,
      "learning_rate": 0.00018905769724033653,
      "loss": 3.94,
      "step": 200920
    },
    {
      "epoch": 0.41860416666666667,
      "grad_norm": 0.7465300559997559,
      "learning_rate": 0.00018904817867282438,
      "loss": 3.8422,
      "step": 200930
    },
    {
      "epoch": 0.418625,
      "grad_norm": 0.7901244759559631,
      "learning_rate": 0.00018903865993663953,
      "loss": 3.8995,
      "step": 200940
    },
    {
      "epoch": 0.41864583333333333,
      "grad_norm": 0.8126345872879028,
      "learning_rate": 0.00018902914103182316,
      "loss": 3.8794,
      "step": 200950
    },
    {
      "epoch": 0.4186666666666667,
      "grad_norm": 0.7306320071220398,
      "learning_rate": 0.00018901962195841632,
      "loss": 3.7953,
      "step": 200960
    },
    {
      "epoch": 0.4186875,
      "grad_norm": 0.8398685455322266,
      "learning_rate": 0.00018901010271646018,
      "loss": 3.7596,
      "step": 200970
    },
    {
      "epoch": 0.41870833333333335,
      "grad_norm": 0.792258083820343,
      "learning_rate": 0.00018900058330599583,
      "loss": 3.8987,
      "step": 200980
    },
    {
      "epoch": 0.41872916666666665,
      "grad_norm": 0.706995964050293,
      "learning_rate": 0.00018899106372706446,
      "loss": 3.6034,
      "step": 200990
    },
    {
      "epoch": 0.41875,
      "grad_norm": 0.7781939506530762,
      "learning_rate": 0.000188981543979707,
      "loss": 3.7419,
      "step": 201000
    },
    {
      "epoch": 0.41875,
      "eval_loss": 4.172621726989746,
      "eval_runtime": 8.5349,
      "eval_samples_per_second": 1.172,
      "eval_steps_per_second": 0.351,
      "step": 201000
    },
    {
      "epoch": 0.4187708333333333,
      "grad_norm": 0.7243933081626892,
      "learning_rate": 0.00018897202406396478,
      "loss": 3.6964,
      "step": 201010
    },
    {
      "epoch": 0.4187916666666667,
      "grad_norm": 0.6979290246963501,
      "learning_rate": 0.00018896250397987886,
      "loss": 3.7464,
      "step": 201020
    },
    {
      "epoch": 0.4188125,
      "grad_norm": 1.0133739709854126,
      "learning_rate": 0.00018895298372749027,
      "loss": 3.8357,
      "step": 201030
    },
    {
      "epoch": 0.41883333333333334,
      "grad_norm": 0.8935229182243347,
      "learning_rate": 0.00018894346330684028,
      "loss": 3.763,
      "step": 201040
    },
    {
      "epoch": 0.4188541666666667,
      "grad_norm": 0.7448928356170654,
      "learning_rate": 0.00018893394271796995,
      "loss": 3.8613,
      "step": 201050
    },
    {
      "epoch": 0.418875,
      "grad_norm": 0.8816865682601929,
      "learning_rate": 0.00018892442196092032,
      "loss": 3.8986,
      "step": 201060
    },
    {
      "epoch": 0.41889583333333336,
      "grad_norm": 0.8277308344841003,
      "learning_rate": 0.00018891490103573264,
      "loss": 3.9124,
      "step": 201070
    },
    {
      "epoch": 0.41891666666666666,
      "grad_norm": 0.7107089161872864,
      "learning_rate": 0.000188905379942448,
      "loss": 3.8621,
      "step": 201080
    },
    {
      "epoch": 0.4189375,
      "grad_norm": 0.7325539588928223,
      "learning_rate": 0.00018889585868110751,
      "loss": 3.9467,
      "step": 201090
    },
    {
      "epoch": 0.4189583333333333,
      "grad_norm": 0.7813218235969543,
      "learning_rate": 0.00018888633725175233,
      "loss": 4.0211,
      "step": 201100
    },
    {
      "epoch": 0.4189791666666667,
      "grad_norm": 0.8618518114089966,
      "learning_rate": 0.00018887681565442352,
      "loss": 3.6144,
      "step": 201110
    },
    {
      "epoch": 0.419,
      "grad_norm": 0.8052446842193604,
      "learning_rate": 0.00018886729388916228,
      "loss": 4.0791,
      "step": 201120
    },
    {
      "epoch": 0.41902083333333334,
      "grad_norm": 0.8097385764122009,
      "learning_rate": 0.0001888577719560097,
      "loss": 3.9074,
      "step": 201130
    },
    {
      "epoch": 0.41904166666666665,
      "grad_norm": 0.7471518516540527,
      "learning_rate": 0.00018884824985500694,
      "loss": 3.8649,
      "step": 201140
    },
    {
      "epoch": 0.4190625,
      "grad_norm": 0.9410489797592163,
      "learning_rate": 0.0001888387275861951,
      "loss": 3.8459,
      "step": 201150
    },
    {
      "epoch": 0.4190833333333333,
      "grad_norm": 0.7141719460487366,
      "learning_rate": 0.00018882920514961537,
      "loss": 3.856,
      "step": 201160
    },
    {
      "epoch": 0.41910416666666667,
      "grad_norm": 0.739279568195343,
      "learning_rate": 0.0001888196825453088,
      "loss": 3.7354,
      "step": 201170
    },
    {
      "epoch": 0.419125,
      "grad_norm": 0.6630445718765259,
      "learning_rate": 0.0001888101597733166,
      "loss": 3.8502,
      "step": 201180
    },
    {
      "epoch": 0.41914583333333333,
      "grad_norm": 0.9109294414520264,
      "learning_rate": 0.0001888006368336799,
      "loss": 3.9011,
      "step": 201190
    },
    {
      "epoch": 0.4191666666666667,
      "grad_norm": 0.8415393829345703,
      "learning_rate": 0.00018879111372643973,
      "loss": 3.7249,
      "step": 201200
    },
    {
      "epoch": 0.4191875,
      "grad_norm": 0.7898061871528625,
      "learning_rate": 0.00018878159045163738,
      "loss": 3.7445,
      "step": 201210
    },
    {
      "epoch": 0.41920833333333335,
      "grad_norm": 0.7220010757446289,
      "learning_rate": 0.00018877206700931382,
      "loss": 3.9044,
      "step": 201220
    },
    {
      "epoch": 0.41922916666666665,
      "grad_norm": 0.8874984979629517,
      "learning_rate": 0.00018876254339951032,
      "loss": 3.8389,
      "step": 201230
    },
    {
      "epoch": 0.41925,
      "grad_norm": 0.9523512125015259,
      "learning_rate": 0.000188753019622268,
      "loss": 3.9482,
      "step": 201240
    },
    {
      "epoch": 0.4192708333333333,
      "grad_norm": 0.7944964170455933,
      "learning_rate": 0.00018874349567762794,
      "loss": 3.9393,
      "step": 201250
    },
    {
      "epoch": 0.4192916666666667,
      "grad_norm": 0.7990260720252991,
      "learning_rate": 0.00018873397156563134,
      "loss": 3.9263,
      "step": 201260
    },
    {
      "epoch": 0.4193125,
      "grad_norm": 0.7970165610313416,
      "learning_rate": 0.00018872444728631932,
      "loss": 3.8844,
      "step": 201270
    },
    {
      "epoch": 0.41933333333333334,
      "grad_norm": 0.807394802570343,
      "learning_rate": 0.000188714922839733,
      "loss": 3.9889,
      "step": 201280
    },
    {
      "epoch": 0.41935416666666664,
      "grad_norm": 0.8069230914115906,
      "learning_rate": 0.00018870539822591354,
      "loss": 3.7695,
      "step": 201290
    },
    {
      "epoch": 0.419375,
      "grad_norm": 0.7753087282180786,
      "learning_rate": 0.00018869587344490208,
      "loss": 3.7397,
      "step": 201300
    },
    {
      "epoch": 0.41939583333333336,
      "grad_norm": 0.7049112319946289,
      "learning_rate": 0.00018868634849673977,
      "loss": 3.9622,
      "step": 201310
    },
    {
      "epoch": 0.41941666666666666,
      "grad_norm": 0.7433618903160095,
      "learning_rate": 0.00018867682338146772,
      "loss": 3.6714,
      "step": 201320
    },
    {
      "epoch": 0.4194375,
      "grad_norm": 0.7572590708732605,
      "learning_rate": 0.00018866729809912712,
      "loss": 3.7965,
      "step": 201330
    },
    {
      "epoch": 0.4194583333333333,
      "grad_norm": 0.856945812702179,
      "learning_rate": 0.00018865777264975912,
      "loss": 3.6798,
      "step": 201340
    },
    {
      "epoch": 0.4194791666666667,
      "grad_norm": 1.1078776121139526,
      "learning_rate": 0.00018864824703340485,
      "loss": 3.8012,
      "step": 201350
    },
    {
      "epoch": 0.4195,
      "grad_norm": 0.7882742881774902,
      "learning_rate": 0.0001886387212501054,
      "loss": 3.7479,
      "step": 201360
    },
    {
      "epoch": 0.41952083333333334,
      "grad_norm": 0.8686891198158264,
      "learning_rate": 0.00018862919529990198,
      "loss": 3.8774,
      "step": 201370
    },
    {
      "epoch": 0.41954166666666665,
      "grad_norm": 0.7320176959037781,
      "learning_rate": 0.00018861966918283578,
      "loss": 3.7947,
      "step": 201380
    },
    {
      "epoch": 0.4195625,
      "grad_norm": 0.9275818467140198,
      "learning_rate": 0.00018861014289894788,
      "loss": 3.779,
      "step": 201390
    },
    {
      "epoch": 0.4195833333333333,
      "grad_norm": 0.7678778171539307,
      "learning_rate": 0.00018860061644827936,
      "loss": 3.8346,
      "step": 201400
    },
    {
      "epoch": 0.41960416666666667,
      "grad_norm": 0.9171825647354126,
      "learning_rate": 0.00018859108983087155,
      "loss": 3.777,
      "step": 201410
    },
    {
      "epoch": 0.419625,
      "grad_norm": 0.6980154514312744,
      "learning_rate": 0.0001885815630467655,
      "loss": 4.0265,
      "step": 201420
    },
    {
      "epoch": 0.41964583333333333,
      "grad_norm": 0.7059293985366821,
      "learning_rate": 0.00018857203609600232,
      "loss": 3.8489,
      "step": 201430
    },
    {
      "epoch": 0.4196666666666667,
      "grad_norm": 0.7383190393447876,
      "learning_rate": 0.00018856250897862322,
      "loss": 4.0037,
      "step": 201440
    },
    {
      "epoch": 0.4196875,
      "grad_norm": 1.0127061605453491,
      "learning_rate": 0.00018855298169466938,
      "loss": 3.7209,
      "step": 201450
    },
    {
      "epoch": 0.41970833333333335,
      "grad_norm": 0.9873508214950562,
      "learning_rate": 0.0001885434542441819,
      "loss": 3.8646,
      "step": 201460
    },
    {
      "epoch": 0.41972916666666665,
      "grad_norm": 1.2512495517730713,
      "learning_rate": 0.00018853392662720195,
      "loss": 3.5885,
      "step": 201470
    },
    {
      "epoch": 0.41975,
      "grad_norm": 0.9056391716003418,
      "learning_rate": 0.0001885243988437707,
      "loss": 3.8109,
      "step": 201480
    },
    {
      "epoch": 0.4197708333333333,
      "grad_norm": 0.6956571936607361,
      "learning_rate": 0.00018851487089392932,
      "loss": 3.8915,
      "step": 201490
    },
    {
      "epoch": 0.4197916666666667,
      "grad_norm": 0.6465511918067932,
      "learning_rate": 0.0001885053427777189,
      "loss": 3.7951,
      "step": 201500
    },
    {
      "epoch": 0.4198125,
      "grad_norm": 1.4003839492797852,
      "learning_rate": 0.00018849581449518064,
      "loss": 3.8072,
      "step": 201510
    },
    {
      "epoch": 0.41983333333333334,
      "grad_norm": 0.7307578921318054,
      "learning_rate": 0.00018848628604635576,
      "loss": 3.7823,
      "step": 201520
    },
    {
      "epoch": 0.41985416666666664,
      "grad_norm": 0.8701221942901611,
      "learning_rate": 0.00018847675743128528,
      "loss": 4.0025,
      "step": 201530
    },
    {
      "epoch": 0.419875,
      "grad_norm": 0.7143467664718628,
      "learning_rate": 0.00018846722865001046,
      "loss": 3.6766,
      "step": 201540
    },
    {
      "epoch": 0.41989583333333336,
      "grad_norm": 0.9448525309562683,
      "learning_rate": 0.00018845769970257247,
      "loss": 3.6932,
      "step": 201550
    },
    {
      "epoch": 0.41991666666666666,
      "grad_norm": 0.8387852311134338,
      "learning_rate": 0.00018844817058901242,
      "loss": 3.7439,
      "step": 201560
    },
    {
      "epoch": 0.4199375,
      "grad_norm": 0.7072563171386719,
      "learning_rate": 0.00018843864130937147,
      "loss": 3.8384,
      "step": 201570
    },
    {
      "epoch": 0.4199583333333333,
      "grad_norm": 0.8286740183830261,
      "learning_rate": 0.00018842911186369086,
      "loss": 3.7285,
      "step": 201580
    },
    {
      "epoch": 0.4199791666666667,
      "grad_norm": 0.8787074685096741,
      "learning_rate": 0.00018841958225201166,
      "loss": 3.8117,
      "step": 201590
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7386990189552307,
      "learning_rate": 0.00018841005247437502,
      "loss": 3.7088,
      "step": 201600
    },
    {
      "epoch": 0.42002083333333334,
      "grad_norm": 0.7513259053230286,
      "learning_rate": 0.00018840052253082227,
      "loss": 3.8145,
      "step": 201610
    },
    {
      "epoch": 0.42004166666666665,
      "grad_norm": 0.9064454436302185,
      "learning_rate": 0.00018839099242139442,
      "loss": 3.7838,
      "step": 201620
    },
    {
      "epoch": 0.4200625,
      "grad_norm": 0.7430596947669983,
      "learning_rate": 0.00018838146214613267,
      "loss": 3.6672,
      "step": 201630
    },
    {
      "epoch": 0.4200833333333333,
      "grad_norm": 0.816681444644928,
      "learning_rate": 0.0001883719317050782,
      "loss": 3.8702,
      "step": 201640
    },
    {
      "epoch": 0.42010416666666667,
      "grad_norm": 0.8164026141166687,
      "learning_rate": 0.00018836240109827213,
      "loss": 3.702,
      "step": 201650
    },
    {
      "epoch": 0.420125,
      "grad_norm": 0.8016903400421143,
      "learning_rate": 0.0001883528703257557,
      "loss": 3.9207,
      "step": 201660
    },
    {
      "epoch": 0.42014583333333333,
      "grad_norm": 0.7013524770736694,
      "learning_rate": 0.00018834333938757005,
      "loss": 3.9845,
      "step": 201670
    },
    {
      "epoch": 0.4201666666666667,
      "grad_norm": 0.6952581405639648,
      "learning_rate": 0.00018833380828375636,
      "loss": 3.9008,
      "step": 201680
    },
    {
      "epoch": 0.4201875,
      "grad_norm": 1.0109745264053345,
      "learning_rate": 0.00018832427701435584,
      "loss": 3.853,
      "step": 201690
    },
    {
      "epoch": 0.42020833333333335,
      "grad_norm": 0.9381428360939026,
      "learning_rate": 0.00018831474557940954,
      "loss": 3.8885,
      "step": 201700
    },
    {
      "epoch": 0.42022916666666665,
      "grad_norm": 0.8084468841552734,
      "learning_rate": 0.0001883052139789587,
      "loss": 3.902,
      "step": 201710
    },
    {
      "epoch": 0.42025,
      "grad_norm": 0.7253992557525635,
      "learning_rate": 0.00018829568221304457,
      "loss": 3.8439,
      "step": 201720
    },
    {
      "epoch": 0.4202708333333333,
      "grad_norm": 0.8098652958869934,
      "learning_rate": 0.00018828615028170819,
      "loss": 3.8171,
      "step": 201730
    },
    {
      "epoch": 0.4202916666666667,
      "grad_norm": 0.767093300819397,
      "learning_rate": 0.0001882766181849908,
      "loss": 3.7487,
      "step": 201740
    },
    {
      "epoch": 0.4203125,
      "grad_norm": 0.7705782651901245,
      "learning_rate": 0.0001882670859229336,
      "loss": 3.774,
      "step": 201750
    },
    {
      "epoch": 0.42033333333333334,
      "grad_norm": 0.7546966671943665,
      "learning_rate": 0.0001882575534955777,
      "loss": 3.9771,
      "step": 201760
    },
    {
      "epoch": 0.42035416666666664,
      "grad_norm": 0.7873841524124146,
      "learning_rate": 0.00018824802090296433,
      "loss": 3.6565,
      "step": 201770
    },
    {
      "epoch": 0.420375,
      "grad_norm": 0.7843907475471497,
      "learning_rate": 0.00018823848814513466,
      "loss": 3.7971,
      "step": 201780
    },
    {
      "epoch": 0.42039583333333336,
      "grad_norm": 0.8537428975105286,
      "learning_rate": 0.00018822895522212988,
      "loss": 3.8095,
      "step": 201790
    },
    {
      "epoch": 0.42041666666666666,
      "grad_norm": 0.7859277725219727,
      "learning_rate": 0.00018821942213399111,
      "loss": 3.8221,
      "step": 201800
    },
    {
      "epoch": 0.4204375,
      "grad_norm": 0.8269096612930298,
      "learning_rate": 0.00018820988888075955,
      "loss": 4.0265,
      "step": 201810
    },
    {
      "epoch": 0.4204583333333333,
      "grad_norm": 0.8087285757064819,
      "learning_rate": 0.00018820035546247642,
      "loss": 3.893,
      "step": 201820
    },
    {
      "epoch": 0.4204791666666667,
      "grad_norm": 0.9784636497497559,
      "learning_rate": 0.00018819082187918287,
      "loss": 3.9151,
      "step": 201830
    },
    {
      "epoch": 0.4205,
      "grad_norm": 0.780439019203186,
      "learning_rate": 0.0001881812881309201,
      "loss": 4.0602,
      "step": 201840
    },
    {
      "epoch": 0.42052083333333334,
      "grad_norm": 0.8141613006591797,
      "learning_rate": 0.00018817175421772926,
      "loss": 4.0031,
      "step": 201850
    },
    {
      "epoch": 0.42054166666666665,
      "grad_norm": 0.8500816226005554,
      "learning_rate": 0.00018816222013965156,
      "loss": 3.8429,
      "step": 201860
    },
    {
      "epoch": 0.4205625,
      "grad_norm": 0.7437912225723267,
      "learning_rate": 0.00018815268589672814,
      "loss": 3.8795,
      "step": 201870
    },
    {
      "epoch": 0.4205833333333333,
      "grad_norm": 0.7291104793548584,
      "learning_rate": 0.0001881431514890003,
      "loss": 4.0343,
      "step": 201880
    },
    {
      "epoch": 0.42060416666666667,
      "grad_norm": 0.9318874478340149,
      "learning_rate": 0.00018813361691650908,
      "loss": 3.7775,
      "step": 201890
    },
    {
      "epoch": 0.420625,
      "grad_norm": 0.7810437679290771,
      "learning_rate": 0.00018812408217929572,
      "loss": 3.809,
      "step": 201900
    },
    {
      "epoch": 0.42064583333333333,
      "grad_norm": 0.7483349442481995,
      "learning_rate": 0.00018811454727740145,
      "loss": 3.7229,
      "step": 201910
    },
    {
      "epoch": 0.4206666666666667,
      "grad_norm": 0.7682240009307861,
      "learning_rate": 0.00018810501221086742,
      "loss": 3.855,
      "step": 201920
    },
    {
      "epoch": 0.4206875,
      "grad_norm": 0.8416233658790588,
      "learning_rate": 0.00018809547697973478,
      "loss": 3.6995,
      "step": 201930
    },
    {
      "epoch": 0.42070833333333335,
      "grad_norm": 0.86985182762146,
      "learning_rate": 0.0001880859415840448,
      "loss": 4.0215,
      "step": 201940
    },
    {
      "epoch": 0.42072916666666665,
      "grad_norm": 0.7774202823638916,
      "learning_rate": 0.00018807640602383865,
      "loss": 3.8048,
      "step": 201950
    },
    {
      "epoch": 0.42075,
      "grad_norm": 0.7352504134178162,
      "learning_rate": 0.00018806687029915745,
      "loss": 3.8733,
      "step": 201960
    },
    {
      "epoch": 0.4207708333333333,
      "grad_norm": 0.7339740991592407,
      "learning_rate": 0.00018805733441004246,
      "loss": 3.8216,
      "step": 201970
    },
    {
      "epoch": 0.4207916666666667,
      "grad_norm": 0.6679748296737671,
      "learning_rate": 0.00018804779835653485,
      "loss": 3.8685,
      "step": 201980
    },
    {
      "epoch": 0.4208125,
      "grad_norm": 0.9116439819335938,
      "learning_rate": 0.00018803826213867577,
      "loss": 3.8279,
      "step": 201990
    },
    {
      "epoch": 0.42083333333333334,
      "grad_norm": 0.8915414214134216,
      "learning_rate": 0.0001880287257565065,
      "loss": 3.8238,
      "step": 202000
    },
    {
      "epoch": 0.42083333333333334,
      "eval_loss": 4.169997215270996,
      "eval_runtime": 8.4902,
      "eval_samples_per_second": 1.178,
      "eval_steps_per_second": 0.353,
      "step": 202000
    },
    {
      "epoch": 0.42085416666666664,
      "grad_norm": 0.6732211709022522,
      "learning_rate": 0.00018801918921006818,
      "loss": 4.0309,
      "step": 202010
    },
    {
      "epoch": 0.420875,
      "grad_norm": 0.7753836512565613,
      "learning_rate": 0.000188009652499402,
      "loss": 3.9126,
      "step": 202020
    },
    {
      "epoch": 0.42089583333333336,
      "grad_norm": 1.1631708145141602,
      "learning_rate": 0.00018800011562454918,
      "loss": 3.7401,
      "step": 202030
    },
    {
      "epoch": 0.42091666666666666,
      "grad_norm": 0.7590880393981934,
      "learning_rate": 0.00018799057858555086,
      "loss": 4.087,
      "step": 202040
    },
    {
      "epoch": 0.4209375,
      "grad_norm": 0.8040362596511841,
      "learning_rate": 0.00018798104138244835,
      "loss": 3.7858,
      "step": 202050
    },
    {
      "epoch": 0.4209583333333333,
      "grad_norm": 0.7862784266471863,
      "learning_rate": 0.00018797150401528274,
      "loss": 3.7797,
      "step": 202060
    },
    {
      "epoch": 0.4209791666666667,
      "grad_norm": 0.8011205792427063,
      "learning_rate": 0.00018796196648409523,
      "loss": 3.837,
      "step": 202070
    },
    {
      "epoch": 0.421,
      "grad_norm": 0.8463070392608643,
      "learning_rate": 0.0001879524287889271,
      "loss": 3.8741,
      "step": 202080
    },
    {
      "epoch": 0.42102083333333334,
      "grad_norm": 0.7914961576461792,
      "learning_rate": 0.0001879428909298195,
      "loss": 3.758,
      "step": 202090
    },
    {
      "epoch": 0.42104166666666665,
      "grad_norm": 0.7763484120368958,
      "learning_rate": 0.0001879333529068136,
      "loss": 3.9615,
      "step": 202100
    },
    {
      "epoch": 0.4210625,
      "grad_norm": 0.773305356502533,
      "learning_rate": 0.00018792381471995065,
      "loss": 3.8847,
      "step": 202110
    },
    {
      "epoch": 0.4210833333333333,
      "grad_norm": 0.7306674122810364,
      "learning_rate": 0.00018791427636927183,
      "loss": 3.7016,
      "step": 202120
    },
    {
      "epoch": 0.42110416666666667,
      "grad_norm": 0.766841471195221,
      "learning_rate": 0.00018790473785481834,
      "loss": 3.6676,
      "step": 202130
    },
    {
      "epoch": 0.421125,
      "grad_norm": 0.7545976638793945,
      "learning_rate": 0.0001878951991766314,
      "loss": 3.9435,
      "step": 202140
    },
    {
      "epoch": 0.42114583333333333,
      "grad_norm": 0.7797034978866577,
      "learning_rate": 0.00018788566033475218,
      "loss": 3.7263,
      "step": 202150
    },
    {
      "epoch": 0.4211666666666667,
      "grad_norm": 0.8553351759910583,
      "learning_rate": 0.0001878761213292219,
      "loss": 3.8132,
      "step": 202160
    },
    {
      "epoch": 0.4211875,
      "grad_norm": 0.6885408163070679,
      "learning_rate": 0.0001878665821600818,
      "loss": 3.8075,
      "step": 202170
    },
    {
      "epoch": 0.42120833333333335,
      "grad_norm": 0.7380613088607788,
      "learning_rate": 0.000187857042827373,
      "loss": 3.7124,
      "step": 202180
    },
    {
      "epoch": 0.42122916666666665,
      "grad_norm": 0.8630980253219604,
      "learning_rate": 0.0001878475033311368,
      "loss": 3.8121,
      "step": 202190
    },
    {
      "epoch": 0.42125,
      "grad_norm": 0.8584334254264832,
      "learning_rate": 0.00018783796367141437,
      "loss": 4.0503,
      "step": 202200
    },
    {
      "epoch": 0.4212708333333333,
      "grad_norm": 0.7484185695648193,
      "learning_rate": 0.00018782842384824686,
      "loss": 3.9129,
      "step": 202210
    },
    {
      "epoch": 0.4212916666666667,
      "grad_norm": 0.870868444442749,
      "learning_rate": 0.00018781888386167558,
      "loss": 3.7968,
      "step": 202220
    },
    {
      "epoch": 0.4213125,
      "grad_norm": 0.7447863221168518,
      "learning_rate": 0.00018780934371174168,
      "loss": 3.983,
      "step": 202230
    },
    {
      "epoch": 0.42133333333333334,
      "grad_norm": 0.8499358892440796,
      "learning_rate": 0.0001877998033984864,
      "loss": 3.8387,
      "step": 202240
    },
    {
      "epoch": 0.42135416666666664,
      "grad_norm": 0.7881286144256592,
      "learning_rate": 0.00018779026292195096,
      "loss": 3.9754,
      "step": 202250
    },
    {
      "epoch": 0.421375,
      "grad_norm": 0.7992657423019409,
      "learning_rate": 0.0001877807222821765,
      "loss": 4.0471,
      "step": 202260
    },
    {
      "epoch": 0.42139583333333336,
      "grad_norm": 1.2852003574371338,
      "learning_rate": 0.0001877711814792042,
      "loss": 4.0281,
      "step": 202270
    },
    {
      "epoch": 0.42141666666666666,
      "grad_norm": 0.7349878549575806,
      "learning_rate": 0.00018776164051307546,
      "loss": 3.8228,
      "step": 202280
    },
    {
      "epoch": 0.4214375,
      "grad_norm": 0.7913859486579895,
      "learning_rate": 0.00018775209938383137,
      "loss": 3.7123,
      "step": 202290
    },
    {
      "epoch": 0.4214583333333333,
      "grad_norm": 0.8072953224182129,
      "learning_rate": 0.0001877425580915131,
      "loss": 3.876,
      "step": 202300
    },
    {
      "epoch": 0.4214791666666667,
      "grad_norm": 0.7706336379051208,
      "learning_rate": 0.00018773301663616197,
      "loss": 3.7718,
      "step": 202310
    },
    {
      "epoch": 0.4215,
      "grad_norm": 0.8937274813652039,
      "learning_rate": 0.00018772347501781912,
      "loss": 3.8718,
      "step": 202320
    },
    {
      "epoch": 0.42152083333333334,
      "grad_norm": 0.7795239090919495,
      "learning_rate": 0.00018771393323652576,
      "loss": 3.9681,
      "step": 202330
    },
    {
      "epoch": 0.42154166666666665,
      "grad_norm": 0.7507040500640869,
      "learning_rate": 0.00018770439129232316,
      "loss": 3.9042,
      "step": 202340
    },
    {
      "epoch": 0.4215625,
      "grad_norm": 0.6577082276344299,
      "learning_rate": 0.00018769484918525255,
      "loss": 3.9565,
      "step": 202350
    },
    {
      "epoch": 0.4215833333333333,
      "grad_norm": 0.7819051742553711,
      "learning_rate": 0.00018768530691535507,
      "loss": 3.7838,
      "step": 202360
    },
    {
      "epoch": 0.42160416666666667,
      "grad_norm": 0.7707928419113159,
      "learning_rate": 0.00018767576448267196,
      "loss": 3.9233,
      "step": 202370
    },
    {
      "epoch": 0.421625,
      "grad_norm": 0.703381359577179,
      "learning_rate": 0.00018766622188724451,
      "loss": 3.9275,
      "step": 202380
    },
    {
      "epoch": 0.42164583333333333,
      "grad_norm": 0.8225476741790771,
      "learning_rate": 0.00018765667912911391,
      "loss": 3.8916,
      "step": 202390
    },
    {
      "epoch": 0.4216666666666667,
      "grad_norm": 0.804125189781189,
      "learning_rate": 0.0001876471362083213,
      "loss": 3.8454,
      "step": 202400
    },
    {
      "epoch": 0.4216875,
      "grad_norm": 0.8489975929260254,
      "learning_rate": 0.00018763759312490796,
      "loss": 4.0013,
      "step": 202410
    },
    {
      "epoch": 0.42170833333333335,
      "grad_norm": 0.8234782814979553,
      "learning_rate": 0.0001876280498789152,
      "loss": 3.6622,
      "step": 202420
    },
    {
      "epoch": 0.42172916666666665,
      "grad_norm": 0.7393952012062073,
      "learning_rate": 0.0001876185064703841,
      "loss": 3.8953,
      "step": 202430
    },
    {
      "epoch": 0.42175,
      "grad_norm": 0.8823079466819763,
      "learning_rate": 0.0001876089628993559,
      "loss": 3.8931,
      "step": 202440
    },
    {
      "epoch": 0.4217708333333333,
      "grad_norm": 0.8710416555404663,
      "learning_rate": 0.00018759941916587195,
      "loss": 3.963,
      "step": 202450
    },
    {
      "epoch": 0.4217916666666667,
      "grad_norm": 0.7845208644866943,
      "learning_rate": 0.00018758987526997333,
      "loss": 4.0444,
      "step": 202460
    },
    {
      "epoch": 0.4218125,
      "grad_norm": 1.4088548421859741,
      "learning_rate": 0.00018758033121170134,
      "loss": 3.5999,
      "step": 202470
    },
    {
      "epoch": 0.42183333333333334,
      "grad_norm": 0.717625617980957,
      "learning_rate": 0.00018757078699109723,
      "loss": 3.8117,
      "step": 202480
    },
    {
      "epoch": 0.42185416666666664,
      "grad_norm": 0.8187295198440552,
      "learning_rate": 0.00018756124260820218,
      "loss": 3.7711,
      "step": 202490
    },
    {
      "epoch": 0.421875,
      "grad_norm": 0.7980281710624695,
      "learning_rate": 0.0001875516980630574,
      "loss": 3.8578,
      "step": 202500
    },
    {
      "epoch": 0.42189583333333336,
      "grad_norm": 0.6852888464927673,
      "learning_rate": 0.00018754215335570415,
      "loss": 3.9263,
      "step": 202510
    },
    {
      "epoch": 0.42191666666666666,
      "grad_norm": 0.7026048302650452,
      "learning_rate": 0.0001875326084861837,
      "loss": 3.7138,
      "step": 202520
    },
    {
      "epoch": 0.4219375,
      "grad_norm": 0.7105042338371277,
      "learning_rate": 0.00018752306345453718,
      "loss": 3.8022,
      "step": 202530
    },
    {
      "epoch": 0.4219583333333333,
      "grad_norm": 0.6935995817184448,
      "learning_rate": 0.00018751351826080595,
      "loss": 3.7361,
      "step": 202540
    },
    {
      "epoch": 0.4219791666666667,
      "grad_norm": 0.7866526246070862,
      "learning_rate": 0.0001875039729050311,
      "loss": 3.7864,
      "step": 202550
    },
    {
      "epoch": 0.422,
      "grad_norm": 0.9384071826934814,
      "learning_rate": 0.000187494427387254,
      "loss": 3.8636,
      "step": 202560
    },
    {
      "epoch": 0.42202083333333335,
      "grad_norm": 0.738645076751709,
      "learning_rate": 0.00018748488170751575,
      "loss": 3.8723,
      "step": 202570
    },
    {
      "epoch": 0.42204166666666665,
      "grad_norm": 0.8282898664474487,
      "learning_rate": 0.00018747533586585768,
      "loss": 3.9079,
      "step": 202580
    },
    {
      "epoch": 0.4220625,
      "grad_norm": 0.8386987447738647,
      "learning_rate": 0.000187465789862321,
      "loss": 3.7356,
      "step": 202590
    },
    {
      "epoch": 0.4220833333333333,
      "grad_norm": 0.7273796796798706,
      "learning_rate": 0.00018745624369694692,
      "loss": 3.8014,
      "step": 202600
    },
    {
      "epoch": 0.42210416666666667,
      "grad_norm": 0.9089832305908203,
      "learning_rate": 0.0001874466973697767,
      "loss": 3.9003,
      "step": 202610
    },
    {
      "epoch": 0.422125,
      "grad_norm": 0.7911281585693359,
      "learning_rate": 0.00018743715088085158,
      "loss": 3.9778,
      "step": 202620
    },
    {
      "epoch": 0.42214583333333333,
      "grad_norm": 0.7833452820777893,
      "learning_rate": 0.00018742760423021276,
      "loss": 3.9119,
      "step": 202630
    },
    {
      "epoch": 0.4221666666666667,
      "grad_norm": 0.864571750164032,
      "learning_rate": 0.0001874180574179015,
      "loss": 3.9837,
      "step": 202640
    },
    {
      "epoch": 0.4221875,
      "grad_norm": 0.7915517091751099,
      "learning_rate": 0.00018740851044395912,
      "loss": 3.947,
      "step": 202650
    },
    {
      "epoch": 0.42220833333333335,
      "grad_norm": 0.7303430438041687,
      "learning_rate": 0.0001873989633084267,
      "loss": 3.8975,
      "step": 202660
    },
    {
      "epoch": 0.42222916666666666,
      "grad_norm": 0.966611921787262,
      "learning_rate": 0.0001873894160113456,
      "loss": 4.1406,
      "step": 202670
    },
    {
      "epoch": 0.42225,
      "grad_norm": 0.7078004479408264,
      "learning_rate": 0.000187379868552757,
      "loss": 3.8017,
      "step": 202680
    },
    {
      "epoch": 0.4222708333333333,
      "grad_norm": 0.6633832454681396,
      "learning_rate": 0.00018737032093270217,
      "loss": 3.7815,
      "step": 202690
    },
    {
      "epoch": 0.4222916666666667,
      "grad_norm": 0.7328737378120422,
      "learning_rate": 0.00018736077315122237,
      "loss": 3.8572,
      "step": 202700
    },
    {
      "epoch": 0.4223125,
      "grad_norm": 0.7297853231430054,
      "learning_rate": 0.00018735122520835881,
      "loss": 3.9864,
      "step": 202710
    },
    {
      "epoch": 0.42233333333333334,
      "grad_norm": 0.7967939376831055,
      "learning_rate": 0.00018734167710415272,
      "loss": 3.8606,
      "step": 202720
    },
    {
      "epoch": 0.42235416666666664,
      "grad_norm": 0.9546130299568176,
      "learning_rate": 0.0001873321288386454,
      "loss": 3.8575,
      "step": 202730
    },
    {
      "epoch": 0.422375,
      "grad_norm": 0.7163494229316711,
      "learning_rate": 0.000187322580411878,
      "loss": 3.7959,
      "step": 202740
    },
    {
      "epoch": 0.42239583333333336,
      "grad_norm": 0.7750647068023682,
      "learning_rate": 0.00018731303182389187,
      "loss": 3.7305,
      "step": 202750
    },
    {
      "epoch": 0.42241666666666666,
      "grad_norm": 0.8851174116134644,
      "learning_rate": 0.00018730348307472824,
      "loss": 3.863,
      "step": 202760
    },
    {
      "epoch": 0.4224375,
      "grad_norm": 0.9136353135108948,
      "learning_rate": 0.00018729393416442824,
      "loss": 3.7195,
      "step": 202770
    },
    {
      "epoch": 0.4224583333333333,
      "grad_norm": 0.7346583008766174,
      "learning_rate": 0.00018728438509303327,
      "loss": 3.6933,
      "step": 202780
    },
    {
      "epoch": 0.4224791666666667,
      "grad_norm": 0.7574054598808289,
      "learning_rate": 0.00018727483586058452,
      "loss": 3.8021,
      "step": 202790
    },
    {
      "epoch": 0.4225,
      "grad_norm": 0.7599001526832581,
      "learning_rate": 0.00018726528646712323,
      "loss": 3.7766,
      "step": 202800
    },
    {
      "epoch": 0.42252083333333335,
      "grad_norm": 0.8293402194976807,
      "learning_rate": 0.0001872557369126906,
      "loss": 4.0268,
      "step": 202810
    },
    {
      "epoch": 0.42254166666666665,
      "grad_norm": 1.04499351978302,
      "learning_rate": 0.00018724618719732802,
      "loss": 3.8352,
      "step": 202820
    },
    {
      "epoch": 0.4225625,
      "grad_norm": 0.831601619720459,
      "learning_rate": 0.0001872366373210766,
      "loss": 3.9779,
      "step": 202830
    },
    {
      "epoch": 0.4225833333333333,
      "grad_norm": 0.8041279315948486,
      "learning_rate": 0.00018722708728397764,
      "loss": 3.6844,
      "step": 202840
    },
    {
      "epoch": 0.42260416666666667,
      "grad_norm": 0.7612014412879944,
      "learning_rate": 0.00018721753708607244,
      "loss": 3.7313,
      "step": 202850
    },
    {
      "epoch": 0.422625,
      "grad_norm": 0.7002764940261841,
      "learning_rate": 0.00018720798672740218,
      "loss": 4.0568,
      "step": 202860
    },
    {
      "epoch": 0.42264583333333333,
      "grad_norm": 0.7177851796150208,
      "learning_rate": 0.00018719843620800816,
      "loss": 3.8468,
      "step": 202870
    },
    {
      "epoch": 0.4226666666666667,
      "grad_norm": 0.8303511142730713,
      "learning_rate": 0.00018718888552793158,
      "loss": 4.0073,
      "step": 202880
    },
    {
      "epoch": 0.4226875,
      "grad_norm": 0.8431925773620605,
      "learning_rate": 0.00018717933468721378,
      "loss": 3.71,
      "step": 202890
    },
    {
      "epoch": 0.42270833333333335,
      "grad_norm": 0.7973652482032776,
      "learning_rate": 0.00018716978368589596,
      "loss": 3.8996,
      "step": 202900
    },
    {
      "epoch": 0.42272916666666666,
      "grad_norm": 1.1797184944152832,
      "learning_rate": 0.00018716023252401937,
      "loss": 3.8455,
      "step": 202910
    },
    {
      "epoch": 0.42275,
      "grad_norm": 0.8396512269973755,
      "learning_rate": 0.0001871506812016253,
      "loss": 3.8112,
      "step": 202920
    },
    {
      "epoch": 0.4227708333333333,
      "grad_norm": 0.7878580093383789,
      "learning_rate": 0.00018714112971875504,
      "loss": 3.9421,
      "step": 202930
    },
    {
      "epoch": 0.4227916666666667,
      "grad_norm": 0.7613718509674072,
      "learning_rate": 0.0001871315780754497,
      "loss": 3.8917,
      "step": 202940
    },
    {
      "epoch": 0.4228125,
      "grad_norm": 0.7784122824668884,
      "learning_rate": 0.0001871220262717507,
      "loss": 4.1024,
      "step": 202950
    },
    {
      "epoch": 0.42283333333333334,
      "grad_norm": 0.8747428059577942,
      "learning_rate": 0.00018711247430769926,
      "loss": 3.9375,
      "step": 202960
    },
    {
      "epoch": 0.42285416666666664,
      "grad_norm": 0.8848745226860046,
      "learning_rate": 0.00018710292218333653,
      "loss": 3.9188,
      "step": 202970
    },
    {
      "epoch": 0.422875,
      "grad_norm": 0.7491776347160339,
      "learning_rate": 0.00018709336989870397,
      "loss": 3.8928,
      "step": 202980
    },
    {
      "epoch": 0.42289583333333336,
      "grad_norm": 0.7610693573951721,
      "learning_rate": 0.0001870838174538427,
      "loss": 3.8362,
      "step": 202990
    },
    {
      "epoch": 0.42291666666666666,
      "grad_norm": 0.9917948842048645,
      "learning_rate": 0.000187074264848794,
      "loss": 3.8894,
      "step": 203000
    },
    {
      "epoch": 0.42291666666666666,
      "eval_loss": 4.179430961608887,
      "eval_runtime": 7.8735,
      "eval_samples_per_second": 1.27,
      "eval_steps_per_second": 0.381,
      "step": 203000
    },
    {
      "epoch": 0.4229375,
      "grad_norm": 0.7631996273994446,
      "learning_rate": 0.00018706471208359917,
      "loss": 3.8518,
      "step": 203010
    },
    {
      "epoch": 0.4229583333333333,
      "grad_norm": 0.7404912114143372,
      "learning_rate": 0.00018705515915829943,
      "loss": 3.8406,
      "step": 203020
    },
    {
      "epoch": 0.4229791666666667,
      "grad_norm": 1.1668901443481445,
      "learning_rate": 0.0001870456060729361,
      "loss": 3.8263,
      "step": 203030
    },
    {
      "epoch": 0.423,
      "grad_norm": 0.776280403137207,
      "learning_rate": 0.00018703605282755037,
      "loss": 3.8242,
      "step": 203040
    },
    {
      "epoch": 0.42302083333333335,
      "grad_norm": 0.7612826824188232,
      "learning_rate": 0.0001870264994221836,
      "loss": 3.8804,
      "step": 203050
    },
    {
      "epoch": 0.42304166666666665,
      "grad_norm": 0.7577881813049316,
      "learning_rate": 0.00018701694585687695,
      "loss": 3.8034,
      "step": 203060
    },
    {
      "epoch": 0.4230625,
      "grad_norm": 0.8209064602851868,
      "learning_rate": 0.00018700739213167183,
      "loss": 3.8411,
      "step": 203070
    },
    {
      "epoch": 0.4230833333333333,
      "grad_norm": 0.7172402739524841,
      "learning_rate": 0.00018699783824660938,
      "loss": 3.8379,
      "step": 203080
    },
    {
      "epoch": 0.42310416666666667,
      "grad_norm": 0.8950208425521851,
      "learning_rate": 0.0001869882842017309,
      "loss": 3.809,
      "step": 203090
    },
    {
      "epoch": 0.423125,
      "grad_norm": 0.89268559217453,
      "learning_rate": 0.00018697872999707768,
      "loss": 3.8666,
      "step": 203100
    },
    {
      "epoch": 0.42314583333333333,
      "grad_norm": 0.8372119069099426,
      "learning_rate": 0.000186969175632691,
      "loss": 3.768,
      "step": 203110
    },
    {
      "epoch": 0.4231666666666667,
      "grad_norm": 0.7588700652122498,
      "learning_rate": 0.0001869596211086121,
      "loss": 3.8035,
      "step": 203120
    },
    {
      "epoch": 0.4231875,
      "grad_norm": 0.8258703351020813,
      "learning_rate": 0.0001869500664248823,
      "loss": 3.6722,
      "step": 203130
    },
    {
      "epoch": 0.42320833333333335,
      "grad_norm": 0.797055184841156,
      "learning_rate": 0.00018694051158154278,
      "loss": 3.7027,
      "step": 203140
    },
    {
      "epoch": 0.42322916666666666,
      "grad_norm": 0.7143157720565796,
      "learning_rate": 0.00018693095657863496,
      "loss": 3.6886,
      "step": 203150
    },
    {
      "epoch": 0.42325,
      "grad_norm": 0.9035651087760925,
      "learning_rate": 0.00018692140141619994,
      "loss": 4.0567,
      "step": 203160
    },
    {
      "epoch": 0.4232708333333333,
      "grad_norm": 0.7936192750930786,
      "learning_rate": 0.00018691184609427906,
      "loss": 4.0178,
      "step": 203170
    },
    {
      "epoch": 0.4232916666666667,
      "grad_norm": 1.1577168703079224,
      "learning_rate": 0.0001869022906129137,
      "loss": 3.6285,
      "step": 203180
    },
    {
      "epoch": 0.4233125,
      "grad_norm": 0.7332436442375183,
      "learning_rate": 0.00018689273497214502,
      "loss": 3.6881,
      "step": 203190
    },
    {
      "epoch": 0.42333333333333334,
      "grad_norm": 0.9159241318702698,
      "learning_rate": 0.00018688317917201432,
      "loss": 3.9608,
      "step": 203200
    },
    {
      "epoch": 0.42335416666666664,
      "grad_norm": 0.7189387679100037,
      "learning_rate": 0.0001868736232125629,
      "loss": 3.9176,
      "step": 203210
    },
    {
      "epoch": 0.423375,
      "grad_norm": 0.7315757870674133,
      "learning_rate": 0.000186864067093832,
      "loss": 3.6527,
      "step": 203220
    },
    {
      "epoch": 0.42339583333333336,
      "grad_norm": 0.7040661573410034,
      "learning_rate": 0.00018685451081586297,
      "loss": 3.8907,
      "step": 203230
    },
    {
      "epoch": 0.42341666666666666,
      "grad_norm": 0.8587117791175842,
      "learning_rate": 0.00018684495437869698,
      "loss": 3.9194,
      "step": 203240
    },
    {
      "epoch": 0.4234375,
      "grad_norm": 0.7769238948822021,
      "learning_rate": 0.0001868353977823754,
      "loss": 3.9247,
      "step": 203250
    },
    {
      "epoch": 0.4234583333333333,
      "grad_norm": 0.8109422922134399,
      "learning_rate": 0.00018682584102693953,
      "loss": 4.0006,
      "step": 203260
    },
    {
      "epoch": 0.4234791666666667,
      "grad_norm": 0.871062159538269,
      "learning_rate": 0.0001868162841124305,
      "loss": 3.799,
      "step": 203270
    },
    {
      "epoch": 0.4235,
      "grad_norm": 0.7722070217132568,
      "learning_rate": 0.00018680672703888973,
      "loss": 3.911,
      "step": 203280
    },
    {
      "epoch": 0.42352083333333335,
      "grad_norm": 0.7925694584846497,
      "learning_rate": 0.0001867971698063585,
      "loss": 3.7288,
      "step": 203290
    },
    {
      "epoch": 0.42354166666666665,
      "grad_norm": 0.9185896515846252,
      "learning_rate": 0.00018678761241487809,
      "loss": 3.8191,
      "step": 203300
    },
    {
      "epoch": 0.4235625,
      "grad_norm": 0.7969110012054443,
      "learning_rate": 0.00018677805486448968,
      "loss": 4.0129,
      "step": 203310
    },
    {
      "epoch": 0.4235833333333333,
      "grad_norm": 0.9055123925209045,
      "learning_rate": 0.00018676849715523468,
      "loss": 3.758,
      "step": 203320
    },
    {
      "epoch": 0.42360416666666667,
      "grad_norm": 0.8249528408050537,
      "learning_rate": 0.0001867589392871543,
      "loss": 3.6672,
      "step": 203330
    },
    {
      "epoch": 0.423625,
      "grad_norm": 1.0604455471038818,
      "learning_rate": 0.00018674938126028983,
      "loss": 3.897,
      "step": 203340
    },
    {
      "epoch": 0.42364583333333333,
      "grad_norm": 0.8248727917671204,
      "learning_rate": 0.00018673982307468266,
      "loss": 3.7333,
      "step": 203350
    },
    {
      "epoch": 0.4236666666666667,
      "grad_norm": 0.7670652270317078,
      "learning_rate": 0.00018673026473037396,
      "loss": 3.7217,
      "step": 203360
    },
    {
      "epoch": 0.4236875,
      "grad_norm": 0.7835984826087952,
      "learning_rate": 0.00018672070622740504,
      "loss": 3.936,
      "step": 203370
    },
    {
      "epoch": 0.42370833333333335,
      "grad_norm": 0.8408973813056946,
      "learning_rate": 0.00018671114756581717,
      "loss": 3.7456,
      "step": 203380
    },
    {
      "epoch": 0.42372916666666666,
      "grad_norm": 0.8768576979637146,
      "learning_rate": 0.00018670158874565173,
      "loss": 3.973,
      "step": 203390
    },
    {
      "epoch": 0.42375,
      "grad_norm": 0.9221788048744202,
      "learning_rate": 0.0001866920297669499,
      "loss": 3.9759,
      "step": 203400
    },
    {
      "epoch": 0.4237708333333333,
      "grad_norm": 0.8324286937713623,
      "learning_rate": 0.00018668247062975308,
      "loss": 3.8998,
      "step": 203410
    },
    {
      "epoch": 0.4237916666666667,
      "grad_norm": 0.6321693062782288,
      "learning_rate": 0.0001866729113341025,
      "loss": 3.792,
      "step": 203420
    },
    {
      "epoch": 0.4238125,
      "grad_norm": 0.8513680100440979,
      "learning_rate": 0.0001866633518800395,
      "loss": 3.785,
      "step": 203430
    },
    {
      "epoch": 0.42383333333333334,
      "grad_norm": 0.9528352618217468,
      "learning_rate": 0.00018665379226760526,
      "loss": 3.8421,
      "step": 203440
    },
    {
      "epoch": 0.42385416666666664,
      "grad_norm": 1.6170732975006104,
      "learning_rate": 0.00018664423249684114,
      "loss": 3.6635,
      "step": 203450
    },
    {
      "epoch": 0.423875,
      "grad_norm": 0.6972495317459106,
      "learning_rate": 0.0001866346725677885,
      "loss": 3.8959,
      "step": 203460
    },
    {
      "epoch": 0.42389583333333336,
      "grad_norm": 0.744269073009491,
      "learning_rate": 0.00018662511248048852,
      "loss": 3.7746,
      "step": 203470
    },
    {
      "epoch": 0.42391666666666666,
      "grad_norm": 0.904720664024353,
      "learning_rate": 0.00018661555223498257,
      "loss": 3.7759,
      "step": 203480
    },
    {
      "epoch": 0.4239375,
      "grad_norm": 0.7663127779960632,
      "learning_rate": 0.00018660599183131197,
      "loss": 3.8416,
      "step": 203490
    },
    {
      "epoch": 0.4239583333333333,
      "grad_norm": 0.8915475606918335,
      "learning_rate": 0.00018659643126951793,
      "loss": 3.9334,
      "step": 203500
    },
    {
      "epoch": 0.4239791666666667,
      "grad_norm": 0.9148394465446472,
      "learning_rate": 0.00018658687054964177,
      "loss": 3.768,
      "step": 203510
    },
    {
      "epoch": 0.424,
      "grad_norm": 0.8491105437278748,
      "learning_rate": 0.00018657730967172487,
      "loss": 3.909,
      "step": 203520
    },
    {
      "epoch": 0.42402083333333335,
      "grad_norm": 0.8650269508361816,
      "learning_rate": 0.0001865677486358084,
      "loss": 3.8208,
      "step": 203530
    },
    {
      "epoch": 0.42404166666666665,
      "grad_norm": 0.7482050657272339,
      "learning_rate": 0.00018655818744193377,
      "loss": 3.7405,
      "step": 203540
    },
    {
      "epoch": 0.4240625,
      "grad_norm": 0.8740307688713074,
      "learning_rate": 0.00018654862609014227,
      "loss": 3.7228,
      "step": 203550
    },
    {
      "epoch": 0.4240833333333333,
      "grad_norm": 0.8281369805335999,
      "learning_rate": 0.00018653906458047516,
      "loss": 3.8002,
      "step": 203560
    },
    {
      "epoch": 0.42410416666666667,
      "grad_norm": 0.6836132407188416,
      "learning_rate": 0.00018652950291297372,
      "loss": 3.7377,
      "step": 203570
    },
    {
      "epoch": 0.424125,
      "grad_norm": 0.7322477698326111,
      "learning_rate": 0.0001865199410876793,
      "loss": 3.8253,
      "step": 203580
    },
    {
      "epoch": 0.42414583333333333,
      "grad_norm": 0.7863352298736572,
      "learning_rate": 0.0001865103791046332,
      "loss": 3.9982,
      "step": 203590
    },
    {
      "epoch": 0.4241666666666667,
      "grad_norm": 0.8457711935043335,
      "learning_rate": 0.0001865008169638767,
      "loss": 3.9307,
      "step": 203600
    },
    {
      "epoch": 0.4241875,
      "grad_norm": 0.7785376310348511,
      "learning_rate": 0.00018649125466545114,
      "loss": 3.7083,
      "step": 203610
    },
    {
      "epoch": 0.42420833333333335,
      "grad_norm": 1.3162661790847778,
      "learning_rate": 0.0001864816922093978,
      "loss": 3.8795,
      "step": 203620
    },
    {
      "epoch": 0.42422916666666666,
      "grad_norm": 0.8607888221740723,
      "learning_rate": 0.000186472129595758,
      "loss": 3.9639,
      "step": 203630
    },
    {
      "epoch": 0.42425,
      "grad_norm": 0.9053769707679749,
      "learning_rate": 0.000186462566824573,
      "loss": 3.7962,
      "step": 203640
    },
    {
      "epoch": 0.4242708333333333,
      "grad_norm": 0.8060861825942993,
      "learning_rate": 0.00018645300389588416,
      "loss": 3.7265,
      "step": 203650
    },
    {
      "epoch": 0.4242916666666667,
      "grad_norm": 0.795013427734375,
      "learning_rate": 0.0001864434408097328,
      "loss": 3.766,
      "step": 203660
    },
    {
      "epoch": 0.4243125,
      "grad_norm": 0.801575779914856,
      "learning_rate": 0.00018643387756616013,
      "loss": 3.9418,
      "step": 203670
    },
    {
      "epoch": 0.42433333333333334,
      "grad_norm": 0.7590999007225037,
      "learning_rate": 0.00018642431416520758,
      "loss": 3.739,
      "step": 203680
    },
    {
      "epoch": 0.42435416666666664,
      "grad_norm": 0.8223508596420288,
      "learning_rate": 0.00018641475060691645,
      "loss": 3.8352,
      "step": 203690
    },
    {
      "epoch": 0.424375,
      "grad_norm": 0.9033827781677246,
      "learning_rate": 0.00018640518689132796,
      "loss": 3.8168,
      "step": 203700
    },
    {
      "epoch": 0.42439583333333336,
      "grad_norm": 0.7561221718788147,
      "learning_rate": 0.00018639562301848346,
      "loss": 3.9248,
      "step": 203710
    },
    {
      "epoch": 0.42441666666666666,
      "grad_norm": 0.7547468543052673,
      "learning_rate": 0.00018638605898842433,
      "loss": 3.8753,
      "step": 203720
    },
    {
      "epoch": 0.4244375,
      "grad_norm": 0.9535515904426575,
      "learning_rate": 0.0001863764948011918,
      "loss": 3.9081,
      "step": 203730
    },
    {
      "epoch": 0.4244583333333333,
      "grad_norm": 0.7844325304031372,
      "learning_rate": 0.0001863669304568272,
      "loss": 3.8155,
      "step": 203740
    },
    {
      "epoch": 0.4244791666666667,
      "grad_norm": 0.7219519019126892,
      "learning_rate": 0.00018635736595537186,
      "loss": 4.0066,
      "step": 203750
    },
    {
      "epoch": 0.4245,
      "grad_norm": 0.974809467792511,
      "learning_rate": 0.00018634780129686709,
      "loss": 4.1166,
      "step": 203760
    },
    {
      "epoch": 0.42452083333333335,
      "grad_norm": 0.7785565257072449,
      "learning_rate": 0.0001863382364813542,
      "loss": 3.7934,
      "step": 203770
    },
    {
      "epoch": 0.42454166666666665,
      "grad_norm": 0.7311457991600037,
      "learning_rate": 0.00018632867150887453,
      "loss": 3.8412,
      "step": 203780
    },
    {
      "epoch": 0.4245625,
      "grad_norm": 0.7520766854286194,
      "learning_rate": 0.00018631910637946936,
      "loss": 3.7691,
      "step": 203790
    },
    {
      "epoch": 0.4245833333333333,
      "grad_norm": 0.8149049878120422,
      "learning_rate": 0.00018630954109318006,
      "loss": 3.8184,
      "step": 203800
    },
    {
      "epoch": 0.42460416666666667,
      "grad_norm": 0.7691165804862976,
      "learning_rate": 0.00018629997565004785,
      "loss": 3.9297,
      "step": 203810
    },
    {
      "epoch": 0.424625,
      "grad_norm": 0.8492720127105713,
      "learning_rate": 0.00018629041005011418,
      "loss": 3.8313,
      "step": 203820
    },
    {
      "epoch": 0.42464583333333333,
      "grad_norm": 0.6909393668174744,
      "learning_rate": 0.0001862808442934203,
      "loss": 4.0428,
      "step": 203830
    },
    {
      "epoch": 0.4246666666666667,
      "grad_norm": 0.9118713736534119,
      "learning_rate": 0.00018627127838000747,
      "loss": 3.9569,
      "step": 203840
    },
    {
      "epoch": 0.4246875,
      "grad_norm": 0.7478897571563721,
      "learning_rate": 0.00018626171230991714,
      "loss": 3.7902,
      "step": 203850
    },
    {
      "epoch": 0.42470833333333335,
      "grad_norm": 0.7100585103034973,
      "learning_rate": 0.00018625214608319055,
      "loss": 3.8134,
      "step": 203860
    },
    {
      "epoch": 0.42472916666666666,
      "grad_norm": 0.7874055504798889,
      "learning_rate": 0.00018624257969986904,
      "loss": 3.768,
      "step": 203870
    },
    {
      "epoch": 0.42475,
      "grad_norm": 0.7688024640083313,
      "learning_rate": 0.0001862330131599939,
      "loss": 3.747,
      "step": 203880
    },
    {
      "epoch": 0.4247708333333333,
      "grad_norm": 0.7888466715812683,
      "learning_rate": 0.00018622344646360652,
      "loss": 3.8137,
      "step": 203890
    },
    {
      "epoch": 0.4247916666666667,
      "grad_norm": 0.9598780274391174,
      "learning_rate": 0.00018621387961074819,
      "loss": 3.8619,
      "step": 203900
    },
    {
      "epoch": 0.4248125,
      "grad_norm": 0.8056150674819946,
      "learning_rate": 0.00018620431260146021,
      "loss": 3.9866,
      "step": 203910
    },
    {
      "epoch": 0.42483333333333334,
      "grad_norm": 0.9861893057823181,
      "learning_rate": 0.00018619474543578391,
      "loss": 3.8113,
      "step": 203920
    },
    {
      "epoch": 0.42485416666666664,
      "grad_norm": 0.7045373916625977,
      "learning_rate": 0.0001861851781137607,
      "loss": 3.8733,
      "step": 203930
    },
    {
      "epoch": 0.424875,
      "grad_norm": 0.8080033659934998,
      "learning_rate": 0.00018617561063543177,
      "loss": 3.9066,
      "step": 203940
    },
    {
      "epoch": 0.4248958333333333,
      "grad_norm": 0.9534060955047607,
      "learning_rate": 0.0001861660430008386,
      "loss": 3.7592,
      "step": 203950
    },
    {
      "epoch": 0.42491666666666666,
      "grad_norm": 0.8911580443382263,
      "learning_rate": 0.0001861564752100224,
      "loss": 3.775,
      "step": 203960
    },
    {
      "epoch": 0.4249375,
      "grad_norm": 0.7252312302589417,
      "learning_rate": 0.00018614690726302454,
      "loss": 3.8074,
      "step": 203970
    },
    {
      "epoch": 0.4249583333333333,
      "grad_norm": 0.9052013754844666,
      "learning_rate": 0.00018613733915988636,
      "loss": 3.749,
      "step": 203980
    },
    {
      "epoch": 0.4249791666666667,
      "grad_norm": 0.7280389666557312,
      "learning_rate": 0.00018612777090064916,
      "loss": 3.8911,
      "step": 203990
    },
    {
      "epoch": 0.425,
      "grad_norm": 0.8014105558395386,
      "learning_rate": 0.0001861182024853543,
      "loss": 3.8286,
      "step": 204000
    },
    {
      "epoch": 0.425,
      "eval_loss": 4.1889328956604,
      "eval_runtime": 8.965,
      "eval_samples_per_second": 1.115,
      "eval_steps_per_second": 0.335,
      "step": 204000
    },
    {
      "epoch": 0.42502083333333335,
      "grad_norm": 0.8225648999214172,
      "learning_rate": 0.00018610863391404307,
      "loss": 3.9131,
      "step": 204010
    },
    {
      "epoch": 0.42504166666666665,
      "grad_norm": 0.7488694190979004,
      "learning_rate": 0.00018609906518675693,
      "loss": 3.8728,
      "step": 204020
    },
    {
      "epoch": 0.4250625,
      "grad_norm": 0.7937237620353699,
      "learning_rate": 0.00018608949630353705,
      "loss": 3.8144,
      "step": 204030
    },
    {
      "epoch": 0.4250833333333333,
      "grad_norm": 0.747955322265625,
      "learning_rate": 0.00018607992726442477,
      "loss": 3.917,
      "step": 204040
    },
    {
      "epoch": 0.42510416666666667,
      "grad_norm": 0.6603049039840698,
      "learning_rate": 0.0001860703580694616,
      "loss": 3.821,
      "step": 204050
    },
    {
      "epoch": 0.425125,
      "grad_norm": 0.7571349740028381,
      "learning_rate": 0.0001860607887186887,
      "loss": 3.846,
      "step": 204060
    },
    {
      "epoch": 0.42514583333333333,
      "grad_norm": 0.7347087264060974,
      "learning_rate": 0.0001860512192121475,
      "loss": 3.8553,
      "step": 204070
    },
    {
      "epoch": 0.4251666666666667,
      "grad_norm": 1.224963903427124,
      "learning_rate": 0.00018604164954987926,
      "loss": 3.6845,
      "step": 204080
    },
    {
      "epoch": 0.4251875,
      "grad_norm": 1.0905221700668335,
      "learning_rate": 0.0001860320797319254,
      "loss": 3.8234,
      "step": 204090
    },
    {
      "epoch": 0.42520833333333335,
      "grad_norm": 0.7362592220306396,
      "learning_rate": 0.00018602250975832717,
      "loss": 4.0004,
      "step": 204100
    },
    {
      "epoch": 0.42522916666666666,
      "grad_norm": 0.7986324429512024,
      "learning_rate": 0.000186012939629126,
      "loss": 3.8069,
      "step": 204110
    },
    {
      "epoch": 0.42525,
      "grad_norm": 0.8714006543159485,
      "learning_rate": 0.00018600336934436316,
      "loss": 3.8567,
      "step": 204120
    },
    {
      "epoch": 0.4252708333333333,
      "grad_norm": 0.7272347807884216,
      "learning_rate": 0.00018599379890408004,
      "loss": 3.8712,
      "step": 204130
    },
    {
      "epoch": 0.4252916666666667,
      "grad_norm": 0.6466178894042969,
      "learning_rate": 0.00018598422830831793,
      "loss": 3.8476,
      "step": 204140
    },
    {
      "epoch": 0.4253125,
      "grad_norm": 0.8461854457855225,
      "learning_rate": 0.0001859746575571182,
      "loss": 3.7652,
      "step": 204150
    },
    {
      "epoch": 0.42533333333333334,
      "grad_norm": 0.7847316861152649,
      "learning_rate": 0.00018596508665052225,
      "loss": 3.7737,
      "step": 204160
    },
    {
      "epoch": 0.42535416666666664,
      "grad_norm": 0.6941251754760742,
      "learning_rate": 0.00018595551558857126,
      "loss": 3.8704,
      "step": 204170
    },
    {
      "epoch": 0.425375,
      "grad_norm": 1.0013316869735718,
      "learning_rate": 0.0001859459443713067,
      "loss": 3.8675,
      "step": 204180
    },
    {
      "epoch": 0.4253958333333333,
      "grad_norm": 0.6890354752540588,
      "learning_rate": 0.00018593637299876996,
      "loss": 3.8637,
      "step": 204190
    },
    {
      "epoch": 0.42541666666666667,
      "grad_norm": 0.9731955528259277,
      "learning_rate": 0.00018592680147100227,
      "loss": 3.9666,
      "step": 204200
    },
    {
      "epoch": 0.4254375,
      "grad_norm": 0.9031330347061157,
      "learning_rate": 0.000185917229788045,
      "loss": 3.999,
      "step": 204210
    },
    {
      "epoch": 0.4254583333333333,
      "grad_norm": 0.7701923251152039,
      "learning_rate": 0.00018590765794993953,
      "loss": 3.7706,
      "step": 204220
    },
    {
      "epoch": 0.4254791666666667,
      "grad_norm": 0.8529745936393738,
      "learning_rate": 0.0001858980859567272,
      "loss": 3.7928,
      "step": 204230
    },
    {
      "epoch": 0.4255,
      "grad_norm": 0.7185645699501038,
      "learning_rate": 0.00018588851380844934,
      "loss": 3.6502,
      "step": 204240
    },
    {
      "epoch": 0.42552083333333335,
      "grad_norm": 0.8023987412452698,
      "learning_rate": 0.0001858789415051473,
      "loss": 3.7753,
      "step": 204250
    },
    {
      "epoch": 0.42554166666666665,
      "grad_norm": 0.7661877870559692,
      "learning_rate": 0.00018586936904686242,
      "loss": 3.7464,
      "step": 204260
    },
    {
      "epoch": 0.4255625,
      "grad_norm": 0.7921116352081299,
      "learning_rate": 0.0001858597964336361,
      "loss": 3.7468,
      "step": 204270
    },
    {
      "epoch": 0.4255833333333333,
      "grad_norm": 0.7524197697639465,
      "learning_rate": 0.00018585022366550963,
      "loss": 3.8374,
      "step": 204280
    },
    {
      "epoch": 0.4256041666666667,
      "grad_norm": 0.7955407500267029,
      "learning_rate": 0.0001858406507425244,
      "loss": 3.8744,
      "step": 204290
    },
    {
      "epoch": 0.425625,
      "grad_norm": 0.7023957371711731,
      "learning_rate": 0.00018583107766472176,
      "loss": 3.757,
      "step": 204300
    },
    {
      "epoch": 0.42564583333333333,
      "grad_norm": 0.7077821493148804,
      "learning_rate": 0.000185821504432143,
      "loss": 3.8499,
      "step": 204310
    },
    {
      "epoch": 0.4256666666666667,
      "grad_norm": 0.8043984174728394,
      "learning_rate": 0.00018581193104482953,
      "loss": 3.7431,
      "step": 204320
    },
    {
      "epoch": 0.4256875,
      "grad_norm": 0.7183283567428589,
      "learning_rate": 0.00018580235750282272,
      "loss": 3.7612,
      "step": 204330
    },
    {
      "epoch": 0.42570833333333336,
      "grad_norm": 0.7681713700294495,
      "learning_rate": 0.00018579278380616388,
      "loss": 3.642,
      "step": 204340
    },
    {
      "epoch": 0.42572916666666666,
      "grad_norm": 0.7423334121704102,
      "learning_rate": 0.0001857832099548944,
      "loss": 3.932,
      "step": 204350
    },
    {
      "epoch": 0.42575,
      "grad_norm": 0.7360796928405762,
      "learning_rate": 0.00018577363594905562,
      "loss": 3.8337,
      "step": 204360
    },
    {
      "epoch": 0.4257708333333333,
      "grad_norm": 0.7960636019706726,
      "learning_rate": 0.00018576406178868888,
      "loss": 3.6027,
      "step": 204370
    },
    {
      "epoch": 0.4257916666666667,
      "grad_norm": 0.7596943974494934,
      "learning_rate": 0.0001857544874738355,
      "loss": 3.8093,
      "step": 204380
    },
    {
      "epoch": 0.4258125,
      "grad_norm": 0.7273600697517395,
      "learning_rate": 0.00018574491300453697,
      "loss": 3.8843,
      "step": 204390
    },
    {
      "epoch": 0.42583333333333334,
      "grad_norm": 0.744003415107727,
      "learning_rate": 0.00018573533838083452,
      "loss": 3.9336,
      "step": 204400
    },
    {
      "epoch": 0.42585416666666664,
      "grad_norm": 0.885864794254303,
      "learning_rate": 0.00018572576360276953,
      "loss": 4.0049,
      "step": 204410
    },
    {
      "epoch": 0.425875,
      "grad_norm": 0.795120894908905,
      "learning_rate": 0.00018571618867038343,
      "loss": 3.9195,
      "step": 204420
    },
    {
      "epoch": 0.4258958333333333,
      "grad_norm": 0.7216554880142212,
      "learning_rate": 0.00018570661358371753,
      "loss": 3.8704,
      "step": 204430
    },
    {
      "epoch": 0.42591666666666667,
      "grad_norm": 0.7463579773902893,
      "learning_rate": 0.00018569703834281319,
      "loss": 3.7264,
      "step": 204440
    },
    {
      "epoch": 0.4259375,
      "grad_norm": 0.7791361808776855,
      "learning_rate": 0.00018568746294771174,
      "loss": 3.8102,
      "step": 204450
    },
    {
      "epoch": 0.4259583333333333,
      "grad_norm": 0.782279908657074,
      "learning_rate": 0.0001856778873984546,
      "loss": 3.7845,
      "step": 204460
    },
    {
      "epoch": 0.4259791666666667,
      "grad_norm": 0.7355350852012634,
      "learning_rate": 0.00018566831169508313,
      "loss": 3.7375,
      "step": 204470
    },
    {
      "epoch": 0.426,
      "grad_norm": 0.80596923828125,
      "learning_rate": 0.00018565873583763863,
      "loss": 3.8728,
      "step": 204480
    },
    {
      "epoch": 0.42602083333333335,
      "grad_norm": 0.7417251467704773,
      "learning_rate": 0.00018564915982616253,
      "loss": 3.765,
      "step": 204490
    },
    {
      "epoch": 0.42604166666666665,
      "grad_norm": 0.8180227875709534,
      "learning_rate": 0.0001856395836606962,
      "loss": 4.0039,
      "step": 204500
    },
    {
      "epoch": 0.4260625,
      "grad_norm": 0.7837225198745728,
      "learning_rate": 0.0001856300073412809,
      "loss": 3.7159,
      "step": 204510
    },
    {
      "epoch": 0.4260833333333333,
      "grad_norm": 0.7584799528121948,
      "learning_rate": 0.0001856204308679581,
      "loss": 3.7515,
      "step": 204520
    },
    {
      "epoch": 0.4261041666666667,
      "grad_norm": 0.7718093395233154,
      "learning_rate": 0.0001856108542407692,
      "loss": 3.8315,
      "step": 204530
    },
    {
      "epoch": 0.426125,
      "grad_norm": 0.6984807252883911,
      "learning_rate": 0.0001856012774597554,
      "loss": 3.8496,
      "step": 204540
    },
    {
      "epoch": 0.42614583333333333,
      "grad_norm": 0.7824437618255615,
      "learning_rate": 0.00018559170052495825,
      "loss": 3.9163,
      "step": 204550
    },
    {
      "epoch": 0.4261666666666667,
      "grad_norm": 0.8571760058403015,
      "learning_rate": 0.00018558212343641902,
      "loss": 3.8915,
      "step": 204560
    },
    {
      "epoch": 0.4261875,
      "grad_norm": 0.6625521183013916,
      "learning_rate": 0.00018557254619417914,
      "loss": 3.7353,
      "step": 204570
    },
    {
      "epoch": 0.42620833333333336,
      "grad_norm": 0.8615989685058594,
      "learning_rate": 0.00018556296879827986,
      "loss": 3.7852,
      "step": 204580
    },
    {
      "epoch": 0.42622916666666666,
      "grad_norm": 0.9428996443748474,
      "learning_rate": 0.0001855533912487627,
      "loss": 3.7011,
      "step": 204590
    },
    {
      "epoch": 0.42625,
      "grad_norm": 0.7575734853744507,
      "learning_rate": 0.0001855438135456689,
      "loss": 3.8786,
      "step": 204600
    },
    {
      "epoch": 0.4262708333333333,
      "grad_norm": 0.6964179873466492,
      "learning_rate": 0.00018553423568903998,
      "loss": 3.8278,
      "step": 204610
    },
    {
      "epoch": 0.4262916666666667,
      "grad_norm": 0.742982804775238,
      "learning_rate": 0.00018552465767891717,
      "loss": 3.686,
      "step": 204620
    },
    {
      "epoch": 0.4263125,
      "grad_norm": 0.9606332182884216,
      "learning_rate": 0.0001855150795153419,
      "loss": 3.7659,
      "step": 204630
    },
    {
      "epoch": 0.42633333333333334,
      "grad_norm": 0.7835068702697754,
      "learning_rate": 0.00018550550119835556,
      "loss": 3.7497,
      "step": 204640
    },
    {
      "epoch": 0.42635416666666665,
      "grad_norm": 0.9306955933570862,
      "learning_rate": 0.00018549592272799952,
      "loss": 3.7528,
      "step": 204650
    },
    {
      "epoch": 0.426375,
      "grad_norm": 0.8261277675628662,
      "learning_rate": 0.0001854863441043151,
      "loss": 3.8011,
      "step": 204660
    },
    {
      "epoch": 0.4263958333333333,
      "grad_norm": 0.7493314743041992,
      "learning_rate": 0.00018547676532734375,
      "loss": 3.7092,
      "step": 204670
    },
    {
      "epoch": 0.42641666666666667,
      "grad_norm": 0.720406174659729,
      "learning_rate": 0.00018546718639712682,
      "loss": 3.9054,
      "step": 204680
    },
    {
      "epoch": 0.4264375,
      "grad_norm": 0.7821884751319885,
      "learning_rate": 0.00018545760731370568,
      "loss": 3.803,
      "step": 204690
    },
    {
      "epoch": 0.42645833333333333,
      "grad_norm": 0.8173019289970398,
      "learning_rate": 0.0001854480280771217,
      "loss": 3.8806,
      "step": 204700
    },
    {
      "epoch": 0.4264791666666667,
      "grad_norm": 0.765231728553772,
      "learning_rate": 0.00018543844868741628,
      "loss": 3.9378,
      "step": 204710
    },
    {
      "epoch": 0.4265,
      "grad_norm": 0.6810105443000793,
      "learning_rate": 0.0001854288691446308,
      "loss": 3.8177,
      "step": 204720
    },
    {
      "epoch": 0.42652083333333335,
      "grad_norm": 0.8670846223831177,
      "learning_rate": 0.00018541928944880662,
      "loss": 3.7452,
      "step": 204730
    },
    {
      "epoch": 0.42654166666666665,
      "grad_norm": 0.855144202709198,
      "learning_rate": 0.00018540970959998515,
      "loss": 3.8463,
      "step": 204740
    },
    {
      "epoch": 0.4265625,
      "grad_norm": 0.7602840662002563,
      "learning_rate": 0.00018540012959820772,
      "loss": 4.0969,
      "step": 204750
    },
    {
      "epoch": 0.4265833333333333,
      "grad_norm": 0.9871722459793091,
      "learning_rate": 0.00018539054944351574,
      "loss": 3.7805,
      "step": 204760
    },
    {
      "epoch": 0.4266041666666667,
      "grad_norm": 0.6738527417182922,
      "learning_rate": 0.0001853809691359506,
      "loss": 3.7482,
      "step": 204770
    },
    {
      "epoch": 0.426625,
      "grad_norm": 0.7625249028205872,
      "learning_rate": 0.0001853713886755537,
      "loss": 3.9137,
      "step": 204780
    },
    {
      "epoch": 0.42664583333333334,
      "grad_norm": 1.031105399131775,
      "learning_rate": 0.00018536180806236639,
      "loss": 3.6117,
      "step": 204790
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 0.7910388112068176,
      "learning_rate": 0.00018535222729643003,
      "loss": 3.842,
      "step": 204800
    },
    {
      "epoch": 0.4266875,
      "grad_norm": 0.8100233674049377,
      "learning_rate": 0.0001853426463777861,
      "loss": 3.8145,
      "step": 204810
    },
    {
      "epoch": 0.42670833333333336,
      "grad_norm": 0.8459026217460632,
      "learning_rate": 0.00018533306530647587,
      "loss": 3.9541,
      "step": 204820
    },
    {
      "epoch": 0.42672916666666666,
      "grad_norm": 0.8755667805671692,
      "learning_rate": 0.00018532348408254083,
      "loss": 3.7197,
      "step": 204830
    },
    {
      "epoch": 0.42675,
      "grad_norm": 0.8626455664634705,
      "learning_rate": 0.0001853139027060223,
      "loss": 3.7329,
      "step": 204840
    },
    {
      "epoch": 0.4267708333333333,
      "grad_norm": 0.7538270354270935,
      "learning_rate": 0.00018530432117696167,
      "loss": 3.8356,
      "step": 204850
    },
    {
      "epoch": 0.4267916666666667,
      "grad_norm": 0.8621108531951904,
      "learning_rate": 0.0001852947394954004,
      "loss": 3.9377,
      "step": 204860
    },
    {
      "epoch": 0.4268125,
      "grad_norm": 0.812701404094696,
      "learning_rate": 0.00018528515766137981,
      "loss": 3.902,
      "step": 204870
    },
    {
      "epoch": 0.42683333333333334,
      "grad_norm": 0.7952451109886169,
      "learning_rate": 0.00018527557567494125,
      "loss": 3.9882,
      "step": 204880
    },
    {
      "epoch": 0.42685416666666665,
      "grad_norm": 0.7224379777908325,
      "learning_rate": 0.00018526599353612628,
      "loss": 3.8124,
      "step": 204890
    },
    {
      "epoch": 0.426875,
      "grad_norm": 0.9119526147842407,
      "learning_rate": 0.00018525641124497608,
      "loss": 3.9399,
      "step": 204900
    },
    {
      "epoch": 0.4268958333333333,
      "grad_norm": 0.842302143573761,
      "learning_rate": 0.00018524682880153215,
      "loss": 3.8233,
      "step": 204910
    },
    {
      "epoch": 0.42691666666666667,
      "grad_norm": 0.8082537651062012,
      "learning_rate": 0.0001852372462058359,
      "loss": 3.9008,
      "step": 204920
    },
    {
      "epoch": 0.4269375,
      "grad_norm": 0.9020940661430359,
      "learning_rate": 0.00018522766345792867,
      "loss": 3.9688,
      "step": 204930
    },
    {
      "epoch": 0.42695833333333333,
      "grad_norm": 0.7180628180503845,
      "learning_rate": 0.00018521808055785188,
      "loss": 3.8511,
      "step": 204940
    },
    {
      "epoch": 0.4269791666666667,
      "grad_norm": 0.9056506752967834,
      "learning_rate": 0.00018520849750564694,
      "loss": 3.9042,
      "step": 204950
    },
    {
      "epoch": 0.427,
      "grad_norm": 0.8303362727165222,
      "learning_rate": 0.00018519891430135522,
      "loss": 3.6918,
      "step": 204960
    },
    {
      "epoch": 0.42702083333333335,
      "grad_norm": 0.8226765394210815,
      "learning_rate": 0.00018518933094501813,
      "loss": 3.9441,
      "step": 204970
    },
    {
      "epoch": 0.42704166666666665,
      "grad_norm": 0.7465816140174866,
      "learning_rate": 0.00018517974743667703,
      "loss": 3.7792,
      "step": 204980
    },
    {
      "epoch": 0.4270625,
      "grad_norm": 1.0268819332122803,
      "learning_rate": 0.00018517016377637337,
      "loss": 3.7457,
      "step": 204990
    },
    {
      "epoch": 0.4270833333333333,
      "grad_norm": 0.8045231103897095,
      "learning_rate": 0.0001851605799641485,
      "loss": 3.8354,
      "step": 205000
    },
    {
      "epoch": 0.4270833333333333,
      "eval_loss": 4.183697700500488,
      "eval_runtime": 7.8551,
      "eval_samples_per_second": 1.273,
      "eval_steps_per_second": 0.382,
      "step": 205000
    },
    {
      "epoch": 0.4271041666666667,
      "grad_norm": 0.8671076893806458,
      "learning_rate": 0.0001851509960000439,
      "loss": 4.0419,
      "step": 205010
    },
    {
      "epoch": 0.427125,
      "grad_norm": 0.853135883808136,
      "learning_rate": 0.00018514141188410085,
      "loss": 3.7441,
      "step": 205020
    },
    {
      "epoch": 0.42714583333333334,
      "grad_norm": 0.7638596892356873,
      "learning_rate": 0.00018513182761636086,
      "loss": 3.817,
      "step": 205030
    },
    {
      "epoch": 0.42716666666666664,
      "grad_norm": 0.7222057580947876,
      "learning_rate": 0.0001851222431968652,
      "loss": 3.991,
      "step": 205040
    },
    {
      "epoch": 0.4271875,
      "grad_norm": 0.7180519700050354,
      "learning_rate": 0.0001851126586256554,
      "loss": 3.955,
      "step": 205050
    },
    {
      "epoch": 0.42720833333333336,
      "grad_norm": 0.7934364676475525,
      "learning_rate": 0.00018510307390277286,
      "loss": 3.8852,
      "step": 205060
    },
    {
      "epoch": 0.42722916666666666,
      "grad_norm": 0.7602272629737854,
      "learning_rate": 0.00018509348902825888,
      "loss": 3.8528,
      "step": 205070
    },
    {
      "epoch": 0.42725,
      "grad_norm": 0.8665509819984436,
      "learning_rate": 0.00018508390400215493,
      "loss": 3.8269,
      "step": 205080
    },
    {
      "epoch": 0.4272708333333333,
      "grad_norm": 0.8584831953048706,
      "learning_rate": 0.0001850743188245024,
      "loss": 3.8472,
      "step": 205090
    },
    {
      "epoch": 0.4272916666666667,
      "grad_norm": 0.9512306451797485,
      "learning_rate": 0.00018506473349534275,
      "loss": 3.676,
      "step": 205100
    },
    {
      "epoch": 0.4273125,
      "grad_norm": 0.724471926689148,
      "learning_rate": 0.00018505514801471723,
      "loss": 3.8789,
      "step": 205110
    },
    {
      "epoch": 0.42733333333333334,
      "grad_norm": 0.7928404808044434,
      "learning_rate": 0.00018504556238266743,
      "loss": 3.799,
      "step": 205120
    },
    {
      "epoch": 0.42735416666666665,
      "grad_norm": 1.0083822011947632,
      "learning_rate": 0.00018503597659923465,
      "loss": 3.7518,
      "step": 205130
    },
    {
      "epoch": 0.427375,
      "grad_norm": 0.8056104183197021,
      "learning_rate": 0.00018502639066446028,
      "loss": 4.0181,
      "step": 205140
    },
    {
      "epoch": 0.4273958333333333,
      "grad_norm": 0.7527151107788086,
      "learning_rate": 0.0001850168045783858,
      "loss": 3.8295,
      "step": 205150
    },
    {
      "epoch": 0.42741666666666667,
      "grad_norm": 0.9122253060340881,
      "learning_rate": 0.00018500721834105257,
      "loss": 3.9628,
      "step": 205160
    },
    {
      "epoch": 0.4274375,
      "grad_norm": 0.9417088627815247,
      "learning_rate": 0.00018499763195250202,
      "loss": 3.8649,
      "step": 205170
    },
    {
      "epoch": 0.42745833333333333,
      "grad_norm": 0.783983051776886,
      "learning_rate": 0.0001849880454127756,
      "loss": 3.7455,
      "step": 205180
    },
    {
      "epoch": 0.4274791666666667,
      "grad_norm": 0.7052674889564514,
      "learning_rate": 0.0001849784587219146,
      "loss": 3.9795,
      "step": 205190
    },
    {
      "epoch": 0.4275,
      "grad_norm": 0.8509355187416077,
      "learning_rate": 0.00018496887187996057,
      "loss": 3.7979,
      "step": 205200
    },
    {
      "epoch": 0.42752083333333335,
      "grad_norm": 1.0761526823043823,
      "learning_rate": 0.0001849592848869548,
      "loss": 3.8964,
      "step": 205210
    },
    {
      "epoch": 0.42754166666666665,
      "grad_norm": 0.7628764510154724,
      "learning_rate": 0.00018494969774293877,
      "loss": 4.1372,
      "step": 205220
    },
    {
      "epoch": 0.4275625,
      "grad_norm": 0.9813461303710938,
      "learning_rate": 0.00018494011044795393,
      "loss": 3.7719,
      "step": 205230
    },
    {
      "epoch": 0.4275833333333333,
      "grad_norm": 0.7779101729393005,
      "learning_rate": 0.00018493052300204158,
      "loss": 3.7698,
      "step": 205240
    },
    {
      "epoch": 0.4276041666666667,
      "grad_norm": 0.6958789229393005,
      "learning_rate": 0.00018492093540524316,
      "loss": 3.8799,
      "step": 205250
    },
    {
      "epoch": 0.427625,
      "grad_norm": 0.7525084018707275,
      "learning_rate": 0.00018491134765760022,
      "loss": 3.7489,
      "step": 205260
    },
    {
      "epoch": 0.42764583333333334,
      "grad_norm": 1.089812994003296,
      "learning_rate": 0.00018490175975915404,
      "loss": 3.9482,
      "step": 205270
    },
    {
      "epoch": 0.42766666666666664,
      "grad_norm": 0.8033272624015808,
      "learning_rate": 0.00018489217170994604,
      "loss": 3.9282,
      "step": 205280
    },
    {
      "epoch": 0.4276875,
      "grad_norm": 0.6690013408660889,
      "learning_rate": 0.0001848825835100177,
      "loss": 3.7641,
      "step": 205290
    },
    {
      "epoch": 0.42770833333333336,
      "grad_norm": 0.9086427092552185,
      "learning_rate": 0.00018487299515941043,
      "loss": 3.9321,
      "step": 205300
    },
    {
      "epoch": 0.42772916666666666,
      "grad_norm": 0.7191168069839478,
      "learning_rate": 0.0001848634066581656,
      "loss": 3.8864,
      "step": 205310
    },
    {
      "epoch": 0.42775,
      "grad_norm": 0.8165661692619324,
      "learning_rate": 0.00018485381800632464,
      "loss": 3.8101,
      "step": 205320
    },
    {
      "epoch": 0.4277708333333333,
      "grad_norm": 0.8144954442977905,
      "learning_rate": 0.000184844229203929,
      "loss": 3.6067,
      "step": 205330
    },
    {
      "epoch": 0.4277916666666667,
      "grad_norm": 0.7842534780502319,
      "learning_rate": 0.00018483464025102007,
      "loss": 3.8811,
      "step": 205340
    },
    {
      "epoch": 0.4278125,
      "grad_norm": 0.7958270311355591,
      "learning_rate": 0.0001848250511476393,
      "loss": 3.6827,
      "step": 205350
    },
    {
      "epoch": 0.42783333333333334,
      "grad_norm": 0.7725892663002014,
      "learning_rate": 0.00018481546189382807,
      "loss": 3.7739,
      "step": 205360
    },
    {
      "epoch": 0.42785416666666665,
      "grad_norm": 0.8502694368362427,
      "learning_rate": 0.00018480587248962787,
      "loss": 3.7653,
      "step": 205370
    },
    {
      "epoch": 0.427875,
      "grad_norm": 0.740541398525238,
      "learning_rate": 0.00018479628293508003,
      "loss": 3.8451,
      "step": 205380
    },
    {
      "epoch": 0.4278958333333333,
      "grad_norm": 0.8534749150276184,
      "learning_rate": 0.000184786693230226,
      "loss": 3.8573,
      "step": 205390
    },
    {
      "epoch": 0.42791666666666667,
      "grad_norm": 0.8129382729530334,
      "learning_rate": 0.0001847771033751073,
      "loss": 3.7862,
      "step": 205400
    },
    {
      "epoch": 0.4279375,
      "grad_norm": 0.7412385940551758,
      "learning_rate": 0.00018476751336976522,
      "loss": 3.8886,
      "step": 205410
    },
    {
      "epoch": 0.42795833333333333,
      "grad_norm": 0.8372806310653687,
      "learning_rate": 0.00018475792321424127,
      "loss": 3.8311,
      "step": 205420
    },
    {
      "epoch": 0.4279791666666667,
      "grad_norm": 0.7183703780174255,
      "learning_rate": 0.00018474833290857689,
      "loss": 3.8935,
      "step": 205430
    },
    {
      "epoch": 0.428,
      "grad_norm": 0.8000779151916504,
      "learning_rate": 0.00018473874245281341,
      "loss": 3.7657,
      "step": 205440
    },
    {
      "epoch": 0.42802083333333335,
      "grad_norm": 0.7562931776046753,
      "learning_rate": 0.0001847291518469923,
      "loss": 3.7202,
      "step": 205450
    },
    {
      "epoch": 0.42804166666666665,
      "grad_norm": 0.740311861038208,
      "learning_rate": 0.00018471956109115506,
      "loss": 3.8547,
      "step": 205460
    },
    {
      "epoch": 0.4280625,
      "grad_norm": 0.7738710045814514,
      "learning_rate": 0.000184709970185343,
      "loss": 3.9157,
      "step": 205470
    },
    {
      "epoch": 0.4280833333333333,
      "grad_norm": 0.9126008749008179,
      "learning_rate": 0.00018470037912959763,
      "loss": 3.8398,
      "step": 205480
    },
    {
      "epoch": 0.4281041666666667,
      "grad_norm": 0.8485434055328369,
      "learning_rate": 0.00018469078792396037,
      "loss": 4.0298,
      "step": 205490
    },
    {
      "epoch": 0.428125,
      "grad_norm": 0.7557910680770874,
      "learning_rate": 0.00018468119656847264,
      "loss": 3.8761,
      "step": 205500
    },
    {
      "epoch": 0.42814583333333334,
      "grad_norm": 0.9253383874893188,
      "learning_rate": 0.00018467160506317583,
      "loss": 4.1051,
      "step": 205510
    },
    {
      "epoch": 0.42816666666666664,
      "grad_norm": 0.7529454231262207,
      "learning_rate": 0.00018466201340811147,
      "loss": 3.7621,
      "step": 205520
    },
    {
      "epoch": 0.4281875,
      "grad_norm": 0.7560766935348511,
      "learning_rate": 0.00018465242160332088,
      "loss": 3.8172,
      "step": 205530
    },
    {
      "epoch": 0.42820833333333336,
      "grad_norm": 0.7696878910064697,
      "learning_rate": 0.00018464282964884558,
      "loss": 3.7534,
      "step": 205540
    },
    {
      "epoch": 0.42822916666666666,
      "grad_norm": 1.0487927198410034,
      "learning_rate": 0.00018463323754472694,
      "loss": 3.8446,
      "step": 205550
    },
    {
      "epoch": 0.42825,
      "grad_norm": 0.9102507829666138,
      "learning_rate": 0.00018462364529100642,
      "loss": 3.9397,
      "step": 205560
    },
    {
      "epoch": 0.4282708333333333,
      "grad_norm": 0.7705972194671631,
      "learning_rate": 0.0001846140528877255,
      "loss": 3.838,
      "step": 205570
    },
    {
      "epoch": 0.4282916666666667,
      "grad_norm": 0.7091596126556396,
      "learning_rate": 0.0001846044603349255,
      "loss": 3.8685,
      "step": 205580
    },
    {
      "epoch": 0.4283125,
      "grad_norm": 0.7541450262069702,
      "learning_rate": 0.000184594867632648,
      "loss": 3.9121,
      "step": 205590
    },
    {
      "epoch": 0.42833333333333334,
      "grad_norm": 0.9630944728851318,
      "learning_rate": 0.00018458527478093436,
      "loss": 3.9214,
      "step": 205600
    },
    {
      "epoch": 0.42835416666666665,
      "grad_norm": 0.7683776617050171,
      "learning_rate": 0.00018457568177982596,
      "loss": 3.8413,
      "step": 205610
    },
    {
      "epoch": 0.428375,
      "grad_norm": 0.8751146793365479,
      "learning_rate": 0.0001845660886293644,
      "loss": 3.7962,
      "step": 205620
    },
    {
      "epoch": 0.4283958333333333,
      "grad_norm": 0.7882677912712097,
      "learning_rate": 0.00018455649532959096,
      "loss": 3.8275,
      "step": 205630
    },
    {
      "epoch": 0.42841666666666667,
      "grad_norm": 0.7007756233215332,
      "learning_rate": 0.00018454690188054714,
      "loss": 4.0702,
      "step": 205640
    },
    {
      "epoch": 0.4284375,
      "grad_norm": 0.7952508926391602,
      "learning_rate": 0.00018453730828227435,
      "loss": 4.0174,
      "step": 205650
    },
    {
      "epoch": 0.42845833333333333,
      "grad_norm": 0.8587927222251892,
      "learning_rate": 0.0001845277145348141,
      "loss": 3.8914,
      "step": 205660
    },
    {
      "epoch": 0.4284791666666667,
      "grad_norm": 0.8449845314025879,
      "learning_rate": 0.00018451812063820778,
      "loss": 3.8639,
      "step": 205670
    },
    {
      "epoch": 0.4285,
      "grad_norm": 1.0052040815353394,
      "learning_rate": 0.00018450852659249685,
      "loss": 3.8778,
      "step": 205680
    },
    {
      "epoch": 0.42852083333333335,
      "grad_norm": 0.7628552913665771,
      "learning_rate": 0.00018449893239772273,
      "loss": 3.8574,
      "step": 205690
    },
    {
      "epoch": 0.42854166666666665,
      "grad_norm": 0.7074677348136902,
      "learning_rate": 0.00018448933805392687,
      "loss": 3.7803,
      "step": 205700
    },
    {
      "epoch": 0.4285625,
      "grad_norm": 0.748049259185791,
      "learning_rate": 0.00018447974356115073,
      "loss": 3.9919,
      "step": 205710
    },
    {
      "epoch": 0.4285833333333333,
      "grad_norm": 0.7913044691085815,
      "learning_rate": 0.00018447014891943576,
      "loss": 3.8291,
      "step": 205720
    },
    {
      "epoch": 0.4286041666666667,
      "grad_norm": 0.8407151699066162,
      "learning_rate": 0.00018446055412882337,
      "loss": 3.7156,
      "step": 205730
    },
    {
      "epoch": 0.428625,
      "grad_norm": 0.9888330101966858,
      "learning_rate": 0.00018445095918935507,
      "loss": 3.8216,
      "step": 205740
    },
    {
      "epoch": 0.42864583333333334,
      "grad_norm": 0.687968909740448,
      "learning_rate": 0.0001844413641010722,
      "loss": 3.8819,
      "step": 205750
    },
    {
      "epoch": 0.42866666666666664,
      "grad_norm": 0.7321026921272278,
      "learning_rate": 0.00018443176886401633,
      "loss": 3.8899,
      "step": 205760
    },
    {
      "epoch": 0.4286875,
      "grad_norm": 0.8357200026512146,
      "learning_rate": 0.00018442217347822883,
      "loss": 3.7122,
      "step": 205770
    },
    {
      "epoch": 0.42870833333333336,
      "grad_norm": 0.79695063829422,
      "learning_rate": 0.0001844125779437511,
      "loss": 3.8893,
      "step": 205780
    },
    {
      "epoch": 0.42872916666666666,
      "grad_norm": 0.9920585751533508,
      "learning_rate": 0.00018440298226062474,
      "loss": 3.8949,
      "step": 205790
    },
    {
      "epoch": 0.42875,
      "grad_norm": 0.8837742805480957,
      "learning_rate": 0.0001843933864288911,
      "loss": 3.7612,
      "step": 205800
    },
    {
      "epoch": 0.4287708333333333,
      "grad_norm": 0.8702191710472107,
      "learning_rate": 0.0001843837904485916,
      "loss": 3.722,
      "step": 205810
    },
    {
      "epoch": 0.4287916666666667,
      "grad_norm": 0.7004632949829102,
      "learning_rate": 0.00018437419431976778,
      "loss": 3.7171,
      "step": 205820
    },
    {
      "epoch": 0.4288125,
      "grad_norm": 0.8147491812705994,
      "learning_rate": 0.000184364598042461,
      "loss": 3.804,
      "step": 205830
    },
    {
      "epoch": 0.42883333333333334,
      "grad_norm": 0.8041006326675415,
      "learning_rate": 0.0001843550016167128,
      "loss": 3.8135,
      "step": 205840
    },
    {
      "epoch": 0.42885416666666665,
      "grad_norm": 0.7917842864990234,
      "learning_rate": 0.00018434540504256458,
      "loss": 3.7979,
      "step": 205850
    },
    {
      "epoch": 0.428875,
      "grad_norm": 0.8432973623275757,
      "learning_rate": 0.00018433580832005782,
      "loss": 3.7806,
      "step": 205860
    },
    {
      "epoch": 0.4288958333333333,
      "grad_norm": 0.7768725156784058,
      "learning_rate": 0.00018432621144923392,
      "loss": 3.6413,
      "step": 205870
    },
    {
      "epoch": 0.42891666666666667,
      "grad_norm": 0.8276515603065491,
      "learning_rate": 0.00018431661443013442,
      "loss": 3.8553,
      "step": 205880
    },
    {
      "epoch": 0.4289375,
      "grad_norm": 0.7917028665542603,
      "learning_rate": 0.0001843070172628007,
      "loss": 3.795,
      "step": 205890
    },
    {
      "epoch": 0.42895833333333333,
      "grad_norm": 0.6980118751525879,
      "learning_rate": 0.00018429741994727424,
      "loss": 3.8056,
      "step": 205900
    },
    {
      "epoch": 0.4289791666666667,
      "grad_norm": 0.8739801645278931,
      "learning_rate": 0.00018428782248359652,
      "loss": 3.8603,
      "step": 205910
    },
    {
      "epoch": 0.429,
      "grad_norm": 0.8284547924995422,
      "learning_rate": 0.00018427822487180896,
      "loss": 3.8338,
      "step": 205920
    },
    {
      "epoch": 0.42902083333333335,
      "grad_norm": 0.742342472076416,
      "learning_rate": 0.0001842686271119531,
      "loss": 3.8809,
      "step": 205930
    },
    {
      "epoch": 0.42904166666666665,
      "grad_norm": 0.7969412803649902,
      "learning_rate": 0.00018425902920407027,
      "loss": 3.8855,
      "step": 205940
    },
    {
      "epoch": 0.4290625,
      "grad_norm": 0.7209224700927734,
      "learning_rate": 0.00018424943114820198,
      "loss": 3.8222,
      "step": 205950
    },
    {
      "epoch": 0.4290833333333333,
      "grad_norm": 0.9164575934410095,
      "learning_rate": 0.00018423983294438975,
      "loss": 3.8167,
      "step": 205960
    },
    {
      "epoch": 0.4291041666666667,
      "grad_norm": 0.901239812374115,
      "learning_rate": 0.000184230234592675,
      "loss": 3.6639,
      "step": 205970
    },
    {
      "epoch": 0.429125,
      "grad_norm": 0.9109711050987244,
      "learning_rate": 0.00018422063609309914,
      "loss": 4.1574,
      "step": 205980
    },
    {
      "epoch": 0.42914583333333334,
      "grad_norm": 0.7068051099777222,
      "learning_rate": 0.00018421103744570373,
      "loss": 3.7438,
      "step": 205990
    },
    {
      "epoch": 0.42916666666666664,
      "grad_norm": 0.7832737565040588,
      "learning_rate": 0.00018420143865053012,
      "loss": 3.7126,
      "step": 206000
    },
    {
      "epoch": 0.42916666666666664,
      "eval_loss": 4.181492805480957,
      "eval_runtime": 8.3712,
      "eval_samples_per_second": 1.195,
      "eval_steps_per_second": 0.358,
      "step": 206000
    },
    {
      "epoch": 0.4291875,
      "grad_norm": 0.7280004620552063,
      "learning_rate": 0.0001841918397076199,
      "loss": 3.8411,
      "step": 206010
    },
    {
      "epoch": 0.42920833333333336,
      "grad_norm": 0.8106138706207275,
      "learning_rate": 0.0001841822406170144,
      "loss": 3.6321,
      "step": 206020
    },
    {
      "epoch": 0.42922916666666666,
      "grad_norm": 0.9709250330924988,
      "learning_rate": 0.0001841726413787552,
      "loss": 3.8637,
      "step": 206030
    },
    {
      "epoch": 0.42925,
      "grad_norm": 0.9134735465049744,
      "learning_rate": 0.00018416304199288366,
      "loss": 3.8483,
      "step": 206040
    },
    {
      "epoch": 0.4292708333333333,
      "grad_norm": 0.9627252221107483,
      "learning_rate": 0.00018415344245944137,
      "loss": 3.918,
      "step": 206050
    },
    {
      "epoch": 0.4292916666666667,
      "grad_norm": 0.8446924090385437,
      "learning_rate": 0.00018414384277846968,
      "loss": 3.8553,
      "step": 206060
    },
    {
      "epoch": 0.4293125,
      "grad_norm": 0.8628605008125305,
      "learning_rate": 0.00018413424295001015,
      "loss": 3.7766,
      "step": 206070
    },
    {
      "epoch": 0.42933333333333334,
      "grad_norm": 0.7785059809684753,
      "learning_rate": 0.00018412464297410414,
      "loss": 3.8856,
      "step": 206080
    },
    {
      "epoch": 0.42935416666666665,
      "grad_norm": 0.8498415350914001,
      "learning_rate": 0.00018411504285079325,
      "loss": 3.911,
      "step": 206090
    },
    {
      "epoch": 0.429375,
      "grad_norm": 0.9845200777053833,
      "learning_rate": 0.00018410544258011885,
      "loss": 3.7073,
      "step": 206100
    },
    {
      "epoch": 0.4293958333333333,
      "grad_norm": 0.8998635411262512,
      "learning_rate": 0.0001840958421621224,
      "loss": 3.7737,
      "step": 206110
    },
    {
      "epoch": 0.42941666666666667,
      "grad_norm": 0.9043747186660767,
      "learning_rate": 0.00018408624159684542,
      "loss": 3.8585,
      "step": 206120
    },
    {
      "epoch": 0.4294375,
      "grad_norm": 0.824752926826477,
      "learning_rate": 0.00018407664088432942,
      "loss": 3.9571,
      "step": 206130
    },
    {
      "epoch": 0.42945833333333333,
      "grad_norm": 0.8155061602592468,
      "learning_rate": 0.00018406704002461575,
      "loss": 3.8954,
      "step": 206140
    },
    {
      "epoch": 0.4294791666666667,
      "grad_norm": 0.6997689008712769,
      "learning_rate": 0.00018405743901774596,
      "loss": 3.897,
      "step": 206150
    },
    {
      "epoch": 0.4295,
      "grad_norm": 0.6739857792854309,
      "learning_rate": 0.0001840478378637616,
      "loss": 3.9049,
      "step": 206160
    },
    {
      "epoch": 0.42952083333333335,
      "grad_norm": 0.7794989943504333,
      "learning_rate": 0.00018403823656270397,
      "loss": 3.8878,
      "step": 206170
    },
    {
      "epoch": 0.42954166666666665,
      "grad_norm": 0.8287559151649475,
      "learning_rate": 0.00018402863511461466,
      "loss": 3.8614,
      "step": 206180
    },
    {
      "epoch": 0.4295625,
      "grad_norm": 0.778748095035553,
      "learning_rate": 0.00018401903351953513,
      "loss": 3.7654,
      "step": 206190
    },
    {
      "epoch": 0.4295833333333333,
      "grad_norm": 0.9569399952888489,
      "learning_rate": 0.00018400943177750685,
      "loss": 3.829,
      "step": 206200
    },
    {
      "epoch": 0.4296041666666667,
      "grad_norm": 0.9910017251968384,
      "learning_rate": 0.00018399982988857123,
      "loss": 3.9167,
      "step": 206210
    },
    {
      "epoch": 0.429625,
      "grad_norm": 0.7821748852729797,
      "learning_rate": 0.00018399022785276986,
      "loss": 3.8695,
      "step": 206220
    },
    {
      "epoch": 0.42964583333333334,
      "grad_norm": 0.7664909958839417,
      "learning_rate": 0.00018398062567014412,
      "loss": 3.6428,
      "step": 206230
    },
    {
      "epoch": 0.42966666666666664,
      "grad_norm": 0.7677032351493835,
      "learning_rate": 0.0001839710233407356,
      "loss": 4.0329,
      "step": 206240
    },
    {
      "epoch": 0.4296875,
      "grad_norm": 0.7374138832092285,
      "learning_rate": 0.0001839614208645856,
      "loss": 3.7519,
      "step": 206250
    },
    {
      "epoch": 0.42970833333333336,
      "grad_norm": 0.8046454191207886,
      "learning_rate": 0.00018395181824173575,
      "loss": 4.0451,
      "step": 206260
    },
    {
      "epoch": 0.42972916666666666,
      "grad_norm": 0.7398189902305603,
      "learning_rate": 0.00018394221547222753,
      "loss": 3.8587,
      "step": 206270
    },
    {
      "epoch": 0.42975,
      "grad_norm": 0.9621027112007141,
      "learning_rate": 0.0001839326125561023,
      "loss": 3.9389,
      "step": 206280
    },
    {
      "epoch": 0.4297708333333333,
      "grad_norm": 0.8169060945510864,
      "learning_rate": 0.00018392300949340162,
      "loss": 3.9541,
      "step": 206290
    },
    {
      "epoch": 0.4297916666666667,
      "grad_norm": 0.7229405641555786,
      "learning_rate": 0.00018391340628416705,
      "loss": 3.9626,
      "step": 206300
    },
    {
      "epoch": 0.4298125,
      "grad_norm": 0.6938542127609253,
      "learning_rate": 0.00018390380292843993,
      "loss": 3.6108,
      "step": 206310
    },
    {
      "epoch": 0.42983333333333335,
      "grad_norm": 1.0210577249526978,
      "learning_rate": 0.00018389419942626178,
      "loss": 3.792,
      "step": 206320
    },
    {
      "epoch": 0.42985416666666665,
      "grad_norm": 0.800136387348175,
      "learning_rate": 0.00018388459577767415,
      "loss": 3.9303,
      "step": 206330
    },
    {
      "epoch": 0.429875,
      "grad_norm": 0.8367266058921814,
      "learning_rate": 0.00018387499198271846,
      "loss": 3.8751,
      "step": 206340
    },
    {
      "epoch": 0.4298958333333333,
      "grad_norm": 0.8279484510421753,
      "learning_rate": 0.0001838653880414362,
      "loss": 3.887,
      "step": 206350
    },
    {
      "epoch": 0.42991666666666667,
      "grad_norm": 0.896356463432312,
      "learning_rate": 0.00018385578395386888,
      "loss": 3.6928,
      "step": 206360
    },
    {
      "epoch": 0.4299375,
      "grad_norm": 0.785905659198761,
      "learning_rate": 0.00018384617972005797,
      "loss": 3.7742,
      "step": 206370
    },
    {
      "epoch": 0.42995833333333333,
      "grad_norm": 0.8018097281455994,
      "learning_rate": 0.00018383657534004497,
      "loss": 3.839,
      "step": 206380
    },
    {
      "epoch": 0.4299791666666667,
      "grad_norm": 0.6482791304588318,
      "learning_rate": 0.00018382697081387135,
      "loss": 3.5746,
      "step": 206390
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9160952568054199,
      "learning_rate": 0.00018381736614157858,
      "loss": 3.9146,
      "step": 206400
    },
    {
      "epoch": 0.43002083333333335,
      "grad_norm": 0.775667130947113,
      "learning_rate": 0.00018380776132320822,
      "loss": 3.8991,
      "step": 206410
    },
    {
      "epoch": 0.43004166666666666,
      "grad_norm": 0.9641433954238892,
      "learning_rate": 0.00018379815635880168,
      "loss": 3.7489,
      "step": 206420
    },
    {
      "epoch": 0.4300625,
      "grad_norm": 0.7539523839950562,
      "learning_rate": 0.00018378855124840052,
      "loss": 3.7591,
      "step": 206430
    },
    {
      "epoch": 0.4300833333333333,
      "grad_norm": 0.7237296104431152,
      "learning_rate": 0.0001837789459920462,
      "loss": 3.9442,
      "step": 206440
    },
    {
      "epoch": 0.4301041666666667,
      "grad_norm": 0.7621439695358276,
      "learning_rate": 0.00018376934058978014,
      "loss": 3.8546,
      "step": 206450
    },
    {
      "epoch": 0.430125,
      "grad_norm": 0.857535183429718,
      "learning_rate": 0.00018375973504164395,
      "loss": 3.6996,
      "step": 206460
    },
    {
      "epoch": 0.43014583333333334,
      "grad_norm": 0.8976488709449768,
      "learning_rate": 0.00018375012934767907,
      "loss": 3.7652,
      "step": 206470
    },
    {
      "epoch": 0.43016666666666664,
      "grad_norm": 0.8193817138671875,
      "learning_rate": 0.00018374052350792695,
      "loss": 3.9162,
      "step": 206480
    },
    {
      "epoch": 0.4301875,
      "grad_norm": 0.7082227468490601,
      "learning_rate": 0.00018373091752242916,
      "loss": 3.9627,
      "step": 206490
    },
    {
      "epoch": 0.43020833333333336,
      "grad_norm": 0.7908051013946533,
      "learning_rate": 0.00018372131139122715,
      "loss": 3.6211,
      "step": 206500
    },
    {
      "epoch": 0.43022916666666666,
      "grad_norm": 0.8223373293876648,
      "learning_rate": 0.0001837117051143624,
      "loss": 3.7812,
      "step": 206510
    },
    {
      "epoch": 0.43025,
      "grad_norm": 0.7809675335884094,
      "learning_rate": 0.00018370209869187645,
      "loss": 3.9125,
      "step": 206520
    },
    {
      "epoch": 0.4302708333333333,
      "grad_norm": 0.8596075773239136,
      "learning_rate": 0.00018369249212381075,
      "loss": 3.8536,
      "step": 206530
    },
    {
      "epoch": 0.4302916666666667,
      "grad_norm": 0.8193033337593079,
      "learning_rate": 0.00018368288541020683,
      "loss": 3.7073,
      "step": 206540
    },
    {
      "epoch": 0.4303125,
      "grad_norm": 0.7216776609420776,
      "learning_rate": 0.0001836732785511062,
      "loss": 3.6629,
      "step": 206550
    },
    {
      "epoch": 0.43033333333333335,
      "grad_norm": 0.7575981616973877,
      "learning_rate": 0.00018366367154655034,
      "loss": 3.7886,
      "step": 206560
    },
    {
      "epoch": 0.43035416666666665,
      "grad_norm": 0.9197195768356323,
      "learning_rate": 0.0001836540643965807,
      "loss": 3.8054,
      "step": 206570
    },
    {
      "epoch": 0.430375,
      "grad_norm": 0.8511732816696167,
      "learning_rate": 0.00018364445710123884,
      "loss": 4.1702,
      "step": 206580
    },
    {
      "epoch": 0.4303958333333333,
      "grad_norm": 0.9376140832901001,
      "learning_rate": 0.00018363484966056625,
      "loss": 3.7618,
      "step": 206590
    },
    {
      "epoch": 0.43041666666666667,
      "grad_norm": 0.7879073619842529,
      "learning_rate": 0.0001836252420746044,
      "loss": 3.7007,
      "step": 206600
    },
    {
      "epoch": 0.4304375,
      "grad_norm": 0.7198535203933716,
      "learning_rate": 0.00018361563434339485,
      "loss": 3.8982,
      "step": 206610
    },
    {
      "epoch": 0.43045833333333333,
      "grad_norm": 0.8498836159706116,
      "learning_rate": 0.00018360602646697906,
      "loss": 3.6758,
      "step": 206620
    },
    {
      "epoch": 0.4304791666666667,
      "grad_norm": 0.7522179484367371,
      "learning_rate": 0.0001835964184453985,
      "loss": 3.9899,
      "step": 206630
    },
    {
      "epoch": 0.4305,
      "grad_norm": 0.7687954306602478,
      "learning_rate": 0.0001835868102786948,
      "loss": 3.7524,
      "step": 206640
    },
    {
      "epoch": 0.43052083333333335,
      "grad_norm": 0.7963894605636597,
      "learning_rate": 0.00018357720196690927,
      "loss": 3.6557,
      "step": 206650
    },
    {
      "epoch": 0.43054166666666666,
      "grad_norm": 0.9040944576263428,
      "learning_rate": 0.00018356759351008362,
      "loss": 3.7804,
      "step": 206660
    },
    {
      "epoch": 0.4305625,
      "grad_norm": 0.7550665736198425,
      "learning_rate": 0.0001835579849082592,
      "loss": 3.7622,
      "step": 206670
    },
    {
      "epoch": 0.4305833333333333,
      "grad_norm": 0.8315896987915039,
      "learning_rate": 0.0001835483761614775,
      "loss": 3.8618,
      "step": 206680
    },
    {
      "epoch": 0.4306041666666667,
      "grad_norm": 0.9155840277671814,
      "learning_rate": 0.00018353876726978017,
      "loss": 3.7829,
      "step": 206690
    },
    {
      "epoch": 0.430625,
      "grad_norm": 0.7279244661331177,
      "learning_rate": 0.00018352915823320864,
      "loss": 3.7739,
      "step": 206700
    },
    {
      "epoch": 0.43064583333333334,
      "grad_norm": 0.7530396580696106,
      "learning_rate": 0.00018351954905180442,
      "loss": 3.9233,
      "step": 206710
    },
    {
      "epoch": 0.43066666666666664,
      "grad_norm": 0.7441376447677612,
      "learning_rate": 0.000183509939725609,
      "loss": 3.9572,
      "step": 206720
    },
    {
      "epoch": 0.4306875,
      "grad_norm": 0.7243021726608276,
      "learning_rate": 0.0001835003302546639,
      "loss": 3.8563,
      "step": 206730
    },
    {
      "epoch": 0.43070833333333336,
      "grad_norm": 0.8614996075630188,
      "learning_rate": 0.00018349072063901062,
      "loss": 3.8208,
      "step": 206740
    },
    {
      "epoch": 0.43072916666666666,
      "grad_norm": 0.7522733211517334,
      "learning_rate": 0.00018348111087869074,
      "loss": 3.6675,
      "step": 206750
    },
    {
      "epoch": 0.43075,
      "grad_norm": 0.9297455549240112,
      "learning_rate": 0.00018347150097374566,
      "loss": 4.0591,
      "step": 206760
    },
    {
      "epoch": 0.4307708333333333,
      "grad_norm": 0.8553590774536133,
      "learning_rate": 0.00018346189092421697,
      "loss": 3.8023,
      "step": 206770
    },
    {
      "epoch": 0.4307916666666667,
      "grad_norm": 0.7999243140220642,
      "learning_rate": 0.00018345228073014615,
      "loss": 3.9453,
      "step": 206780
    },
    {
      "epoch": 0.4308125,
      "grad_norm": 0.8690823912620544,
      "learning_rate": 0.0001834426703915747,
      "loss": 3.707,
      "step": 206790
    },
    {
      "epoch": 0.43083333333333335,
      "grad_norm": 0.9157531261444092,
      "learning_rate": 0.0001834330599085442,
      "loss": 3.7403,
      "step": 206800
    },
    {
      "epoch": 0.43085416666666665,
      "grad_norm": 0.7729436755180359,
      "learning_rate": 0.0001834234492810961,
      "loss": 3.8002,
      "step": 206810
    },
    {
      "epoch": 0.430875,
      "grad_norm": 0.8123563528060913,
      "learning_rate": 0.00018341383850927186,
      "loss": 3.9344,
      "step": 206820
    },
    {
      "epoch": 0.4308958333333333,
      "grad_norm": 0.9864732027053833,
      "learning_rate": 0.00018340422759311316,
      "loss": 3.8024,
      "step": 206830
    },
    {
      "epoch": 0.43091666666666667,
      "grad_norm": 0.8532047271728516,
      "learning_rate": 0.00018339461653266138,
      "loss": 3.9271,
      "step": 206840
    },
    {
      "epoch": 0.4309375,
      "grad_norm": 0.7690160870552063,
      "learning_rate": 0.00018338500532795804,
      "loss": 3.8811,
      "step": 206850
    },
    {
      "epoch": 0.43095833333333333,
      "grad_norm": 0.7794817090034485,
      "learning_rate": 0.00018337539397904475,
      "loss": 3.8166,
      "step": 206860
    },
    {
      "epoch": 0.4309791666666667,
      "grad_norm": 1.057051658630371,
      "learning_rate": 0.00018336578248596296,
      "loss": 3.8154,
      "step": 206870
    },
    {
      "epoch": 0.431,
      "grad_norm": 0.7434570789337158,
      "learning_rate": 0.00018335617084875417,
      "loss": 3.7825,
      "step": 206880
    },
    {
      "epoch": 0.43102083333333335,
      "grad_norm": 0.8900854587554932,
      "learning_rate": 0.00018334655906745995,
      "loss": 3.7729,
      "step": 206890
    },
    {
      "epoch": 0.43104166666666666,
      "grad_norm": 0.9012640714645386,
      "learning_rate": 0.00018333694714212174,
      "loss": 3.9384,
      "step": 206900
    },
    {
      "epoch": 0.4310625,
      "grad_norm": 0.7531497478485107,
      "learning_rate": 0.00018332733507278118,
      "loss": 3.7971,
      "step": 206910
    },
    {
      "epoch": 0.4310833333333333,
      "grad_norm": 1.144641637802124,
      "learning_rate": 0.0001833177228594797,
      "loss": 3.6705,
      "step": 206920
    },
    {
      "epoch": 0.4311041666666667,
      "grad_norm": 0.8579440116882324,
      "learning_rate": 0.00018330811050225885,
      "loss": 3.9902,
      "step": 206930
    },
    {
      "epoch": 0.431125,
      "grad_norm": 1.0953242778778076,
      "learning_rate": 0.00018329849800116015,
      "loss": 3.841,
      "step": 206940
    },
    {
      "epoch": 0.43114583333333334,
      "grad_norm": 0.9625450372695923,
      "learning_rate": 0.00018328888535622506,
      "loss": 4.0487,
      "step": 206950
    },
    {
      "epoch": 0.43116666666666664,
      "grad_norm": 0.820186197757721,
      "learning_rate": 0.00018327927256749522,
      "loss": 3.8175,
      "step": 206960
    },
    {
      "epoch": 0.4311875,
      "grad_norm": 0.7987155318260193,
      "learning_rate": 0.00018326965963501212,
      "loss": 3.7777,
      "step": 206970
    },
    {
      "epoch": 0.43120833333333336,
      "grad_norm": 0.7517746090888977,
      "learning_rate": 0.0001832600465588172,
      "loss": 3.8363,
      "step": 206980
    },
    {
      "epoch": 0.43122916666666666,
      "grad_norm": 0.7787301540374756,
      "learning_rate": 0.00018325043333895205,
      "loss": 3.7265,
      "step": 206990
    },
    {
      "epoch": 0.43125,
      "grad_norm": 0.8794935345649719,
      "learning_rate": 0.00018324081997545826,
      "loss": 3.9142,
      "step": 207000
    },
    {
      "epoch": 0.43125,
      "eval_loss": 4.185522556304932,
      "eval_runtime": 8.3704,
      "eval_samples_per_second": 1.195,
      "eval_steps_per_second": 0.358,
      "step": 207000
    },
    {
      "epoch": 0.4312708333333333,
      "grad_norm": 0.82520592212677,
      "learning_rate": 0.00018323120646837723,
      "loss": 3.8657,
      "step": 207010
    },
    {
      "epoch": 0.4312916666666667,
      "grad_norm": 0.7424102425575256,
      "learning_rate": 0.0001832215928177505,
      "loss": 3.7658,
      "step": 207020
    },
    {
      "epoch": 0.4313125,
      "grad_norm": 0.7998181581497192,
      "learning_rate": 0.0001832119790236197,
      "loss": 3.8533,
      "step": 207030
    },
    {
      "epoch": 0.43133333333333335,
      "grad_norm": 0.8534506559371948,
      "learning_rate": 0.00018320236508602628,
      "loss": 3.7717,
      "step": 207040
    },
    {
      "epoch": 0.43135416666666665,
      "grad_norm": 0.7832796573638916,
      "learning_rate": 0.00018319275100501178,
      "loss": 3.9075,
      "step": 207050
    },
    {
      "epoch": 0.431375,
      "grad_norm": 0.7600787878036499,
      "learning_rate": 0.00018318313678061777,
      "loss": 3.8563,
      "step": 207060
    },
    {
      "epoch": 0.4313958333333333,
      "grad_norm": 0.743025541305542,
      "learning_rate": 0.0001831735224128857,
      "loss": 3.8008,
      "step": 207070
    },
    {
      "epoch": 0.43141666666666667,
      "grad_norm": 0.7583100199699402,
      "learning_rate": 0.00018316390790185718,
      "loss": 3.8786,
      "step": 207080
    },
    {
      "epoch": 0.4314375,
      "grad_norm": 0.9088884592056274,
      "learning_rate": 0.00018315429324757367,
      "loss": 3.6377,
      "step": 207090
    },
    {
      "epoch": 0.43145833333333333,
      "grad_norm": 0.7866679430007935,
      "learning_rate": 0.00018314467845007674,
      "loss": 3.9186,
      "step": 207100
    },
    {
      "epoch": 0.4314791666666667,
      "grad_norm": 0.8780816793441772,
      "learning_rate": 0.00018313506350940792,
      "loss": 3.8369,
      "step": 207110
    },
    {
      "epoch": 0.4315,
      "grad_norm": 0.762877881526947,
      "learning_rate": 0.00018312544842560879,
      "loss": 3.8152,
      "step": 207120
    },
    {
      "epoch": 0.43152083333333335,
      "grad_norm": 0.9932261109352112,
      "learning_rate": 0.0001831158331987208,
      "loss": 3.8211,
      "step": 207130
    },
    {
      "epoch": 0.43154166666666666,
      "grad_norm": 0.8469245433807373,
      "learning_rate": 0.00018310621782878552,
      "loss": 3.8955,
      "step": 207140
    },
    {
      "epoch": 0.4315625,
      "grad_norm": 0.8083776831626892,
      "learning_rate": 0.00018309660231584444,
      "loss": 3.8491,
      "step": 207150
    },
    {
      "epoch": 0.4315833333333333,
      "grad_norm": 0.7998141646385193,
      "learning_rate": 0.0001830869866599392,
      "loss": 3.7549,
      "step": 207160
    },
    {
      "epoch": 0.4316041666666667,
      "grad_norm": 0.819893479347229,
      "learning_rate": 0.00018307737086111127,
      "loss": 3.7578,
      "step": 207170
    },
    {
      "epoch": 0.431625,
      "grad_norm": 0.854897141456604,
      "learning_rate": 0.00018306775491940216,
      "loss": 3.8407,
      "step": 207180
    },
    {
      "epoch": 0.43164583333333334,
      "grad_norm": 0.6897852420806885,
      "learning_rate": 0.0001830581388348534,
      "loss": 3.7946,
      "step": 207190
    },
    {
      "epoch": 0.43166666666666664,
      "grad_norm": 0.7938188314437866,
      "learning_rate": 0.00018304852260750667,
      "loss": 3.7777,
      "step": 207200
    },
    {
      "epoch": 0.4316875,
      "grad_norm": 0.9218350052833557,
      "learning_rate": 0.00018303890623740335,
      "loss": 3.8077,
      "step": 207210
    },
    {
      "epoch": 0.43170833333333336,
      "grad_norm": 0.7944429516792297,
      "learning_rate": 0.000183029289724585,
      "loss": 3.8102,
      "step": 207220
    },
    {
      "epoch": 0.43172916666666666,
      "grad_norm": 0.7374851703643799,
      "learning_rate": 0.00018301967306909322,
      "loss": 3.9697,
      "step": 207230
    },
    {
      "epoch": 0.43175,
      "grad_norm": 0.8995527625083923,
      "learning_rate": 0.00018301005627096957,
      "loss": 3.5761,
      "step": 207240
    },
    {
      "epoch": 0.4317708333333333,
      "grad_norm": 0.8441669940948486,
      "learning_rate": 0.0001830004393302555,
      "loss": 3.7172,
      "step": 207250
    },
    {
      "epoch": 0.4317916666666667,
      "grad_norm": 0.782701849937439,
      "learning_rate": 0.00018299082224699256,
      "loss": 3.771,
      "step": 207260
    },
    {
      "epoch": 0.4318125,
      "grad_norm": 0.8283251523971558,
      "learning_rate": 0.00018298120502122236,
      "loss": 3.7747,
      "step": 207270
    },
    {
      "epoch": 0.43183333333333335,
      "grad_norm": 0.796387255191803,
      "learning_rate": 0.00018297158765298642,
      "loss": 3.9277,
      "step": 207280
    },
    {
      "epoch": 0.43185416666666665,
      "grad_norm": 0.8309842348098755,
      "learning_rate": 0.00018296197014232627,
      "loss": 3.8266,
      "step": 207290
    },
    {
      "epoch": 0.431875,
      "grad_norm": 0.8083744049072266,
      "learning_rate": 0.00018295235248928343,
      "loss": 3.8127,
      "step": 207300
    },
    {
      "epoch": 0.4318958333333333,
      "grad_norm": 0.8594186305999756,
      "learning_rate": 0.0001829427346938995,
      "loss": 3.8652,
      "step": 207310
    },
    {
      "epoch": 0.43191666666666667,
      "grad_norm": 0.7486647963523865,
      "learning_rate": 0.00018293311675621597,
      "loss": 3.8047,
      "step": 207320
    },
    {
      "epoch": 0.4319375,
      "grad_norm": 0.9366651177406311,
      "learning_rate": 0.00018292349867627444,
      "loss": 4.035,
      "step": 207330
    },
    {
      "epoch": 0.43195833333333333,
      "grad_norm": 0.8502764105796814,
      "learning_rate": 0.00018291388045411642,
      "loss": 3.9097,
      "step": 207340
    },
    {
      "epoch": 0.4319791666666667,
      "grad_norm": 0.77420973777771,
      "learning_rate": 0.00018290426208978345,
      "loss": 3.8612,
      "step": 207350
    },
    {
      "epoch": 0.432,
      "grad_norm": 0.8187873363494873,
      "learning_rate": 0.00018289464358331708,
      "loss": 3.9456,
      "step": 207360
    },
    {
      "epoch": 0.43202083333333335,
      "grad_norm": 0.8250513672828674,
      "learning_rate": 0.0001828850249347589,
      "loss": 3.8011,
      "step": 207370
    },
    {
      "epoch": 0.43204166666666666,
      "grad_norm": 0.8576856255531311,
      "learning_rate": 0.00018287540614415044,
      "loss": 3.8473,
      "step": 207380
    },
    {
      "epoch": 0.4320625,
      "grad_norm": 0.9771116971969604,
      "learning_rate": 0.00018286578721153323,
      "loss": 3.762,
      "step": 207390
    },
    {
      "epoch": 0.4320833333333333,
      "grad_norm": 0.8253902196884155,
      "learning_rate": 0.00018285616813694882,
      "loss": 3.8216,
      "step": 207400
    },
    {
      "epoch": 0.4321041666666667,
      "grad_norm": 0.7795158624649048,
      "learning_rate": 0.00018284654892043877,
      "loss": 3.987,
      "step": 207410
    },
    {
      "epoch": 0.432125,
      "grad_norm": 0.8849601149559021,
      "learning_rate": 0.0001828369295620446,
      "loss": 3.9051,
      "step": 207420
    },
    {
      "epoch": 0.43214583333333334,
      "grad_norm": 1.0591092109680176,
      "learning_rate": 0.00018282731006180795,
      "loss": 3.8453,
      "step": 207430
    },
    {
      "epoch": 0.43216666666666664,
      "grad_norm": 0.7880326509475708,
      "learning_rate": 0.00018281769041977026,
      "loss": 3.7553,
      "step": 207440
    },
    {
      "epoch": 0.4321875,
      "grad_norm": 0.6823621988296509,
      "learning_rate": 0.00018280807063597316,
      "loss": 3.7262,
      "step": 207450
    },
    {
      "epoch": 0.43220833333333336,
      "grad_norm": 0.9762961268424988,
      "learning_rate": 0.00018279845071045818,
      "loss": 3.7405,
      "step": 207460
    },
    {
      "epoch": 0.43222916666666666,
      "grad_norm": 0.7198057770729065,
      "learning_rate": 0.0001827888306432669,
      "loss": 3.8746,
      "step": 207470
    },
    {
      "epoch": 0.43225,
      "grad_norm": 0.7086723446846008,
      "learning_rate": 0.0001827792104344408,
      "loss": 3.7933,
      "step": 207480
    },
    {
      "epoch": 0.4322708333333333,
      "grad_norm": 0.7627623081207275,
      "learning_rate": 0.00018276959008402152,
      "loss": 3.8467,
      "step": 207490
    },
    {
      "epoch": 0.4322916666666667,
      "grad_norm": 0.7122981548309326,
      "learning_rate": 0.00018275996959205059,
      "loss": 3.826,
      "step": 207500
    },
    {
      "epoch": 0.4323125,
      "grad_norm": 0.817501425743103,
      "learning_rate": 0.00018275034895856956,
      "loss": 3.7583,
      "step": 207510
    },
    {
      "epoch": 0.43233333333333335,
      "grad_norm": 0.8994112014770508,
      "learning_rate": 0.00018274072818361993,
      "loss": 3.8016,
      "step": 207520
    },
    {
      "epoch": 0.43235416666666665,
      "grad_norm": 1.0551892518997192,
      "learning_rate": 0.0001827311072672434,
      "loss": 3.8564,
      "step": 207530
    },
    {
      "epoch": 0.432375,
      "grad_norm": 0.7899003028869629,
      "learning_rate": 0.0001827214862094814,
      "loss": 3.8598,
      "step": 207540
    },
    {
      "epoch": 0.4323958333333333,
      "grad_norm": 0.8202320337295532,
      "learning_rate": 0.00018271186501037548,
      "loss": 3.846,
      "step": 207550
    },
    {
      "epoch": 0.43241666666666667,
      "grad_norm": 0.8056160807609558,
      "learning_rate": 0.00018270224366996734,
      "loss": 3.8942,
      "step": 207560
    },
    {
      "epoch": 0.4324375,
      "grad_norm": 0.8055658936500549,
      "learning_rate": 0.00018269262218829842,
      "loss": 4.0188,
      "step": 207570
    },
    {
      "epoch": 0.43245833333333333,
      "grad_norm": 0.801734983921051,
      "learning_rate": 0.0001826830005654103,
      "loss": 3.774,
      "step": 207580
    },
    {
      "epoch": 0.4324791666666667,
      "grad_norm": 0.7480078935623169,
      "learning_rate": 0.00018267337880134457,
      "loss": 3.6819,
      "step": 207590
    },
    {
      "epoch": 0.4325,
      "grad_norm": 0.7609944939613342,
      "learning_rate": 0.00018266375689614272,
      "loss": 3.9219,
      "step": 207600
    },
    {
      "epoch": 0.43252083333333335,
      "grad_norm": 0.8218675851821899,
      "learning_rate": 0.00018265413484984643,
      "loss": 3.9136,
      "step": 207610
    },
    {
      "epoch": 0.43254166666666666,
      "grad_norm": 0.9583386182785034,
      "learning_rate": 0.0001826445126624972,
      "loss": 3.7125,
      "step": 207620
    },
    {
      "epoch": 0.4325625,
      "grad_norm": 0.8305111527442932,
      "learning_rate": 0.00018263489033413656,
      "loss": 3.7962,
      "step": 207630
    },
    {
      "epoch": 0.4325833333333333,
      "grad_norm": 0.7413859963417053,
      "learning_rate": 0.00018262526786480616,
      "loss": 4.0241,
      "step": 207640
    },
    {
      "epoch": 0.4326041666666667,
      "grad_norm": 0.7767468690872192,
      "learning_rate": 0.00018261564525454748,
      "loss": 3.5896,
      "step": 207650
    },
    {
      "epoch": 0.432625,
      "grad_norm": 0.8085338473320007,
      "learning_rate": 0.00018260602250340214,
      "loss": 3.7709,
      "step": 207660
    },
    {
      "epoch": 0.43264583333333334,
      "grad_norm": 1.0053980350494385,
      "learning_rate": 0.00018259639961141168,
      "loss": 3.7879,
      "step": 207670
    },
    {
      "epoch": 0.43266666666666664,
      "grad_norm": 0.8515087962150574,
      "learning_rate": 0.0001825867765786177,
      "loss": 3.8207,
      "step": 207680
    },
    {
      "epoch": 0.4326875,
      "grad_norm": 0.7791982293128967,
      "learning_rate": 0.0001825771534050617,
      "loss": 3.8627,
      "step": 207690
    },
    {
      "epoch": 0.4327083333333333,
      "grad_norm": 0.8299640417098999,
      "learning_rate": 0.00018256753009078533,
      "loss": 3.8406,
      "step": 207700
    },
    {
      "epoch": 0.43272916666666666,
      "grad_norm": 0.9890199303627014,
      "learning_rate": 0.00018255790663583013,
      "loss": 3.7888,
      "step": 207710
    },
    {
      "epoch": 0.43275,
      "grad_norm": 0.7550107836723328,
      "learning_rate": 0.00018254828304023758,
      "loss": 3.9279,
      "step": 207720
    },
    {
      "epoch": 0.4327708333333333,
      "grad_norm": 0.9651886820793152,
      "learning_rate": 0.00018253865930404944,
      "loss": 3.8856,
      "step": 207730
    },
    {
      "epoch": 0.4327916666666667,
      "grad_norm": 0.7187902331352234,
      "learning_rate": 0.00018252903542730712,
      "loss": 3.7802,
      "step": 207740
    },
    {
      "epoch": 0.4328125,
      "grad_norm": 0.6594244837760925,
      "learning_rate": 0.00018251941141005223,
      "loss": 3.8436,
      "step": 207750
    },
    {
      "epoch": 0.43283333333333335,
      "grad_norm": 0.7630617022514343,
      "learning_rate": 0.0001825097872523264,
      "loss": 3.693,
      "step": 207760
    },
    {
      "epoch": 0.43285416666666665,
      "grad_norm": 0.751835823059082,
      "learning_rate": 0.0001825001629541711,
      "loss": 3.662,
      "step": 207770
    },
    {
      "epoch": 0.432875,
      "grad_norm": 0.7197529077529907,
      "learning_rate": 0.000182490538515628,
      "loss": 3.7089,
      "step": 207780
    },
    {
      "epoch": 0.4328958333333333,
      "grad_norm": 0.7376833558082581,
      "learning_rate": 0.0001824809139367386,
      "loss": 3.841,
      "step": 207790
    },
    {
      "epoch": 0.43291666666666667,
      "grad_norm": 0.8559402227401733,
      "learning_rate": 0.00018247128921754452,
      "loss": 3.6981,
      "step": 207800
    },
    {
      "epoch": 0.4329375,
      "grad_norm": 0.7167046666145325,
      "learning_rate": 0.00018246166435808737,
      "loss": 3.9464,
      "step": 207810
    },
    {
      "epoch": 0.43295833333333333,
      "grad_norm": 0.9893655776977539,
      "learning_rate": 0.00018245203935840862,
      "loss": 3.98,
      "step": 207820
    },
    {
      "epoch": 0.4329791666666667,
      "grad_norm": 0.9883699417114258,
      "learning_rate": 0.00018244241421854992,
      "loss": 3.6313,
      "step": 207830
    },
    {
      "epoch": 0.433,
      "grad_norm": 0.8015648126602173,
      "learning_rate": 0.00018243278893855286,
      "loss": 3.6507,
      "step": 207840
    },
    {
      "epoch": 0.43302083333333335,
      "grad_norm": 0.7882227301597595,
      "learning_rate": 0.00018242316351845894,
      "loss": 3.7232,
      "step": 207850
    },
    {
      "epoch": 0.43304166666666666,
      "grad_norm": 0.8424578309059143,
      "learning_rate": 0.00018241353795830982,
      "loss": 3.8582,
      "step": 207860
    },
    {
      "epoch": 0.4330625,
      "grad_norm": 1.061166763305664,
      "learning_rate": 0.00018240391225814704,
      "loss": 3.8424,
      "step": 207870
    },
    {
      "epoch": 0.4330833333333333,
      "grad_norm": 0.7493866682052612,
      "learning_rate": 0.00018239428641801222,
      "loss": 4.0157,
      "step": 207880
    },
    {
      "epoch": 0.4331041666666667,
      "grad_norm": 0.7303786277770996,
      "learning_rate": 0.00018238466043794685,
      "loss": 3.7143,
      "step": 207890
    },
    {
      "epoch": 0.433125,
      "grad_norm": 0.8751944899559021,
      "learning_rate": 0.0001823750343179926,
      "loss": 3.8841,
      "step": 207900
    },
    {
      "epoch": 0.43314583333333334,
      "grad_norm": 0.8335487246513367,
      "learning_rate": 0.00018236540805819103,
      "loss": 4.0186,
      "step": 207910
    },
    {
      "epoch": 0.43316666666666664,
      "grad_norm": 0.7729525566101074,
      "learning_rate": 0.00018235578165858366,
      "loss": 3.8497,
      "step": 207920
    },
    {
      "epoch": 0.4331875,
      "grad_norm": 0.7446258068084717,
      "learning_rate": 0.00018234615511921213,
      "loss": 3.9215,
      "step": 207930
    },
    {
      "epoch": 0.4332083333333333,
      "grad_norm": 0.7540627121925354,
      "learning_rate": 0.00018233652844011806,
      "loss": 3.7197,
      "step": 207940
    },
    {
      "epoch": 0.43322916666666667,
      "grad_norm": 0.8304574489593506,
      "learning_rate": 0.00018232690162134295,
      "loss": 3.9061,
      "step": 207950
    },
    {
      "epoch": 0.43325,
      "grad_norm": 0.859424352645874,
      "learning_rate": 0.0001823172746629284,
      "loss": 3.963,
      "step": 207960
    },
    {
      "epoch": 0.4332708333333333,
      "grad_norm": 0.7345826029777527,
      "learning_rate": 0.00018230764756491607,
      "loss": 3.8397,
      "step": 207970
    },
    {
      "epoch": 0.4332916666666667,
      "grad_norm": 0.771390438079834,
      "learning_rate": 0.00018229802032734745,
      "loss": 3.8929,
      "step": 207980
    },
    {
      "epoch": 0.4333125,
      "grad_norm": 0.7714633345603943,
      "learning_rate": 0.00018228839295026417,
      "loss": 3.8758,
      "step": 207990
    },
    {
      "epoch": 0.43333333333333335,
      "grad_norm": 0.6950007081031799,
      "learning_rate": 0.00018227876543370784,
      "loss": 3.7889,
      "step": 208000
    },
    {
      "epoch": 0.43333333333333335,
      "eval_loss": 4.170814514160156,
      "eval_runtime": 8.0367,
      "eval_samples_per_second": 1.244,
      "eval_steps_per_second": 0.373,
      "step": 208000
    },
    {
      "epoch": 0.43335416666666665,
      "grad_norm": 0.7274959683418274,
      "learning_rate": 0.00018226913777772002,
      "loss": 3.9681,
      "step": 208010
    },
    {
      "epoch": 0.433375,
      "grad_norm": 0.9508122205734253,
      "learning_rate": 0.00018225950998234224,
      "loss": 3.6953,
      "step": 208020
    },
    {
      "epoch": 0.4333958333333333,
      "grad_norm": 0.8272225856781006,
      "learning_rate": 0.0001822498820476162,
      "loss": 3.724,
      "step": 208030
    },
    {
      "epoch": 0.4334166666666667,
      "grad_norm": 0.8461803197860718,
      "learning_rate": 0.00018224025397358342,
      "loss": 3.895,
      "step": 208040
    },
    {
      "epoch": 0.4334375,
      "grad_norm": 0.8123310208320618,
      "learning_rate": 0.0001822306257602855,
      "loss": 3.8536,
      "step": 208050
    },
    {
      "epoch": 0.43345833333333333,
      "grad_norm": 0.8979122042655945,
      "learning_rate": 0.00018222099740776402,
      "loss": 3.8043,
      "step": 208060
    },
    {
      "epoch": 0.4334791666666667,
      "grad_norm": 0.8987290859222412,
      "learning_rate": 0.00018221136891606064,
      "loss": 3.9724,
      "step": 208070
    },
    {
      "epoch": 0.4335,
      "grad_norm": 0.8626311421394348,
      "learning_rate": 0.00018220174028521686,
      "loss": 3.8404,
      "step": 208080
    },
    {
      "epoch": 0.43352083333333336,
      "grad_norm": 0.7940520644187927,
      "learning_rate": 0.00018219211151527428,
      "loss": 3.6709,
      "step": 208090
    },
    {
      "epoch": 0.43354166666666666,
      "grad_norm": 0.8633231520652771,
      "learning_rate": 0.0001821824826062746,
      "loss": 3.6292,
      "step": 208100
    },
    {
      "epoch": 0.4335625,
      "grad_norm": 0.7753564715385437,
      "learning_rate": 0.00018217285355825926,
      "loss": 3.9696,
      "step": 208110
    },
    {
      "epoch": 0.4335833333333333,
      "grad_norm": 0.8508853912353516,
      "learning_rate": 0.00018216322437126996,
      "loss": 3.9095,
      "step": 208120
    },
    {
      "epoch": 0.4336041666666667,
      "grad_norm": 0.7684170007705688,
      "learning_rate": 0.00018215359504534826,
      "loss": 3.7855,
      "step": 208130
    },
    {
      "epoch": 0.433625,
      "grad_norm": 0.7563600540161133,
      "learning_rate": 0.00018214396558053573,
      "loss": 3.7955,
      "step": 208140
    },
    {
      "epoch": 0.43364583333333334,
      "grad_norm": 0.8234724402427673,
      "learning_rate": 0.00018213433597687404,
      "loss": 3.8276,
      "step": 208150
    },
    {
      "epoch": 0.43366666666666664,
      "grad_norm": 0.7608926296234131,
      "learning_rate": 0.0001821247062344047,
      "loss": 3.9285,
      "step": 208160
    },
    {
      "epoch": 0.4336875,
      "grad_norm": 0.8238089084625244,
      "learning_rate": 0.00018211507635316934,
      "loss": 3.8375,
      "step": 208170
    },
    {
      "epoch": 0.4337083333333333,
      "grad_norm": 0.8051163554191589,
      "learning_rate": 0.0001821054463332096,
      "loss": 3.8243,
      "step": 208180
    },
    {
      "epoch": 0.43372916666666667,
      "grad_norm": 0.777932345867157,
      "learning_rate": 0.00018209581617456702,
      "loss": 3.8286,
      "step": 208190
    },
    {
      "epoch": 0.43375,
      "grad_norm": 0.8068484663963318,
      "learning_rate": 0.0001820861858772832,
      "loss": 3.8329,
      "step": 208200
    },
    {
      "epoch": 0.4337708333333333,
      "grad_norm": 0.7492770552635193,
      "learning_rate": 0.0001820765554413998,
      "loss": 3.8303,
      "step": 208210
    },
    {
      "epoch": 0.4337916666666667,
      "grad_norm": 0.7292279601097107,
      "learning_rate": 0.00018206692486695832,
      "loss": 3.8702,
      "step": 208220
    },
    {
      "epoch": 0.4338125,
      "grad_norm": 0.8248967528343201,
      "learning_rate": 0.00018205729415400046,
      "loss": 3.8385,
      "step": 208230
    },
    {
      "epoch": 0.43383333333333335,
      "grad_norm": 0.7958106398582458,
      "learning_rate": 0.00018204766330256778,
      "loss": 3.9689,
      "step": 208240
    },
    {
      "epoch": 0.43385416666666665,
      "grad_norm": 0.7573406100273132,
      "learning_rate": 0.00018203803231270187,
      "loss": 3.8217,
      "step": 208250
    },
    {
      "epoch": 0.433875,
      "grad_norm": 0.6914507150650024,
      "learning_rate": 0.00018202840118444435,
      "loss": 3.8873,
      "step": 208260
    },
    {
      "epoch": 0.4338958333333333,
      "grad_norm": 0.8463522791862488,
      "learning_rate": 0.0001820187699178368,
      "loss": 3.9275,
      "step": 208270
    },
    {
      "epoch": 0.4339166666666667,
      "grad_norm": 0.7889243364334106,
      "learning_rate": 0.00018200913851292082,
      "loss": 3.8196,
      "step": 208280
    },
    {
      "epoch": 0.4339375,
      "grad_norm": 0.8893856406211853,
      "learning_rate": 0.00018199950696973804,
      "loss": 3.7536,
      "step": 208290
    },
    {
      "epoch": 0.43395833333333333,
      "grad_norm": 0.9027045369148254,
      "learning_rate": 0.00018198987528833006,
      "loss": 3.7548,
      "step": 208300
    },
    {
      "epoch": 0.4339791666666667,
      "grad_norm": 0.8285607695579529,
      "learning_rate": 0.00018198024346873849,
      "loss": 3.9778,
      "step": 208310
    },
    {
      "epoch": 0.434,
      "grad_norm": 0.8366113901138306,
      "learning_rate": 0.00018197061151100497,
      "loss": 3.8288,
      "step": 208320
    },
    {
      "epoch": 0.43402083333333336,
      "grad_norm": 0.7719199061393738,
      "learning_rate": 0.00018196097941517098,
      "loss": 3.8048,
      "step": 208330
    },
    {
      "epoch": 0.43404166666666666,
      "grad_norm": 0.8233954310417175,
      "learning_rate": 0.00018195134718127827,
      "loss": 3.8417,
      "step": 208340
    },
    {
      "epoch": 0.4340625,
      "grad_norm": 0.7839246988296509,
      "learning_rate": 0.00018194171480936838,
      "loss": 3.755,
      "step": 208350
    },
    {
      "epoch": 0.4340833333333333,
      "grad_norm": 0.7157460451126099,
      "learning_rate": 0.0001819320822994829,
      "loss": 3.9982,
      "step": 208360
    },
    {
      "epoch": 0.4341041666666667,
      "grad_norm": 0.859723687171936,
      "learning_rate": 0.00018192244965166348,
      "loss": 3.8682,
      "step": 208370
    },
    {
      "epoch": 0.434125,
      "grad_norm": 0.9251923561096191,
      "learning_rate": 0.00018191281686595173,
      "loss": 3.8192,
      "step": 208380
    },
    {
      "epoch": 0.43414583333333334,
      "grad_norm": 0.7327032089233398,
      "learning_rate": 0.0001819031839423892,
      "loss": 3.8705,
      "step": 208390
    },
    {
      "epoch": 0.43416666666666665,
      "grad_norm": 0.9486697912216187,
      "learning_rate": 0.00018189355088101756,
      "loss": 3.9135,
      "step": 208400
    },
    {
      "epoch": 0.4341875,
      "grad_norm": 0.8451166749000549,
      "learning_rate": 0.00018188391768187844,
      "loss": 3.7275,
      "step": 208410
    },
    {
      "epoch": 0.4342083333333333,
      "grad_norm": 0.7566480040550232,
      "learning_rate": 0.00018187428434501336,
      "loss": 3.6261,
      "step": 208420
    },
    {
      "epoch": 0.43422916666666667,
      "grad_norm": 0.7847558259963989,
      "learning_rate": 0.00018186465087046406,
      "loss": 3.6691,
      "step": 208430
    },
    {
      "epoch": 0.43425,
      "grad_norm": 0.872482180595398,
      "learning_rate": 0.00018185501725827201,
      "loss": 3.7975,
      "step": 208440
    },
    {
      "epoch": 0.43427083333333333,
      "grad_norm": 0.9098115563392639,
      "learning_rate": 0.00018184538350847894,
      "loss": 3.9137,
      "step": 208450
    },
    {
      "epoch": 0.4342916666666667,
      "grad_norm": 1.265606164932251,
      "learning_rate": 0.00018183574962112639,
      "loss": 4.0414,
      "step": 208460
    },
    {
      "epoch": 0.4343125,
      "grad_norm": 0.7586963772773743,
      "learning_rate": 0.00018182611559625601,
      "loss": 3.9059,
      "step": 208470
    },
    {
      "epoch": 0.43433333333333335,
      "grad_norm": 0.9377641677856445,
      "learning_rate": 0.00018181648143390943,
      "loss": 3.64,
      "step": 208480
    },
    {
      "epoch": 0.43435416666666665,
      "grad_norm": 0.809766411781311,
      "learning_rate": 0.00018180684713412819,
      "loss": 3.7143,
      "step": 208490
    },
    {
      "epoch": 0.434375,
      "grad_norm": 0.7546241879463196,
      "learning_rate": 0.000181797212696954,
      "loss": 3.8723,
      "step": 208500
    },
    {
      "epoch": 0.4343958333333333,
      "grad_norm": 0.9650313854217529,
      "learning_rate": 0.00018178757812242847,
      "loss": 3.9559,
      "step": 208510
    },
    {
      "epoch": 0.4344166666666667,
      "grad_norm": 1.0003015995025635,
      "learning_rate": 0.0001817779434105931,
      "loss": 3.7454,
      "step": 208520
    },
    {
      "epoch": 0.4344375,
      "grad_norm": 0.7617179155349731,
      "learning_rate": 0.00018176830856148966,
      "loss": 3.7393,
      "step": 208530
    },
    {
      "epoch": 0.43445833333333334,
      "grad_norm": 0.8510213494300842,
      "learning_rate": 0.0001817586735751597,
      "loss": 3.8862,
      "step": 208540
    },
    {
      "epoch": 0.4344791666666667,
      "grad_norm": 0.8035252690315247,
      "learning_rate": 0.00018174903845164482,
      "loss": 3.8478,
      "step": 208550
    },
    {
      "epoch": 0.4345,
      "grad_norm": 0.8793908953666687,
      "learning_rate": 0.00018173940319098664,
      "loss": 3.7136,
      "step": 208560
    },
    {
      "epoch": 0.43452083333333336,
      "grad_norm": 0.8511660099029541,
      "learning_rate": 0.00018172976779322689,
      "loss": 3.7607,
      "step": 208570
    },
    {
      "epoch": 0.43454166666666666,
      "grad_norm": 0.7488276362419128,
      "learning_rate": 0.00018172013225840701,
      "loss": 3.6394,
      "step": 208580
    },
    {
      "epoch": 0.4345625,
      "grad_norm": 0.8447898030281067,
      "learning_rate": 0.00018171049658656873,
      "loss": 3.737,
      "step": 208590
    },
    {
      "epoch": 0.4345833333333333,
      "grad_norm": 0.9057482481002808,
      "learning_rate": 0.0001817008607777537,
      "loss": 3.6993,
      "step": 208600
    },
    {
      "epoch": 0.4346041666666667,
      "grad_norm": 0.7545719146728516,
      "learning_rate": 0.00018169122483200346,
      "loss": 3.8324,
      "step": 208610
    },
    {
      "epoch": 0.434625,
      "grad_norm": 0.9093561172485352,
      "learning_rate": 0.00018168158874935967,
      "loss": 3.8668,
      "step": 208620
    },
    {
      "epoch": 0.43464583333333334,
      "grad_norm": 0.798478901386261,
      "learning_rate": 0.000181671952529864,
      "loss": 3.9525,
      "step": 208630
    },
    {
      "epoch": 0.43466666666666665,
      "grad_norm": 0.8029657602310181,
      "learning_rate": 0.00018166231617355798,
      "loss": 3.8405,
      "step": 208640
    },
    {
      "epoch": 0.4346875,
      "grad_norm": 0.7577787041664124,
      "learning_rate": 0.0001816526796804833,
      "loss": 3.778,
      "step": 208650
    },
    {
      "epoch": 0.4347083333333333,
      "grad_norm": 0.974405825138092,
      "learning_rate": 0.0001816430430506816,
      "loss": 3.887,
      "step": 208660
    },
    {
      "epoch": 0.43472916666666667,
      "grad_norm": 0.901889979839325,
      "learning_rate": 0.00018163340628419444,
      "loss": 3.8616,
      "step": 208670
    },
    {
      "epoch": 0.43475,
      "grad_norm": 0.7190169095993042,
      "learning_rate": 0.0001816237693810635,
      "loss": 3.5249,
      "step": 208680
    },
    {
      "epoch": 0.43477083333333333,
      "grad_norm": 1.4250811338424683,
      "learning_rate": 0.0001816141323413304,
      "loss": 3.8981,
      "step": 208690
    },
    {
      "epoch": 0.4347916666666667,
      "grad_norm": 0.7482745051383972,
      "learning_rate": 0.00018160449516503677,
      "loss": 3.6386,
      "step": 208700
    },
    {
      "epoch": 0.4348125,
      "grad_norm": 0.7708972692489624,
      "learning_rate": 0.00018159485785222424,
      "loss": 3.7921,
      "step": 208710
    },
    {
      "epoch": 0.43483333333333335,
      "grad_norm": 0.8348468542098999,
      "learning_rate": 0.0001815852204029344,
      "loss": 3.7359,
      "step": 208720
    },
    {
      "epoch": 0.43485416666666665,
      "grad_norm": 0.766510009765625,
      "learning_rate": 0.00018157558281720892,
      "loss": 3.7297,
      "step": 208730
    },
    {
      "epoch": 0.434875,
      "grad_norm": 0.8678532838821411,
      "learning_rate": 0.00018156594509508947,
      "loss": 3.6945,
      "step": 208740
    },
    {
      "epoch": 0.4348958333333333,
      "grad_norm": 0.987484872341156,
      "learning_rate": 0.00018155630723661756,
      "loss": 3.7217,
      "step": 208750
    },
    {
      "epoch": 0.4349166666666667,
      "grad_norm": 0.851628303527832,
      "learning_rate": 0.0001815466692418349,
      "loss": 4.0162,
      "step": 208760
    },
    {
      "epoch": 0.4349375,
      "grad_norm": 0.7476059198379517,
      "learning_rate": 0.00018153703111078317,
      "loss": 3.8092,
      "step": 208770
    },
    {
      "epoch": 0.43495833333333334,
      "grad_norm": 0.7883020043373108,
      "learning_rate": 0.00018152739284350391,
      "loss": 3.8479,
      "step": 208780
    },
    {
      "epoch": 0.43497916666666664,
      "grad_norm": 0.7865336537361145,
      "learning_rate": 0.00018151775444003875,
      "loss": 3.9781,
      "step": 208790
    },
    {
      "epoch": 0.435,
      "grad_norm": 0.8991426825523376,
      "learning_rate": 0.00018150811590042946,
      "loss": 3.7166,
      "step": 208800
    },
    {
      "epoch": 0.43502083333333336,
      "grad_norm": 0.8468983769416809,
      "learning_rate": 0.00018149847722471755,
      "loss": 3.7983,
      "step": 208810
    },
    {
      "epoch": 0.43504166666666666,
      "grad_norm": 0.8908661007881165,
      "learning_rate": 0.00018148883841294467,
      "loss": 3.9367,
      "step": 208820
    },
    {
      "epoch": 0.4350625,
      "grad_norm": 0.8477795720100403,
      "learning_rate": 0.00018147919946515247,
      "loss": 3.6947,
      "step": 208830
    },
    {
      "epoch": 0.4350833333333333,
      "grad_norm": 0.7919015884399414,
      "learning_rate": 0.00018146956038138257,
      "loss": 3.6645,
      "step": 208840
    },
    {
      "epoch": 0.4351041666666667,
      "grad_norm": 1.0683948993682861,
      "learning_rate": 0.00018145992116167664,
      "loss": 3.8034,
      "step": 208850
    },
    {
      "epoch": 0.435125,
      "grad_norm": 0.9621480107307434,
      "learning_rate": 0.00018145028180607632,
      "loss": 3.6951,
      "step": 208860
    },
    {
      "epoch": 0.43514583333333334,
      "grad_norm": 0.8473472595214844,
      "learning_rate": 0.00018144064231462325,
      "loss": 3.8238,
      "step": 208870
    },
    {
      "epoch": 0.43516666666666665,
      "grad_norm": 0.6957193613052368,
      "learning_rate": 0.00018143100268735903,
      "loss": 3.8829,
      "step": 208880
    },
    {
      "epoch": 0.4351875,
      "grad_norm": 0.7809086441993713,
      "learning_rate": 0.00018142136292432527,
      "loss": 3.7741,
      "step": 208890
    },
    {
      "epoch": 0.4352083333333333,
      "grad_norm": 0.7445915341377258,
      "learning_rate": 0.0001814117230255637,
      "loss": 3.8277,
      "step": 208900
    },
    {
      "epoch": 0.43522916666666667,
      "grad_norm": 0.7847577333450317,
      "learning_rate": 0.00018140208299111598,
      "loss": 3.6721,
      "step": 208910
    },
    {
      "epoch": 0.43525,
      "grad_norm": 0.7478131651878357,
      "learning_rate": 0.00018139244282102358,
      "loss": 3.682,
      "step": 208920
    },
    {
      "epoch": 0.43527083333333333,
      "grad_norm": 0.7901372313499451,
      "learning_rate": 0.00018138280251532829,
      "loss": 3.7955,
      "step": 208930
    },
    {
      "epoch": 0.4352916666666667,
      "grad_norm": 0.9728734493255615,
      "learning_rate": 0.00018137316207407177,
      "loss": 3.9328,
      "step": 208940
    },
    {
      "epoch": 0.4353125,
      "grad_norm": 0.7794193029403687,
      "learning_rate": 0.0001813635214972956,
      "loss": 3.7489,
      "step": 208950
    },
    {
      "epoch": 0.43533333333333335,
      "grad_norm": 0.7464315295219421,
      "learning_rate": 0.00018135388078504135,
      "loss": 3.8018,
      "step": 208960
    },
    {
      "epoch": 0.43535416666666665,
      "grad_norm": 0.6676692962646484,
      "learning_rate": 0.0001813442399373508,
      "loss": 3.6738,
      "step": 208970
    },
    {
      "epoch": 0.435375,
      "grad_norm": 0.836347222328186,
      "learning_rate": 0.0001813345989542656,
      "loss": 3.7404,
      "step": 208980
    },
    {
      "epoch": 0.4353958333333333,
      "grad_norm": 0.7766205072402954,
      "learning_rate": 0.00018132495783582721,
      "loss": 3.7619,
      "step": 208990
    },
    {
      "epoch": 0.4354166666666667,
      "grad_norm": 0.6495918035507202,
      "learning_rate": 0.00018131531658207748,
      "loss": 3.8422,
      "step": 209000
    },
    {
      "epoch": 0.4354166666666667,
      "eval_loss": 4.1662797927856445,
      "eval_runtime": 8.3849,
      "eval_samples_per_second": 1.193,
      "eval_steps_per_second": 0.358,
      "step": 209000
    },
    {
      "epoch": 0.4354375,
      "grad_norm": 0.769953191280365,
      "learning_rate": 0.00018130567519305797,
      "loss": 3.7383,
      "step": 209010
    },
    {
      "epoch": 0.43545833333333334,
      "grad_norm": 0.9271477460861206,
      "learning_rate": 0.00018129603366881031,
      "loss": 3.7234,
      "step": 209020
    },
    {
      "epoch": 0.43547916666666664,
      "grad_norm": 1.0151878595352173,
      "learning_rate": 0.0001812863920093762,
      "loss": 4.0302,
      "step": 209030
    },
    {
      "epoch": 0.4355,
      "grad_norm": 0.8187085390090942,
      "learning_rate": 0.00018127675021479726,
      "loss": 3.7481,
      "step": 209040
    },
    {
      "epoch": 0.43552083333333336,
      "grad_norm": 0.7418402433395386,
      "learning_rate": 0.00018126710828511513,
      "loss": 3.871,
      "step": 209050
    },
    {
      "epoch": 0.43554166666666666,
      "grad_norm": 1.1640779972076416,
      "learning_rate": 0.00018125746622037146,
      "loss": 3.9585,
      "step": 209060
    },
    {
      "epoch": 0.4355625,
      "grad_norm": 0.8786638379096985,
      "learning_rate": 0.0001812478240206079,
      "loss": 3.7899,
      "step": 209070
    },
    {
      "epoch": 0.4355833333333333,
      "grad_norm": 0.7654379606246948,
      "learning_rate": 0.00018123818168586618,
      "loss": 3.798,
      "step": 209080
    },
    {
      "epoch": 0.4356041666666667,
      "grad_norm": 0.8615878224372864,
      "learning_rate": 0.0001812285392161878,
      "loss": 3.8466,
      "step": 209090
    },
    {
      "epoch": 0.435625,
      "grad_norm": 0.9675484895706177,
      "learning_rate": 0.0001812188966116145,
      "loss": 3.9769,
      "step": 209100
    },
    {
      "epoch": 0.43564583333333334,
      "grad_norm": 0.7667577862739563,
      "learning_rate": 0.00018120925387218797,
      "loss": 3.9515,
      "step": 209110
    },
    {
      "epoch": 0.43566666666666665,
      "grad_norm": 0.7534943222999573,
      "learning_rate": 0.00018119961099794977,
      "loss": 3.9373,
      "step": 209120
    },
    {
      "epoch": 0.4356875,
      "grad_norm": 0.899193525314331,
      "learning_rate": 0.0001811899679889416,
      "loss": 3.6924,
      "step": 209130
    },
    {
      "epoch": 0.4357083333333333,
      "grad_norm": 0.8501291871070862,
      "learning_rate": 0.00018118032484520518,
      "loss": 3.7296,
      "step": 209140
    },
    {
      "epoch": 0.43572916666666667,
      "grad_norm": 0.7494193315505981,
      "learning_rate": 0.00018117068156678202,
      "loss": 3.9227,
      "step": 209150
    },
    {
      "epoch": 0.43575,
      "grad_norm": 0.8709792494773865,
      "learning_rate": 0.0001811610381537139,
      "loss": 3.8994,
      "step": 209160
    },
    {
      "epoch": 0.43577083333333333,
      "grad_norm": 0.7497573494911194,
      "learning_rate": 0.0001811513946060424,
      "loss": 3.8258,
      "step": 209170
    },
    {
      "epoch": 0.4357916666666667,
      "grad_norm": 0.8117873072624207,
      "learning_rate": 0.00018114175092380922,
      "loss": 3.9288,
      "step": 209180
    },
    {
      "epoch": 0.4358125,
      "grad_norm": 0.7636282444000244,
      "learning_rate": 0.00018113210710705603,
      "loss": 3.895,
      "step": 209190
    },
    {
      "epoch": 0.43583333333333335,
      "grad_norm": 0.7997605204582214,
      "learning_rate": 0.00018112246315582443,
      "loss": 3.74,
      "step": 209200
    },
    {
      "epoch": 0.43585416666666665,
      "grad_norm": 0.8351267576217651,
      "learning_rate": 0.0001811128190701561,
      "loss": 3.6693,
      "step": 209210
    },
    {
      "epoch": 0.435875,
      "grad_norm": 0.8384615778923035,
      "learning_rate": 0.00018110317485009271,
      "loss": 3.8983,
      "step": 209220
    },
    {
      "epoch": 0.4358958333333333,
      "grad_norm": 0.9426823258399963,
      "learning_rate": 0.00018109353049567593,
      "loss": 3.6569,
      "step": 209230
    },
    {
      "epoch": 0.4359166666666667,
      "grad_norm": 0.8069962859153748,
      "learning_rate": 0.00018108388600694738,
      "loss": 3.9404,
      "step": 209240
    },
    {
      "epoch": 0.4359375,
      "grad_norm": 0.6922447681427002,
      "learning_rate": 0.0001810742413839488,
      "loss": 3.7524,
      "step": 209250
    },
    {
      "epoch": 0.43595833333333334,
      "grad_norm": 1.0277308225631714,
      "learning_rate": 0.00018106459662672175,
      "loss": 3.8177,
      "step": 209260
    },
    {
      "epoch": 0.43597916666666664,
      "grad_norm": 0.7385871410369873,
      "learning_rate": 0.00018105495173530796,
      "loss": 3.8033,
      "step": 209270
    },
    {
      "epoch": 0.436,
      "grad_norm": 0.7691906690597534,
      "learning_rate": 0.00018104530670974908,
      "loss": 3.728,
      "step": 209280
    },
    {
      "epoch": 0.43602083333333336,
      "grad_norm": 1.0515928268432617,
      "learning_rate": 0.0001810356615500867,
      "loss": 3.801,
      "step": 209290
    },
    {
      "epoch": 0.43604166666666666,
      "grad_norm": 0.8400045037269592,
      "learning_rate": 0.00018102601625636267,
      "loss": 3.8166,
      "step": 209300
    },
    {
      "epoch": 0.4360625,
      "grad_norm": 0.7464209198951721,
      "learning_rate": 0.00018101637082861843,
      "loss": 3.7817,
      "step": 209310
    },
    {
      "epoch": 0.4360833333333333,
      "grad_norm": 0.9569619297981262,
      "learning_rate": 0.00018100672526689577,
      "loss": 3.8638,
      "step": 209320
    },
    {
      "epoch": 0.4361041666666667,
      "grad_norm": 0.756924033164978,
      "learning_rate": 0.0001809970795712363,
      "loss": 3.9048,
      "step": 209330
    },
    {
      "epoch": 0.436125,
      "grad_norm": 0.800409734249115,
      "learning_rate": 0.00018098743374168178,
      "loss": 3.8023,
      "step": 209340
    },
    {
      "epoch": 0.43614583333333334,
      "grad_norm": 0.8357544541358948,
      "learning_rate": 0.00018097778777827377,
      "loss": 3.5998,
      "step": 209350
    },
    {
      "epoch": 0.43616666666666665,
      "grad_norm": 0.8125721216201782,
      "learning_rate": 0.00018096814168105398,
      "loss": 3.9185,
      "step": 209360
    },
    {
      "epoch": 0.4361875,
      "grad_norm": 0.7776438593864441,
      "learning_rate": 0.00018095849545006406,
      "loss": 3.8246,
      "step": 209370
    },
    {
      "epoch": 0.4362083333333333,
      "grad_norm": 1.064680576324463,
      "learning_rate": 0.00018094884908534574,
      "loss": 3.7832,
      "step": 209380
    },
    {
      "epoch": 0.43622916666666667,
      "grad_norm": 0.8944137096405029,
      "learning_rate": 0.00018093920258694063,
      "loss": 3.7199,
      "step": 209390
    },
    {
      "epoch": 0.43625,
      "grad_norm": 0.7406811118125916,
      "learning_rate": 0.0001809295559548904,
      "loss": 3.8517,
      "step": 209400
    },
    {
      "epoch": 0.43627083333333333,
      "grad_norm": 0.9873038530349731,
      "learning_rate": 0.00018091990918923674,
      "loss": 3.6712,
      "step": 209410
    },
    {
      "epoch": 0.4362916666666667,
      "grad_norm": 0.9372523427009583,
      "learning_rate": 0.00018091026229002127,
      "loss": 3.766,
      "step": 209420
    },
    {
      "epoch": 0.4363125,
      "grad_norm": 0.763837993144989,
      "learning_rate": 0.00018090061525728572,
      "loss": 3.9301,
      "step": 209430
    },
    {
      "epoch": 0.43633333333333335,
      "grad_norm": 0.9357160925865173,
      "learning_rate": 0.0001808909680910718,
      "loss": 4.0646,
      "step": 209440
    },
    {
      "epoch": 0.43635416666666665,
      "grad_norm": 0.7338935136795044,
      "learning_rate": 0.00018088132079142107,
      "loss": 3.7949,
      "step": 209450
    },
    {
      "epoch": 0.436375,
      "grad_norm": 0.7316713929176331,
      "learning_rate": 0.00018087167335837525,
      "loss": 3.8413,
      "step": 209460
    },
    {
      "epoch": 0.4363958333333333,
      "grad_norm": 0.7749177813529968,
      "learning_rate": 0.0001808620257919761,
      "loss": 3.6922,
      "step": 209470
    },
    {
      "epoch": 0.4364166666666667,
      "grad_norm": 0.7456467747688293,
      "learning_rate": 0.00018085237809226513,
      "loss": 3.8603,
      "step": 209480
    },
    {
      "epoch": 0.4364375,
      "grad_norm": 0.7710333466529846,
      "learning_rate": 0.0001808427302592841,
      "loss": 3.9523,
      "step": 209490
    },
    {
      "epoch": 0.43645833333333334,
      "grad_norm": 0.7572890520095825,
      "learning_rate": 0.00018083308229307476,
      "loss": 4.0579,
      "step": 209500
    },
    {
      "epoch": 0.43647916666666664,
      "grad_norm": 0.8027890920639038,
      "learning_rate": 0.00018082343419367866,
      "loss": 3.8062,
      "step": 209510
    },
    {
      "epoch": 0.4365,
      "grad_norm": 0.8070124387741089,
      "learning_rate": 0.00018081378596113753,
      "loss": 4.0759,
      "step": 209520
    },
    {
      "epoch": 0.43652083333333336,
      "grad_norm": 0.8695814609527588,
      "learning_rate": 0.000180804137595493,
      "loss": 3.8125,
      "step": 209530
    },
    {
      "epoch": 0.43654166666666666,
      "grad_norm": 0.8810652494430542,
      "learning_rate": 0.00018079448909678682,
      "loss": 3.7984,
      "step": 209540
    },
    {
      "epoch": 0.4365625,
      "grad_norm": 0.7681264877319336,
      "learning_rate": 0.00018078484046506063,
      "loss": 4.0618,
      "step": 209550
    },
    {
      "epoch": 0.4365833333333333,
      "grad_norm": 0.8999792337417603,
      "learning_rate": 0.00018077519170035615,
      "loss": 3.8858,
      "step": 209560
    },
    {
      "epoch": 0.4366041666666667,
      "grad_norm": 0.7340844869613647,
      "learning_rate": 0.00018076554280271502,
      "loss": 3.7236,
      "step": 209570
    },
    {
      "epoch": 0.436625,
      "grad_norm": 0.6987677812576294,
      "learning_rate": 0.0001807558937721789,
      "loss": 3.77,
      "step": 209580
    },
    {
      "epoch": 0.43664583333333334,
      "grad_norm": 0.9763569235801697,
      "learning_rate": 0.00018074624460878946,
      "loss": 3.6019,
      "step": 209590
    },
    {
      "epoch": 0.43666666666666665,
      "grad_norm": 1.1763261556625366,
      "learning_rate": 0.00018073659531258845,
      "loss": 3.8062,
      "step": 209600
    },
    {
      "epoch": 0.4366875,
      "grad_norm": 0.8611657023429871,
      "learning_rate": 0.00018072694588361753,
      "loss": 3.8272,
      "step": 209610
    },
    {
      "epoch": 0.4367083333333333,
      "grad_norm": 0.8093331456184387,
      "learning_rate": 0.0001807172963219183,
      "loss": 3.7735,
      "step": 209620
    },
    {
      "epoch": 0.43672916666666667,
      "grad_norm": 1.1905746459960938,
      "learning_rate": 0.0001807076466275326,
      "loss": 3.8889,
      "step": 209630
    },
    {
      "epoch": 0.43675,
      "grad_norm": 0.8441787362098694,
      "learning_rate": 0.00018069799680050198,
      "loss": 3.6715,
      "step": 209640
    },
    {
      "epoch": 0.43677083333333333,
      "grad_norm": 0.7898692488670349,
      "learning_rate": 0.00018068834684086818,
      "loss": 3.7993,
      "step": 209650
    },
    {
      "epoch": 0.4367916666666667,
      "grad_norm": 0.907351553440094,
      "learning_rate": 0.00018067869674867282,
      "loss": 3.8247,
      "step": 209660
    },
    {
      "epoch": 0.4368125,
      "grad_norm": 0.8169718980789185,
      "learning_rate": 0.00018066904652395767,
      "loss": 3.8094,
      "step": 209670
    },
    {
      "epoch": 0.43683333333333335,
      "grad_norm": 0.7437605261802673,
      "learning_rate": 0.00018065939616676438,
      "loss": 3.8261,
      "step": 209680
    },
    {
      "epoch": 0.43685416666666665,
      "grad_norm": 0.8080320954322815,
      "learning_rate": 0.00018064974567713463,
      "loss": 3.9367,
      "step": 209690
    },
    {
      "epoch": 0.436875,
      "grad_norm": 0.7378320693969727,
      "learning_rate": 0.0001806400950551101,
      "loss": 3.8158,
      "step": 209700
    },
    {
      "epoch": 0.4368958333333333,
      "grad_norm": 0.7838791012763977,
      "learning_rate": 0.0001806304443007325,
      "loss": 3.894,
      "step": 209710
    },
    {
      "epoch": 0.4369166666666667,
      "grad_norm": 0.6402467489242554,
      "learning_rate": 0.00018062079341404355,
      "loss": 3.717,
      "step": 209720
    },
    {
      "epoch": 0.4369375,
      "grad_norm": 1.1769472360610962,
      "learning_rate": 0.0001806111423950848,
      "loss": 3.7089,
      "step": 209730
    },
    {
      "epoch": 0.43695833333333334,
      "grad_norm": 0.8121064901351929,
      "learning_rate": 0.0001806014912438981,
      "loss": 3.8425,
      "step": 209740
    },
    {
      "epoch": 0.43697916666666664,
      "grad_norm": 0.7748070955276489,
      "learning_rate": 0.0001805918399605251,
      "loss": 3.741,
      "step": 209750
    },
    {
      "epoch": 0.437,
      "grad_norm": 0.829071044921875,
      "learning_rate": 0.00018058218854500734,
      "loss": 3.729,
      "step": 209760
    },
    {
      "epoch": 0.43702083333333336,
      "grad_norm": 0.8138737678527832,
      "learning_rate": 0.0001805725369973867,
      "loss": 3.6874,
      "step": 209770
    },
    {
      "epoch": 0.43704166666666666,
      "grad_norm": 0.7522696256637573,
      "learning_rate": 0.00018056288531770483,
      "loss": 3.8259,
      "step": 209780
    },
    {
      "epoch": 0.4370625,
      "grad_norm": 1.045863151550293,
      "learning_rate": 0.00018055323350600334,
      "loss": 3.8231,
      "step": 209790
    },
    {
      "epoch": 0.4370833333333333,
      "grad_norm": 0.7095304131507874,
      "learning_rate": 0.000180543581562324,
      "loss": 3.6839,
      "step": 209800
    },
    {
      "epoch": 0.4371041666666667,
      "grad_norm": 0.7149321436882019,
      "learning_rate": 0.0001805339294867085,
      "loss": 3.7071,
      "step": 209810
    },
    {
      "epoch": 0.437125,
      "grad_norm": 1.0195941925048828,
      "learning_rate": 0.00018052427727919848,
      "loss": 3.6683,
      "step": 209820
    },
    {
      "epoch": 0.43714583333333334,
      "grad_norm": 0.7685490846633911,
      "learning_rate": 0.00018051462493983567,
      "loss": 3.7298,
      "step": 209830
    },
    {
      "epoch": 0.43716666666666665,
      "grad_norm": 0.6788873672485352,
      "learning_rate": 0.00018050497246866178,
      "loss": 3.6251,
      "step": 209840
    },
    {
      "epoch": 0.4371875,
      "grad_norm": 0.7777615785598755,
      "learning_rate": 0.00018049531986571844,
      "loss": 3.6384,
      "step": 209850
    },
    {
      "epoch": 0.4372083333333333,
      "grad_norm": 0.7891573905944824,
      "learning_rate": 0.0001804856671310474,
      "loss": 3.8576,
      "step": 209860
    },
    {
      "epoch": 0.43722916666666667,
      "grad_norm": 0.841916561126709,
      "learning_rate": 0.0001804760142646904,
      "loss": 3.8986,
      "step": 209870
    },
    {
      "epoch": 0.43725,
      "grad_norm": 0.7952195405960083,
      "learning_rate": 0.00018046636126668904,
      "loss": 3.7813,
      "step": 209880
    },
    {
      "epoch": 0.43727083333333333,
      "grad_norm": 0.8528276681900024,
      "learning_rate": 0.00018045670813708503,
      "loss": 3.7089,
      "step": 209890
    },
    {
      "epoch": 0.4372916666666667,
      "grad_norm": 0.9026359915733337,
      "learning_rate": 0.00018044705487592016,
      "loss": 3.8075,
      "step": 209900
    },
    {
      "epoch": 0.4373125,
      "grad_norm": 0.9326280951499939,
      "learning_rate": 0.000180437401483236,
      "loss": 3.6967,
      "step": 209910
    },
    {
      "epoch": 0.43733333333333335,
      "grad_norm": 0.8418026566505432,
      "learning_rate": 0.00018042774795907435,
      "loss": 3.8619,
      "step": 209920
    },
    {
      "epoch": 0.43735416666666665,
      "grad_norm": 0.769836962223053,
      "learning_rate": 0.00018041809430347684,
      "loss": 3.7737,
      "step": 209930
    },
    {
      "epoch": 0.437375,
      "grad_norm": 0.7939190864562988,
      "learning_rate": 0.00018040844051648525,
      "loss": 3.827,
      "step": 209940
    },
    {
      "epoch": 0.4373958333333333,
      "grad_norm": 0.6719022989273071,
      "learning_rate": 0.00018039878659814124,
      "loss": 3.8161,
      "step": 209950
    },
    {
      "epoch": 0.4374166666666667,
      "grad_norm": 0.7646161913871765,
      "learning_rate": 0.00018038913254848644,
      "loss": 3.7922,
      "step": 209960
    },
    {
      "epoch": 0.4374375,
      "grad_norm": 0.6647078394889832,
      "learning_rate": 0.00018037947836756265,
      "loss": 3.8598,
      "step": 209970
    },
    {
      "epoch": 0.43745833333333334,
      "grad_norm": 0.6670778393745422,
      "learning_rate": 0.00018036982405541158,
      "loss": 3.7305,
      "step": 209980
    },
    {
      "epoch": 0.43747916666666664,
      "grad_norm": 0.7648993730545044,
      "learning_rate": 0.00018036016961207483,
      "loss": 3.9673,
      "step": 209990
    },
    {
      "epoch": 0.4375,
      "grad_norm": 0.836171567440033,
      "learning_rate": 0.0001803505150375942,
      "loss": 3.672,
      "step": 210000
    },
    {
      "epoch": 0.4375,
      "eval_loss": 4.182221412658691,
      "eval_runtime": 8.1293,
      "eval_samples_per_second": 1.23,
      "eval_steps_per_second": 0.369,
      "step": 210000
    },
    {
      "epoch": 0.43752083333333336,
      "grad_norm": 0.8707994222640991,
      "learning_rate": 0.00018034086033201133,
      "loss": 3.8061,
      "step": 210010
    },
    {
      "epoch": 0.43754166666666666,
      "grad_norm": 0.8111225962638855,
      "learning_rate": 0.000180331205495368,
      "loss": 3.8625,
      "step": 210020
    },
    {
      "epoch": 0.4375625,
      "grad_norm": 0.91038978099823,
      "learning_rate": 0.00018032155052770583,
      "loss": 3.7915,
      "step": 210030
    },
    {
      "epoch": 0.4375833333333333,
      "grad_norm": 0.8375064134597778,
      "learning_rate": 0.0001803118954290666,
      "loss": 3.7212,
      "step": 210040
    },
    {
      "epoch": 0.4376041666666667,
      "grad_norm": 0.788590669631958,
      "learning_rate": 0.0001803022401994919,
      "loss": 3.8081,
      "step": 210050
    },
    {
      "epoch": 0.437625,
      "grad_norm": 0.9080971479415894,
      "learning_rate": 0.0001802925848390236,
      "loss": 3.7001,
      "step": 210060
    },
    {
      "epoch": 0.43764583333333335,
      "grad_norm": 0.7935925126075745,
      "learning_rate": 0.0001802829293477033,
      "loss": 3.8346,
      "step": 210070
    },
    {
      "epoch": 0.43766666666666665,
      "grad_norm": 0.8996718525886536,
      "learning_rate": 0.0001802732737255727,
      "loss": 3.8495,
      "step": 210080
    },
    {
      "epoch": 0.4376875,
      "grad_norm": 0.8170092701911926,
      "learning_rate": 0.00018026361797267358,
      "loss": 3.873,
      "step": 210090
    },
    {
      "epoch": 0.4377083333333333,
      "grad_norm": 0.851235032081604,
      "learning_rate": 0.00018025396208904757,
      "loss": 3.8364,
      "step": 210100
    },
    {
      "epoch": 0.43772916666666667,
      "grad_norm": 0.7970091104507446,
      "learning_rate": 0.00018024430607473647,
      "loss": 3.851,
      "step": 210110
    },
    {
      "epoch": 0.43775,
      "grad_norm": 0.8474779725074768,
      "learning_rate": 0.0001802346499297819,
      "loss": 3.8333,
      "step": 210120
    },
    {
      "epoch": 0.43777083333333333,
      "grad_norm": 0.8214547038078308,
      "learning_rate": 0.00018022499365422562,
      "loss": 3.683,
      "step": 210130
    },
    {
      "epoch": 0.4377916666666667,
      "grad_norm": 0.7910937666893005,
      "learning_rate": 0.00018021533724810933,
      "loss": 3.8303,
      "step": 210140
    },
    {
      "epoch": 0.4378125,
      "grad_norm": 0.8400898575782776,
      "learning_rate": 0.00018020568071147478,
      "loss": 3.8178,
      "step": 210150
    },
    {
      "epoch": 0.43783333333333335,
      "grad_norm": 0.7335537075996399,
      "learning_rate": 0.0001801960240443636,
      "loss": 3.6319,
      "step": 210160
    },
    {
      "epoch": 0.43785416666666666,
      "grad_norm": 0.8035138845443726,
      "learning_rate": 0.00018018636724681758,
      "loss": 3.758,
      "step": 210170
    },
    {
      "epoch": 0.437875,
      "grad_norm": 0.7410905361175537,
      "learning_rate": 0.0001801767103188784,
      "loss": 3.9671,
      "step": 210180
    },
    {
      "epoch": 0.4378958333333333,
      "grad_norm": 0.8857408165931702,
      "learning_rate": 0.00018016705326058774,
      "loss": 3.9518,
      "step": 210190
    },
    {
      "epoch": 0.4379166666666667,
      "grad_norm": 0.7543896436691284,
      "learning_rate": 0.00018015739607198737,
      "loss": 3.879,
      "step": 210200
    },
    {
      "epoch": 0.4379375,
      "grad_norm": 0.7872442603111267,
      "learning_rate": 0.00018014773875311898,
      "loss": 3.8156,
      "step": 210210
    },
    {
      "epoch": 0.43795833333333334,
      "grad_norm": 0.7444895505905151,
      "learning_rate": 0.0001801380813040243,
      "loss": 3.8927,
      "step": 210220
    },
    {
      "epoch": 0.43797916666666664,
      "grad_norm": 0.6755317449569702,
      "learning_rate": 0.00018012842372474504,
      "loss": 3.9417,
      "step": 210230
    },
    {
      "epoch": 0.438,
      "grad_norm": 0.8582130670547485,
      "learning_rate": 0.0001801187660153229,
      "loss": 3.7736,
      "step": 210240
    },
    {
      "epoch": 0.43802083333333336,
      "grad_norm": 0.8586702346801758,
      "learning_rate": 0.00018010910817579964,
      "loss": 3.7554,
      "step": 210250
    },
    {
      "epoch": 0.43804166666666666,
      "grad_norm": 0.9712880849838257,
      "learning_rate": 0.00018009945020621692,
      "loss": 3.8862,
      "step": 210260
    },
    {
      "epoch": 0.4380625,
      "grad_norm": 0.8801212310791016,
      "learning_rate": 0.0001800897921066165,
      "loss": 3.6767,
      "step": 210270
    },
    {
      "epoch": 0.4380833333333333,
      "grad_norm": 0.8726341128349304,
      "learning_rate": 0.0001800801338770401,
      "loss": 3.8692,
      "step": 210280
    },
    {
      "epoch": 0.4381041666666667,
      "grad_norm": 0.8761811256408691,
      "learning_rate": 0.00018007047551752943,
      "loss": 3.8777,
      "step": 210290
    },
    {
      "epoch": 0.438125,
      "grad_norm": 0.6600484848022461,
      "learning_rate": 0.00018006081702812618,
      "loss": 3.6749,
      "step": 210300
    },
    {
      "epoch": 0.43814583333333335,
      "grad_norm": 0.9111180901527405,
      "learning_rate": 0.00018005115840887212,
      "loss": 3.9054,
      "step": 210310
    },
    {
      "epoch": 0.43816666666666665,
      "grad_norm": 0.776627779006958,
      "learning_rate": 0.00018004149965980898,
      "loss": 3.8608,
      "step": 210320
    },
    {
      "epoch": 0.4381875,
      "grad_norm": 0.804289698600769,
      "learning_rate": 0.00018003184078097838,
      "loss": 3.7692,
      "step": 210330
    },
    {
      "epoch": 0.4382083333333333,
      "grad_norm": 0.7797996997833252,
      "learning_rate": 0.0001800221817724222,
      "loss": 3.8282,
      "step": 210340
    },
    {
      "epoch": 0.43822916666666667,
      "grad_norm": 0.7995768189430237,
      "learning_rate": 0.00018001252263418206,
      "loss": 3.7638,
      "step": 210350
    },
    {
      "epoch": 0.43825,
      "grad_norm": 1.0265908241271973,
      "learning_rate": 0.0001800028633662996,
      "loss": 3.7624,
      "step": 210360
    },
    {
      "epoch": 0.43827083333333333,
      "grad_norm": 0.963118314743042,
      "learning_rate": 0.0001799932039688168,
      "loss": 3.6853,
      "step": 210370
    },
    {
      "epoch": 0.4382916666666667,
      "grad_norm": 0.7742981314659119,
      "learning_rate": 0.00017998354444177513,
      "loss": 3.6098,
      "step": 210380
    },
    {
      "epoch": 0.4383125,
      "grad_norm": 0.756222128868103,
      "learning_rate": 0.00017997388478521647,
      "loss": 4.0478,
      "step": 210390
    },
    {
      "epoch": 0.43833333333333335,
      "grad_norm": 0.8193797469139099,
      "learning_rate": 0.00017996422499918244,
      "loss": 4.0202,
      "step": 210400
    },
    {
      "epoch": 0.43835416666666666,
      "grad_norm": 0.9903436303138733,
      "learning_rate": 0.00017995456508371484,
      "loss": 3.769,
      "step": 210410
    },
    {
      "epoch": 0.438375,
      "grad_norm": 0.8906968832015991,
      "learning_rate": 0.00017994490503885538,
      "loss": 3.7244,
      "step": 210420
    },
    {
      "epoch": 0.4383958333333333,
      "grad_norm": 0.8758535385131836,
      "learning_rate": 0.00017993524486464578,
      "loss": 3.9095,
      "step": 210430
    },
    {
      "epoch": 0.4384166666666667,
      "grad_norm": 0.8432766795158386,
      "learning_rate": 0.00017992558456112774,
      "loss": 3.767,
      "step": 210440
    },
    {
      "epoch": 0.4384375,
      "grad_norm": 0.8250760436058044,
      "learning_rate": 0.0001799159241283431,
      "loss": 3.8208,
      "step": 210450
    },
    {
      "epoch": 0.43845833333333334,
      "grad_norm": 0.7808998823165894,
      "learning_rate": 0.00017990626356633344,
      "loss": 3.873,
      "step": 210460
    },
    {
      "epoch": 0.43847916666666664,
      "grad_norm": 0.9241129159927368,
      "learning_rate": 0.0001798966028751406,
      "loss": 3.7245,
      "step": 210470
    },
    {
      "epoch": 0.4385,
      "grad_norm": 0.734272301197052,
      "learning_rate": 0.00017988694205480627,
      "loss": 3.7817,
      "step": 210480
    },
    {
      "epoch": 0.43852083333333336,
      "grad_norm": 0.7567998170852661,
      "learning_rate": 0.0001798772811053721,
      "loss": 3.7313,
      "step": 210490
    },
    {
      "epoch": 0.43854166666666666,
      "grad_norm": 0.7064087390899658,
      "learning_rate": 0.00017986762002687997,
      "loss": 3.7816,
      "step": 210500
    },
    {
      "epoch": 0.4385625,
      "grad_norm": 0.905417799949646,
      "learning_rate": 0.00017985795881937157,
      "loss": 3.784,
      "step": 210510
    },
    {
      "epoch": 0.4385833333333333,
      "grad_norm": 0.913794755935669,
      "learning_rate": 0.0001798482974828886,
      "loss": 3.5853,
      "step": 210520
    },
    {
      "epoch": 0.4386041666666667,
      "grad_norm": 0.7481670379638672,
      "learning_rate": 0.00017983863601747275,
      "loss": 3.7514,
      "step": 210530
    },
    {
      "epoch": 0.438625,
      "grad_norm": 0.8919413685798645,
      "learning_rate": 0.00017982897442316584,
      "loss": 3.9662,
      "step": 210540
    },
    {
      "epoch": 0.43864583333333335,
      "grad_norm": 0.8081535696983337,
      "learning_rate": 0.00017981931270000956,
      "loss": 3.9438,
      "step": 210550
    },
    {
      "epoch": 0.43866666666666665,
      "grad_norm": 0.7278322577476501,
      "learning_rate": 0.0001798096508480456,
      "loss": 3.8239,
      "step": 210560
    },
    {
      "epoch": 0.4386875,
      "grad_norm": 0.7810259461402893,
      "learning_rate": 0.00017979998886731582,
      "loss": 3.7756,
      "step": 210570
    },
    {
      "epoch": 0.4387083333333333,
      "grad_norm": 0.7696817517280579,
      "learning_rate": 0.00017979032675786188,
      "loss": 3.8816,
      "step": 210580
    },
    {
      "epoch": 0.43872916666666667,
      "grad_norm": 0.804514467716217,
      "learning_rate": 0.00017978066451972548,
      "loss": 3.8417,
      "step": 210590
    },
    {
      "epoch": 0.43875,
      "grad_norm": 0.6824528574943542,
      "learning_rate": 0.00017977100215294843,
      "loss": 3.5892,
      "step": 210600
    },
    {
      "epoch": 0.43877083333333333,
      "grad_norm": 0.8115639686584473,
      "learning_rate": 0.0001797613396575724,
      "loss": 3.7798,
      "step": 210610
    },
    {
      "epoch": 0.4387916666666667,
      "grad_norm": 0.7801589965820312,
      "learning_rate": 0.00017975167703363924,
      "loss": 3.9516,
      "step": 210620
    },
    {
      "epoch": 0.4388125,
      "grad_norm": 0.9746991991996765,
      "learning_rate": 0.0001797420142811905,
      "loss": 3.7556,
      "step": 210630
    },
    {
      "epoch": 0.43883333333333335,
      "grad_norm": 0.8290380239486694,
      "learning_rate": 0.00017973235140026812,
      "loss": 3.8219,
      "step": 210640
    },
    {
      "epoch": 0.43885416666666666,
      "grad_norm": 0.6858564615249634,
      "learning_rate": 0.00017972268839091371,
      "loss": 3.9227,
      "step": 210650
    },
    {
      "epoch": 0.438875,
      "grad_norm": 1.1679524183273315,
      "learning_rate": 0.00017971302525316904,
      "loss": 3.7668,
      "step": 210660
    },
    {
      "epoch": 0.4388958333333333,
      "grad_norm": 0.7593138217926025,
      "learning_rate": 0.0001797033619870759,
      "loss": 3.7936,
      "step": 210670
    },
    {
      "epoch": 0.4389166666666667,
      "grad_norm": 0.7975792288780212,
      "learning_rate": 0.00017969369859267598,
      "loss": 3.6732,
      "step": 210680
    },
    {
      "epoch": 0.4389375,
      "grad_norm": 0.7382201552391052,
      "learning_rate": 0.00017968403507001105,
      "loss": 3.9091,
      "step": 210690
    },
    {
      "epoch": 0.43895833333333334,
      "grad_norm": 0.7824475169181824,
      "learning_rate": 0.00017967437141912275,
      "loss": 3.8678,
      "step": 210700
    },
    {
      "epoch": 0.43897916666666664,
      "grad_norm": 0.8132422566413879,
      "learning_rate": 0.00017966470764005303,
      "loss": 3.8808,
      "step": 210710
    },
    {
      "epoch": 0.439,
      "grad_norm": 0.8016163110733032,
      "learning_rate": 0.00017965504373284346,
      "loss": 3.6523,
      "step": 210720
    },
    {
      "epoch": 0.43902083333333336,
      "grad_norm": 0.8771795630455017,
      "learning_rate": 0.00017964537969753584,
      "loss": 3.8233,
      "step": 210730
    },
    {
      "epoch": 0.43904166666666666,
      "grad_norm": 0.7962482571601868,
      "learning_rate": 0.00017963571553417194,
      "loss": 4.0261,
      "step": 210740
    },
    {
      "epoch": 0.4390625,
      "grad_norm": 0.7430986762046814,
      "learning_rate": 0.00017962605124279343,
      "loss": 3.7495,
      "step": 210750
    },
    {
      "epoch": 0.4390833333333333,
      "grad_norm": 1.0089248418807983,
      "learning_rate": 0.00017961638682344213,
      "loss": 3.7971,
      "step": 210760
    },
    {
      "epoch": 0.4391041666666667,
      "grad_norm": 1.0742998123168945,
      "learning_rate": 0.00017960672227615977,
      "loss": 3.7863,
      "step": 210770
    },
    {
      "epoch": 0.439125,
      "grad_norm": 0.7390615940093994,
      "learning_rate": 0.0001795970576009881,
      "loss": 3.8205,
      "step": 210780
    },
    {
      "epoch": 0.43914583333333335,
      "grad_norm": 0.8705231547355652,
      "learning_rate": 0.00017958739279796883,
      "loss": 3.7087,
      "step": 210790
    },
    {
      "epoch": 0.43916666666666665,
      "grad_norm": 0.7367106676101685,
      "learning_rate": 0.00017957772786714372,
      "loss": 3.8228,
      "step": 210800
    },
    {
      "epoch": 0.4391875,
      "grad_norm": 0.8433371186256409,
      "learning_rate": 0.00017956806280855457,
      "loss": 3.8102,
      "step": 210810
    },
    {
      "epoch": 0.4392083333333333,
      "grad_norm": 0.9827256798744202,
      "learning_rate": 0.00017955839762224312,
      "loss": 3.737,
      "step": 210820
    },
    {
      "epoch": 0.43922916666666667,
      "grad_norm": 0.8381146192550659,
      "learning_rate": 0.000179548732308251,
      "loss": 3.7635,
      "step": 210830
    },
    {
      "epoch": 0.43925,
      "grad_norm": 0.9160526990890503,
      "learning_rate": 0.00017953906686662014,
      "loss": 3.8636,
      "step": 210840
    },
    {
      "epoch": 0.43927083333333333,
      "grad_norm": 0.7465947866439819,
      "learning_rate": 0.00017952940129739218,
      "loss": 3.6631,
      "step": 210850
    },
    {
      "epoch": 0.4392916666666667,
      "grad_norm": 0.8918412327766418,
      "learning_rate": 0.00017951973560060885,
      "loss": 3.9533,
      "step": 210860
    },
    {
      "epoch": 0.4393125,
      "grad_norm": 0.78873610496521,
      "learning_rate": 0.000179510069776312,
      "loss": 3.7499,
      "step": 210870
    },
    {
      "epoch": 0.43933333333333335,
      "grad_norm": 0.6762484312057495,
      "learning_rate": 0.00017950040382454333,
      "loss": 3.8356,
      "step": 210880
    },
    {
      "epoch": 0.43935416666666666,
      "grad_norm": 0.7651450634002686,
      "learning_rate": 0.00017949073774534458,
      "loss": 3.8138,
      "step": 210890
    },
    {
      "epoch": 0.439375,
      "grad_norm": 0.7717065215110779,
      "learning_rate": 0.00017948107153875745,
      "loss": 3.7622,
      "step": 210900
    },
    {
      "epoch": 0.4393958333333333,
      "grad_norm": 0.8753150105476379,
      "learning_rate": 0.00017947140520482388,
      "loss": 3.8874,
      "step": 210910
    },
    {
      "epoch": 0.4394166666666667,
      "grad_norm": 0.8148205280303955,
      "learning_rate": 0.00017946173874358544,
      "loss": 3.87,
      "step": 210920
    },
    {
      "epoch": 0.4394375,
      "grad_norm": 0.7915153503417969,
      "learning_rate": 0.00017945207215508397,
      "loss": 3.8038,
      "step": 210930
    },
    {
      "epoch": 0.43945833333333334,
      "grad_norm": 0.6788990497589111,
      "learning_rate": 0.00017944240543936118,
      "loss": 3.5031,
      "step": 210940
    },
    {
      "epoch": 0.43947916666666664,
      "grad_norm": 0.8279882073402405,
      "learning_rate": 0.00017943273859645885,
      "loss": 3.9141,
      "step": 210950
    },
    {
      "epoch": 0.4395,
      "grad_norm": 0.7451470494270325,
      "learning_rate": 0.00017942307162641875,
      "loss": 3.8973,
      "step": 210960
    },
    {
      "epoch": 0.43952083333333336,
      "grad_norm": 0.7166095972061157,
      "learning_rate": 0.00017941340452928264,
      "loss": 3.7997,
      "step": 210970
    },
    {
      "epoch": 0.43954166666666666,
      "grad_norm": 0.7444528937339783,
      "learning_rate": 0.00017940373730509224,
      "loss": 3.8316,
      "step": 210980
    },
    {
      "epoch": 0.4395625,
      "grad_norm": 0.7141744494438171,
      "learning_rate": 0.00017939406995388934,
      "loss": 3.7732,
      "step": 210990
    },
    {
      "epoch": 0.4395833333333333,
      "grad_norm": 0.8806841969490051,
      "learning_rate": 0.00017938440247571572,
      "loss": 3.7588,
      "step": 211000
    },
    {
      "epoch": 0.4395833333333333,
      "eval_loss": 4.178143501281738,
      "eval_runtime": 8.0908,
      "eval_samples_per_second": 1.236,
      "eval_steps_per_second": 0.371,
      "step": 211000
    },
    {
      "epoch": 0.4396041666666667,
      "grad_norm": 0.7681498527526855,
      "learning_rate": 0.0001793747348706131,
      "loss": 3.7349,
      "step": 211010
    },
    {
      "epoch": 0.439625,
      "grad_norm": 0.8106517195701599,
      "learning_rate": 0.00017936506713862326,
      "loss": 3.828,
      "step": 211020
    },
    {
      "epoch": 0.43964583333333335,
      "grad_norm": 0.7291443943977356,
      "learning_rate": 0.0001793553992797879,
      "loss": 3.7529,
      "step": 211030
    },
    {
      "epoch": 0.43966666666666665,
      "grad_norm": 0.764638364315033,
      "learning_rate": 0.00017934573129414888,
      "loss": 3.6974,
      "step": 211040
    },
    {
      "epoch": 0.4396875,
      "grad_norm": 0.7479116320610046,
      "learning_rate": 0.00017933606318174797,
      "loss": 3.7891,
      "step": 211050
    },
    {
      "epoch": 0.4397083333333333,
      "grad_norm": 0.7968180775642395,
      "learning_rate": 0.0001793263949426268,
      "loss": 3.68,
      "step": 211060
    },
    {
      "epoch": 0.43972916666666667,
      "grad_norm": 0.8980262279510498,
      "learning_rate": 0.00017931672657682724,
      "loss": 3.7221,
      "step": 211070
    },
    {
      "epoch": 0.43975,
      "grad_norm": 0.8458971977233887,
      "learning_rate": 0.00017930705808439103,
      "loss": 3.9094,
      "step": 211080
    },
    {
      "epoch": 0.43977083333333333,
      "grad_norm": 0.7272441983222961,
      "learning_rate": 0.0001792973894653599,
      "loss": 3.726,
      "step": 211090
    },
    {
      "epoch": 0.4397916666666667,
      "grad_norm": 0.7297682762145996,
      "learning_rate": 0.00017928772071977567,
      "loss": 3.9644,
      "step": 211100
    },
    {
      "epoch": 0.4398125,
      "grad_norm": 0.726782500743866,
      "learning_rate": 0.00017927805184768007,
      "loss": 3.7437,
      "step": 211110
    },
    {
      "epoch": 0.43983333333333335,
      "grad_norm": 0.7994661927223206,
      "learning_rate": 0.00017926838284911488,
      "loss": 3.8767,
      "step": 211120
    },
    {
      "epoch": 0.43985416666666666,
      "grad_norm": 0.7033007740974426,
      "learning_rate": 0.00017925871372412186,
      "loss": 3.742,
      "step": 211130
    },
    {
      "epoch": 0.439875,
      "grad_norm": 0.804852306842804,
      "learning_rate": 0.00017924904447274277,
      "loss": 3.9923,
      "step": 211140
    },
    {
      "epoch": 0.4398958333333333,
      "grad_norm": 0.7681237459182739,
      "learning_rate": 0.0001792393750950194,
      "loss": 3.7647,
      "step": 211150
    },
    {
      "epoch": 0.4399166666666667,
      "grad_norm": 0.7879598736763,
      "learning_rate": 0.0001792297055909935,
      "loss": 3.8686,
      "step": 211160
    },
    {
      "epoch": 0.4399375,
      "grad_norm": 0.9263802766799927,
      "learning_rate": 0.0001792200359607068,
      "loss": 3.8904,
      "step": 211170
    },
    {
      "epoch": 0.43995833333333334,
      "grad_norm": 0.8541470170021057,
      "learning_rate": 0.00017921036620420117,
      "loss": 3.9913,
      "step": 211180
    },
    {
      "epoch": 0.43997916666666664,
      "grad_norm": 0.8049418926239014,
      "learning_rate": 0.00017920069632151834,
      "loss": 3.8172,
      "step": 211190
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8243117928504944,
      "learning_rate": 0.00017919102631269997,
      "loss": 3.8202,
      "step": 211200
    },
    {
      "epoch": 0.44002083333333336,
      "grad_norm": 0.7382334470748901,
      "learning_rate": 0.000179181356177788,
      "loss": 4.0161,
      "step": 211210
    },
    {
      "epoch": 0.44004166666666666,
      "grad_norm": 0.750576913356781,
      "learning_rate": 0.0001791716859168241,
      "loss": 3.7231,
      "step": 211220
    },
    {
      "epoch": 0.4400625,
      "grad_norm": 0.713325023651123,
      "learning_rate": 0.00017916201552985002,
      "loss": 3.9498,
      "step": 211230
    },
    {
      "epoch": 0.4400833333333333,
      "grad_norm": 0.8719093203544617,
      "learning_rate": 0.00017915234501690762,
      "loss": 3.9992,
      "step": 211240
    },
    {
      "epoch": 0.4401041666666667,
      "grad_norm": 0.8743228912353516,
      "learning_rate": 0.00017914267437803863,
      "loss": 3.7605,
      "step": 211250
    },
    {
      "epoch": 0.440125,
      "grad_norm": 0.849057137966156,
      "learning_rate": 0.00017913300361328482,
      "loss": 3.6789,
      "step": 211260
    },
    {
      "epoch": 0.44014583333333335,
      "grad_norm": 1.0318020582199097,
      "learning_rate": 0.00017912333272268797,
      "loss": 3.8094,
      "step": 211270
    },
    {
      "epoch": 0.44016666666666665,
      "grad_norm": 0.7795277833938599,
      "learning_rate": 0.00017911366170628984,
      "loss": 3.8349,
      "step": 211280
    },
    {
      "epoch": 0.4401875,
      "grad_norm": 0.8385195732116699,
      "learning_rate": 0.0001791039905641322,
      "loss": 3.8724,
      "step": 211290
    },
    {
      "epoch": 0.4402083333333333,
      "grad_norm": 0.7889752984046936,
      "learning_rate": 0.00017909431929625684,
      "loss": 3.592,
      "step": 211300
    },
    {
      "epoch": 0.44022916666666667,
      "grad_norm": 0.7646567821502686,
      "learning_rate": 0.00017908464790270556,
      "loss": 3.7565,
      "step": 211310
    },
    {
      "epoch": 0.44025,
      "grad_norm": 0.7405385375022888,
      "learning_rate": 0.0001790749763835201,
      "loss": 3.841,
      "step": 211320
    },
    {
      "epoch": 0.44027083333333333,
      "grad_norm": 0.7512730360031128,
      "learning_rate": 0.00017906530473874225,
      "loss": 3.7402,
      "step": 211330
    },
    {
      "epoch": 0.4402916666666667,
      "grad_norm": 0.778616189956665,
      "learning_rate": 0.0001790556329684138,
      "loss": 3.9756,
      "step": 211340
    },
    {
      "epoch": 0.4403125,
      "grad_norm": 0.9321921467781067,
      "learning_rate": 0.00017904596107257655,
      "loss": 3.7438,
      "step": 211350
    },
    {
      "epoch": 0.44033333333333335,
      "grad_norm": 0.7105545997619629,
      "learning_rate": 0.0001790362890512722,
      "loss": 3.6506,
      "step": 211360
    },
    {
      "epoch": 0.44035416666666666,
      "grad_norm": 0.9841898679733276,
      "learning_rate": 0.00017902661690454255,
      "loss": 3.7331,
      "step": 211370
    },
    {
      "epoch": 0.440375,
      "grad_norm": 0.9285456538200378,
      "learning_rate": 0.00017901694463242948,
      "loss": 3.8314,
      "step": 211380
    },
    {
      "epoch": 0.4403958333333333,
      "grad_norm": 0.8375517129898071,
      "learning_rate": 0.00017900727223497462,
      "loss": 3.882,
      "step": 211390
    },
    {
      "epoch": 0.4404166666666667,
      "grad_norm": 0.9690690636634827,
      "learning_rate": 0.00017899759971221985,
      "loss": 3.8146,
      "step": 211400
    },
    {
      "epoch": 0.4404375,
      "grad_norm": 0.7738112211227417,
      "learning_rate": 0.00017898792706420698,
      "loss": 3.9024,
      "step": 211410
    },
    {
      "epoch": 0.44045833333333334,
      "grad_norm": 0.768258273601532,
      "learning_rate": 0.00017897825429097767,
      "loss": 3.5631,
      "step": 211420
    },
    {
      "epoch": 0.44047916666666664,
      "grad_norm": 0.8878409266471863,
      "learning_rate": 0.00017896858139257376,
      "loss": 4.0236,
      "step": 211430
    },
    {
      "epoch": 0.4405,
      "grad_norm": 0.7776740789413452,
      "learning_rate": 0.0001789589083690371,
      "loss": 4.1142,
      "step": 211440
    },
    {
      "epoch": 0.4405208333333333,
      "grad_norm": 0.6911435127258301,
      "learning_rate": 0.0001789492352204094,
      "loss": 3.7435,
      "step": 211450
    },
    {
      "epoch": 0.44054166666666666,
      "grad_norm": 0.87449711561203,
      "learning_rate": 0.00017893956194673248,
      "loss": 3.9088,
      "step": 211460
    },
    {
      "epoch": 0.4405625,
      "grad_norm": 0.8759812116622925,
      "learning_rate": 0.0001789298885480481,
      "loss": 3.8174,
      "step": 211470
    },
    {
      "epoch": 0.4405833333333333,
      "grad_norm": 0.7833624482154846,
      "learning_rate": 0.00017892021502439803,
      "loss": 3.835,
      "step": 211480
    },
    {
      "epoch": 0.4406041666666667,
      "grad_norm": 0.7437711358070374,
      "learning_rate": 0.00017891054137582406,
      "loss": 3.7708,
      "step": 211490
    },
    {
      "epoch": 0.440625,
      "grad_norm": 0.8041120767593384,
      "learning_rate": 0.00017890086760236805,
      "loss": 3.998,
      "step": 211500
    },
    {
      "epoch": 0.44064583333333335,
      "grad_norm": 0.7618263959884644,
      "learning_rate": 0.0001788911937040717,
      "loss": 3.8887,
      "step": 211510
    },
    {
      "epoch": 0.44066666666666665,
      "grad_norm": 0.8129239678382874,
      "learning_rate": 0.00017888151968097686,
      "loss": 3.7718,
      "step": 211520
    },
    {
      "epoch": 0.4406875,
      "grad_norm": 0.8745570182800293,
      "learning_rate": 0.00017887184553312522,
      "loss": 3.899,
      "step": 211530
    },
    {
      "epoch": 0.4407083333333333,
      "grad_norm": 0.7515487670898438,
      "learning_rate": 0.0001788621712605587,
      "loss": 3.7651,
      "step": 211540
    },
    {
      "epoch": 0.44072916666666667,
      "grad_norm": 0.778276264667511,
      "learning_rate": 0.00017885249686331903,
      "loss": 3.9725,
      "step": 211550
    },
    {
      "epoch": 0.44075,
      "grad_norm": 0.7770708799362183,
      "learning_rate": 0.00017884282234144791,
      "loss": 3.8021,
      "step": 211560
    },
    {
      "epoch": 0.44077083333333333,
      "grad_norm": 0.9878765344619751,
      "learning_rate": 0.0001788331476949873,
      "loss": 3.8294,
      "step": 211570
    },
    {
      "epoch": 0.4407916666666667,
      "grad_norm": 0.6858434081077576,
      "learning_rate": 0.00017882347292397891,
      "loss": 3.8004,
      "step": 211580
    },
    {
      "epoch": 0.4408125,
      "grad_norm": 0.76804518699646,
      "learning_rate": 0.00017881379802846446,
      "loss": 3.819,
      "step": 211590
    },
    {
      "epoch": 0.44083333333333335,
      "grad_norm": 0.8067342638969421,
      "learning_rate": 0.00017880412300848582,
      "loss": 3.8407,
      "step": 211600
    },
    {
      "epoch": 0.44085416666666666,
      "grad_norm": 0.838468611240387,
      "learning_rate": 0.00017879444786408482,
      "loss": 3.9089,
      "step": 211610
    },
    {
      "epoch": 0.440875,
      "grad_norm": 0.6768023371696472,
      "learning_rate": 0.00017878477259530316,
      "loss": 3.6901,
      "step": 211620
    },
    {
      "epoch": 0.4408958333333333,
      "grad_norm": 0.7578606009483337,
      "learning_rate": 0.00017877509720218269,
      "loss": 3.8278,
      "step": 211630
    },
    {
      "epoch": 0.4409166666666667,
      "grad_norm": 0.7771626710891724,
      "learning_rate": 0.00017876542168476523,
      "loss": 3.9302,
      "step": 211640
    },
    {
      "epoch": 0.4409375,
      "grad_norm": 0.695706844329834,
      "learning_rate": 0.0001787557460430925,
      "loss": 3.8173,
      "step": 211650
    },
    {
      "epoch": 0.44095833333333334,
      "grad_norm": 0.899723470211029,
      "learning_rate": 0.0001787460702772063,
      "loss": 3.882,
      "step": 211660
    },
    {
      "epoch": 0.44097916666666664,
      "grad_norm": 0.8998716473579407,
      "learning_rate": 0.00017873639438714846,
      "loss": 3.8138,
      "step": 211670
    },
    {
      "epoch": 0.441,
      "grad_norm": 0.9100516438484192,
      "learning_rate": 0.00017872671837296082,
      "loss": 3.9158,
      "step": 211680
    },
    {
      "epoch": 0.4410208333333333,
      "grad_norm": 0.848365843296051,
      "learning_rate": 0.00017871704223468513,
      "loss": 3.8478,
      "step": 211690
    },
    {
      "epoch": 0.44104166666666667,
      "grad_norm": 0.8689812421798706,
      "learning_rate": 0.00017870736597236307,
      "loss": 3.6769,
      "step": 211700
    },
    {
      "epoch": 0.4410625,
      "grad_norm": 0.6637271046638489,
      "learning_rate": 0.00017869768958603667,
      "loss": 3.7493,
      "step": 211710
    },
    {
      "epoch": 0.4410833333333333,
      "grad_norm": 0.8742327690124512,
      "learning_rate": 0.0001786880130757476,
      "loss": 3.6873,
      "step": 211720
    },
    {
      "epoch": 0.4411041666666667,
      "grad_norm": 0.7452598214149475,
      "learning_rate": 0.00017867833644153762,
      "loss": 3.8681,
      "step": 211730
    },
    {
      "epoch": 0.441125,
      "grad_norm": 0.9405038356781006,
      "learning_rate": 0.0001786686596834486,
      "loss": 3.8848,
      "step": 211740
    },
    {
      "epoch": 0.44114583333333335,
      "grad_norm": 0.9892112612724304,
      "learning_rate": 0.00017865898280152234,
      "loss": 3.8369,
      "step": 211750
    },
    {
      "epoch": 0.44116666666666665,
      "grad_norm": 0.7732619047164917,
      "learning_rate": 0.0001786493057958006,
      "loss": 3.5727,
      "step": 211760
    },
    {
      "epoch": 0.4411875,
      "grad_norm": 1.0193116664886475,
      "learning_rate": 0.00017863962866632516,
      "loss": 3.8497,
      "step": 211770
    },
    {
      "epoch": 0.4412083333333333,
      "grad_norm": 0.8899561166763306,
      "learning_rate": 0.00017862995141313792,
      "loss": 3.8072,
      "step": 211780
    },
    {
      "epoch": 0.4412291666666667,
      "grad_norm": 0.791211724281311,
      "learning_rate": 0.0001786202740362806,
      "loss": 3.782,
      "step": 211790
    },
    {
      "epoch": 0.44125,
      "grad_norm": 1.01499605178833,
      "learning_rate": 0.00017861059653579502,
      "loss": 3.7404,
      "step": 211800
    },
    {
      "epoch": 0.44127083333333333,
      "grad_norm": 0.8100991249084473,
      "learning_rate": 0.000178600918911723,
      "loss": 3.8542,
      "step": 211810
    },
    {
      "epoch": 0.4412916666666667,
      "grad_norm": 0.9277762174606323,
      "learning_rate": 0.00017859124116410632,
      "loss": 3.7729,
      "step": 211820
    },
    {
      "epoch": 0.4413125,
      "grad_norm": 1.4207651615142822,
      "learning_rate": 0.0001785815632929868,
      "loss": 3.6979,
      "step": 211830
    },
    {
      "epoch": 0.44133333333333336,
      "grad_norm": 1.0842111110687256,
      "learning_rate": 0.00017857188529840623,
      "loss": 4.0211,
      "step": 211840
    },
    {
      "epoch": 0.44135416666666666,
      "grad_norm": 0.7345304489135742,
      "learning_rate": 0.00017856220718040646,
      "loss": 3.7508,
      "step": 211850
    },
    {
      "epoch": 0.441375,
      "grad_norm": 0.8142982125282288,
      "learning_rate": 0.0001785525289390292,
      "loss": 4.0555,
      "step": 211860
    },
    {
      "epoch": 0.4413958333333333,
      "grad_norm": 0.8791422843933105,
      "learning_rate": 0.00017854285057431637,
      "loss": 3.576,
      "step": 211870
    },
    {
      "epoch": 0.4414166666666667,
      "grad_norm": 0.7898887395858765,
      "learning_rate": 0.0001785331720863097,
      "loss": 3.716,
      "step": 211880
    },
    {
      "epoch": 0.4414375,
      "grad_norm": 0.7097875475883484,
      "learning_rate": 0.00017852349347505104,
      "loss": 3.875,
      "step": 211890
    },
    {
      "epoch": 0.44145833333333334,
      "grad_norm": 0.9029527306556702,
      "learning_rate": 0.00017851381474058212,
      "loss": 3.9212,
      "step": 211900
    },
    {
      "epoch": 0.44147916666666664,
      "grad_norm": 0.7609792947769165,
      "learning_rate": 0.00017850413588294485,
      "loss": 3.9647,
      "step": 211910
    },
    {
      "epoch": 0.4415,
      "grad_norm": 0.8799642324447632,
      "learning_rate": 0.00017849445690218106,
      "loss": 3.8631,
      "step": 211920
    },
    {
      "epoch": 0.4415208333333333,
      "grad_norm": 0.7759531736373901,
      "learning_rate": 0.00017848477779833238,
      "loss": 3.9223,
      "step": 211930
    },
    {
      "epoch": 0.44154166666666667,
      "grad_norm": 0.8906785249710083,
      "learning_rate": 0.00017847509857144082,
      "loss": 3.7998,
      "step": 211940
    },
    {
      "epoch": 0.4415625,
      "grad_norm": 0.829611599445343,
      "learning_rate": 0.0001784654192215481,
      "loss": 3.8182,
      "step": 211950
    },
    {
      "epoch": 0.4415833333333333,
      "grad_norm": 0.7601538896560669,
      "learning_rate": 0.00017845573974869597,
      "loss": 3.9434,
      "step": 211960
    },
    {
      "epoch": 0.4416041666666667,
      "grad_norm": 0.910615086555481,
      "learning_rate": 0.00017844606015292636,
      "loss": 3.749,
      "step": 211970
    },
    {
      "epoch": 0.441625,
      "grad_norm": 0.8115794062614441,
      "learning_rate": 0.000178436380434281,
      "loss": 3.858,
      "step": 211980
    },
    {
      "epoch": 0.44164583333333335,
      "grad_norm": 0.6761053204536438,
      "learning_rate": 0.00017842670059280177,
      "loss": 3.6457,
      "step": 211990
    },
    {
      "epoch": 0.44166666666666665,
      "grad_norm": 0.9326620101928711,
      "learning_rate": 0.00017841702062853043,
      "loss": 3.8026,
      "step": 212000
    },
    {
      "epoch": 0.44166666666666665,
      "eval_loss": 4.1645917892456055,
      "eval_runtime": 8.5428,
      "eval_samples_per_second": 1.171,
      "eval_steps_per_second": 0.351,
      "step": 212000
    },
    {
      "epoch": 0.4416875,
      "grad_norm": 0.727075457572937,
      "learning_rate": 0.00017840734054150878,
      "loss": 3.6179,
      "step": 212010
    },
    {
      "epoch": 0.4417083333333333,
      "grad_norm": 0.9204686880111694,
      "learning_rate": 0.00017839766033177868,
      "loss": 3.7122,
      "step": 212020
    },
    {
      "epoch": 0.4417291666666667,
      "grad_norm": 0.9439092874526978,
      "learning_rate": 0.00017838797999938195,
      "loss": 3.8387,
      "step": 212030
    },
    {
      "epoch": 0.44175,
      "grad_norm": 0.8876492977142334,
      "learning_rate": 0.00017837829954436035,
      "loss": 3.9945,
      "step": 212040
    },
    {
      "epoch": 0.44177083333333333,
      "grad_norm": 0.8367992043495178,
      "learning_rate": 0.00017836861896675576,
      "loss": 3.7666,
      "step": 212050
    },
    {
      "epoch": 0.4417916666666667,
      "grad_norm": 0.8965807557106018,
      "learning_rate": 0.00017835893826660996,
      "loss": 3.6846,
      "step": 212060
    },
    {
      "epoch": 0.4418125,
      "grad_norm": 0.9070982933044434,
      "learning_rate": 0.00017834925744396473,
      "loss": 3.7092,
      "step": 212070
    },
    {
      "epoch": 0.44183333333333336,
      "grad_norm": 0.7909185886383057,
      "learning_rate": 0.00017833957649886198,
      "loss": 3.6148,
      "step": 212080
    },
    {
      "epoch": 0.44185416666666666,
      "grad_norm": 0.8390197157859802,
      "learning_rate": 0.00017832989543134349,
      "loss": 3.8061,
      "step": 212090
    },
    {
      "epoch": 0.441875,
      "grad_norm": 0.7975754141807556,
      "learning_rate": 0.000178320214241451,
      "loss": 3.7414,
      "step": 212100
    },
    {
      "epoch": 0.4418958333333333,
      "grad_norm": 0.837310254573822,
      "learning_rate": 0.00017831053292922648,
      "loss": 3.6444,
      "step": 212110
    },
    {
      "epoch": 0.4419166666666667,
      "grad_norm": 0.7457195520401001,
      "learning_rate": 0.0001783008514947116,
      "loss": 3.7256,
      "step": 212120
    },
    {
      "epoch": 0.4419375,
      "grad_norm": 0.8194074630737305,
      "learning_rate": 0.00017829116993794825,
      "loss": 3.8307,
      "step": 212130
    },
    {
      "epoch": 0.44195833333333334,
      "grad_norm": 0.7590765357017517,
      "learning_rate": 0.00017828148825897825,
      "loss": 3.789,
      "step": 212140
    },
    {
      "epoch": 0.44197916666666665,
      "grad_norm": 0.9366446137428284,
      "learning_rate": 0.0001782718064578434,
      "loss": 3.7697,
      "step": 212150
    },
    {
      "epoch": 0.442,
      "grad_norm": 0.7424368858337402,
      "learning_rate": 0.0001782621245345856,
      "loss": 3.8051,
      "step": 212160
    },
    {
      "epoch": 0.4420208333333333,
      "grad_norm": 0.7771121263504028,
      "learning_rate": 0.00017825244248924652,
      "loss": 3.9133,
      "step": 212170
    },
    {
      "epoch": 0.44204166666666667,
      "grad_norm": 0.7403721809387207,
      "learning_rate": 0.0001782427603218681,
      "loss": 3.7049,
      "step": 212180
    },
    {
      "epoch": 0.4420625,
      "grad_norm": 0.8848803639411926,
      "learning_rate": 0.00017823307803249217,
      "loss": 3.8889,
      "step": 212190
    },
    {
      "epoch": 0.44208333333333333,
      "grad_norm": 0.891830325126648,
      "learning_rate": 0.00017822339562116048,
      "loss": 3.7415,
      "step": 212200
    },
    {
      "epoch": 0.4421041666666667,
      "grad_norm": 0.8653658628463745,
      "learning_rate": 0.00017821371308791495,
      "loss": 3.8661,
      "step": 212210
    },
    {
      "epoch": 0.442125,
      "grad_norm": 0.7692564129829407,
      "learning_rate": 0.0001782040304327973,
      "loss": 3.7531,
      "step": 212220
    },
    {
      "epoch": 0.44214583333333335,
      "grad_norm": 0.8058370351791382,
      "learning_rate": 0.0001781943476558494,
      "loss": 3.929,
      "step": 212230
    },
    {
      "epoch": 0.44216666666666665,
      "grad_norm": 0.8056944608688354,
      "learning_rate": 0.00017818466475711308,
      "loss": 3.9216,
      "step": 212240
    },
    {
      "epoch": 0.4421875,
      "grad_norm": 0.9036310911178589,
      "learning_rate": 0.0001781749817366302,
      "loss": 3.6843,
      "step": 212250
    },
    {
      "epoch": 0.4422083333333333,
      "grad_norm": 0.7104048132896423,
      "learning_rate": 0.0001781652985944425,
      "loss": 3.9348,
      "step": 212260
    },
    {
      "epoch": 0.4422291666666667,
      "grad_norm": 0.8581287860870361,
      "learning_rate": 0.0001781556153305919,
      "loss": 3.9284,
      "step": 212270
    },
    {
      "epoch": 0.44225,
      "grad_norm": 0.6819022297859192,
      "learning_rate": 0.0001781459319451202,
      "loss": 3.781,
      "step": 212280
    },
    {
      "epoch": 0.44227083333333334,
      "grad_norm": 0.7307923436164856,
      "learning_rate": 0.00017813624843806918,
      "loss": 3.7037,
      "step": 212290
    },
    {
      "epoch": 0.4422916666666667,
      "grad_norm": 1.0654447078704834,
      "learning_rate": 0.00017812656480948065,
      "loss": 3.7489,
      "step": 212300
    },
    {
      "epoch": 0.4423125,
      "grad_norm": 0.8024397492408752,
      "learning_rate": 0.0001781168810593966,
      "loss": 3.8682,
      "step": 212310
    },
    {
      "epoch": 0.44233333333333336,
      "grad_norm": 0.7886845469474792,
      "learning_rate": 0.0001781071971878587,
      "loss": 3.7188,
      "step": 212320
    },
    {
      "epoch": 0.44235416666666666,
      "grad_norm": 0.7908526062965393,
      "learning_rate": 0.00017809751319490882,
      "loss": 3.7276,
      "step": 212330
    },
    {
      "epoch": 0.442375,
      "grad_norm": 0.8009665012359619,
      "learning_rate": 0.00017808782908058885,
      "loss": 3.6149,
      "step": 212340
    },
    {
      "epoch": 0.4423958333333333,
      "grad_norm": 0.8704243898391724,
      "learning_rate": 0.0001780781448449405,
      "loss": 3.783,
      "step": 212350
    },
    {
      "epoch": 0.4424166666666667,
      "grad_norm": 0.7369353175163269,
      "learning_rate": 0.00017806846048800578,
      "loss": 3.6256,
      "step": 212360
    },
    {
      "epoch": 0.4424375,
      "grad_norm": 0.8492236137390137,
      "learning_rate": 0.00017805877600982634,
      "loss": 3.619,
      "step": 212370
    },
    {
      "epoch": 0.44245833333333334,
      "grad_norm": 0.7848181128501892,
      "learning_rate": 0.00017804909141044413,
      "loss": 3.6451,
      "step": 212380
    },
    {
      "epoch": 0.44247916666666665,
      "grad_norm": 0.6955427527427673,
      "learning_rate": 0.00017803940668990097,
      "loss": 3.8219,
      "step": 212390
    },
    {
      "epoch": 0.4425,
      "grad_norm": 0.7324879765510559,
      "learning_rate": 0.0001780297218482386,
      "loss": 3.7914,
      "step": 212400
    },
    {
      "epoch": 0.4425208333333333,
      "grad_norm": 0.7494047284126282,
      "learning_rate": 0.00017802003688549897,
      "loss": 3.7766,
      "step": 212410
    },
    {
      "epoch": 0.44254166666666667,
      "grad_norm": 0.8263557553291321,
      "learning_rate": 0.0001780103518017239,
      "loss": 3.8223,
      "step": 212420
    },
    {
      "epoch": 0.4425625,
      "grad_norm": 0.8419903516769409,
      "learning_rate": 0.00017800066659695514,
      "loss": 3.939,
      "step": 212430
    },
    {
      "epoch": 0.44258333333333333,
      "grad_norm": 0.9603239893913269,
      "learning_rate": 0.0001779909812712346,
      "loss": 3.9084,
      "step": 212440
    },
    {
      "epoch": 0.4426041666666667,
      "grad_norm": 0.7589095234870911,
      "learning_rate": 0.00017798129582460414,
      "loss": 3.7877,
      "step": 212450
    },
    {
      "epoch": 0.442625,
      "grad_norm": 0.9449288249015808,
      "learning_rate": 0.00017797161025710556,
      "loss": 3.9016,
      "step": 212460
    },
    {
      "epoch": 0.44264583333333335,
      "grad_norm": 0.9956856966018677,
      "learning_rate": 0.0001779619245687806,
      "loss": 3.7663,
      "step": 212470
    },
    {
      "epoch": 0.44266666666666665,
      "grad_norm": 0.7861401438713074,
      "learning_rate": 0.00017795223875967132,
      "loss": 3.833,
      "step": 212480
    },
    {
      "epoch": 0.4426875,
      "grad_norm": 1.0341215133666992,
      "learning_rate": 0.00017794255282981938,
      "loss": 3.6708,
      "step": 212490
    },
    {
      "epoch": 0.4427083333333333,
      "grad_norm": 0.8550284504890442,
      "learning_rate": 0.0001779328667792666,
      "loss": 3.8725,
      "step": 212500
    },
    {
      "epoch": 0.4427291666666667,
      "grad_norm": 0.8224042057991028,
      "learning_rate": 0.000177923180608055,
      "loss": 3.7392,
      "step": 212510
    },
    {
      "epoch": 0.44275,
      "grad_norm": 0.8772582411766052,
      "learning_rate": 0.00017791349431622627,
      "loss": 3.755,
      "step": 212520
    },
    {
      "epoch": 0.44277083333333334,
      "grad_norm": 0.8299959897994995,
      "learning_rate": 0.00017790380790382227,
      "loss": 3.723,
      "step": 212530
    },
    {
      "epoch": 0.44279166666666664,
      "grad_norm": 0.837450385093689,
      "learning_rate": 0.00017789412137088491,
      "loss": 4.0332,
      "step": 212540
    },
    {
      "epoch": 0.4428125,
      "grad_norm": 0.7772297859191895,
      "learning_rate": 0.00017788443471745597,
      "loss": 3.8541,
      "step": 212550
    },
    {
      "epoch": 0.44283333333333336,
      "grad_norm": 0.8234270811080933,
      "learning_rate": 0.00017787474794357728,
      "loss": 3.8622,
      "step": 212560
    },
    {
      "epoch": 0.44285416666666666,
      "grad_norm": 0.8047751188278198,
      "learning_rate": 0.00017786506104929074,
      "loss": 3.7901,
      "step": 212570
    },
    {
      "epoch": 0.442875,
      "grad_norm": 0.7008612155914307,
      "learning_rate": 0.00017785537403463818,
      "loss": 3.6778,
      "step": 212580
    },
    {
      "epoch": 0.4428958333333333,
      "grad_norm": 0.930452823638916,
      "learning_rate": 0.00017784568689966143,
      "loss": 3.7415,
      "step": 212590
    },
    {
      "epoch": 0.4429166666666667,
      "grad_norm": 0.9135437607765198,
      "learning_rate": 0.00017783599964440227,
      "loss": 3.7766,
      "step": 212600
    },
    {
      "epoch": 0.4429375,
      "grad_norm": 0.8899117112159729,
      "learning_rate": 0.00017782631226890267,
      "loss": 3.7571,
      "step": 212610
    },
    {
      "epoch": 0.44295833333333334,
      "grad_norm": 0.8148990273475647,
      "learning_rate": 0.00017781662477320444,
      "loss": 3.7547,
      "step": 212620
    },
    {
      "epoch": 0.44297916666666665,
      "grad_norm": 0.8423427939414978,
      "learning_rate": 0.00017780693715734936,
      "loss": 3.6172,
      "step": 212630
    },
    {
      "epoch": 0.443,
      "grad_norm": 0.8480051755905151,
      "learning_rate": 0.0001777972494213793,
      "loss": 3.8063,
      "step": 212640
    },
    {
      "epoch": 0.4430208333333333,
      "grad_norm": 0.7726395726203918,
      "learning_rate": 0.00017778756156533617,
      "loss": 3.6192,
      "step": 212650
    },
    {
      "epoch": 0.44304166666666667,
      "grad_norm": 0.7311259508132935,
      "learning_rate": 0.00017777787358926172,
      "loss": 3.8087,
      "step": 212660
    },
    {
      "epoch": 0.4430625,
      "grad_norm": 0.7788465619087219,
      "learning_rate": 0.0001777681854931979,
      "loss": 3.7302,
      "step": 212670
    },
    {
      "epoch": 0.44308333333333333,
      "grad_norm": 0.7532663941383362,
      "learning_rate": 0.0001777584972771865,
      "loss": 3.8512,
      "step": 212680
    },
    {
      "epoch": 0.4431041666666667,
      "grad_norm": 0.8790428042411804,
      "learning_rate": 0.00017774880894126934,
      "loss": 3.8645,
      "step": 212690
    },
    {
      "epoch": 0.443125,
      "grad_norm": 0.7977872490882874,
      "learning_rate": 0.00017773912048548837,
      "loss": 3.7905,
      "step": 212700
    },
    {
      "epoch": 0.44314583333333335,
      "grad_norm": 0.7473382949829102,
      "learning_rate": 0.00017772943190988536,
      "loss": 3.8447,
      "step": 212710
    },
    {
      "epoch": 0.44316666666666665,
      "grad_norm": 0.7589622735977173,
      "learning_rate": 0.00017771974321450216,
      "loss": 4.0232,
      "step": 212720
    },
    {
      "epoch": 0.4431875,
      "grad_norm": 0.8485053181648254,
      "learning_rate": 0.00017771005439938062,
      "loss": 3.9809,
      "step": 212730
    },
    {
      "epoch": 0.4432083333333333,
      "grad_norm": 0.895158588886261,
      "learning_rate": 0.00017770036546456268,
      "loss": 3.7643,
      "step": 212740
    },
    {
      "epoch": 0.4432291666666667,
      "grad_norm": 1.0477451086044312,
      "learning_rate": 0.00017769067641009006,
      "loss": 3.7844,
      "step": 212750
    },
    {
      "epoch": 0.44325,
      "grad_norm": 0.7399527430534363,
      "learning_rate": 0.00017768098723600474,
      "loss": 3.8416,
      "step": 212760
    },
    {
      "epoch": 0.44327083333333334,
      "grad_norm": 0.7079674005508423,
      "learning_rate": 0.00017767129794234846,
      "loss": 3.6217,
      "step": 212770
    },
    {
      "epoch": 0.44329166666666664,
      "grad_norm": 0.9229689836502075,
      "learning_rate": 0.00017766160852916314,
      "loss": 3.7829,
      "step": 212780
    },
    {
      "epoch": 0.4433125,
      "grad_norm": 0.8335080146789551,
      "learning_rate": 0.0001776519189964907,
      "loss": 3.7349,
      "step": 212790
    },
    {
      "epoch": 0.44333333333333336,
      "grad_norm": 0.7991507649421692,
      "learning_rate": 0.00017764222934437278,
      "loss": 3.8785,
      "step": 212800
    },
    {
      "epoch": 0.44335416666666666,
      "grad_norm": 0.7021991014480591,
      "learning_rate": 0.00017763253957285143,
      "loss": 3.9073,
      "step": 212810
    },
    {
      "epoch": 0.443375,
      "grad_norm": 0.8302923440933228,
      "learning_rate": 0.00017762284968196848,
      "loss": 3.6937,
      "step": 212820
    },
    {
      "epoch": 0.4433958333333333,
      "grad_norm": 0.9184975624084473,
      "learning_rate": 0.00017761315967176574,
      "loss": 3.7816,
      "step": 212830
    },
    {
      "epoch": 0.4434166666666667,
      "grad_norm": 0.8563464879989624,
      "learning_rate": 0.00017760346954228504,
      "loss": 3.7067,
      "step": 212840
    },
    {
      "epoch": 0.4434375,
      "grad_norm": 0.7728320956230164,
      "learning_rate": 0.0001775937792935683,
      "loss": 3.7833,
      "step": 212850
    },
    {
      "epoch": 0.44345833333333334,
      "grad_norm": 0.7440637350082397,
      "learning_rate": 0.00017758408892565736,
      "loss": 3.9705,
      "step": 212860
    },
    {
      "epoch": 0.44347916666666665,
      "grad_norm": 0.879744827747345,
      "learning_rate": 0.00017757439843859408,
      "loss": 3.8375,
      "step": 212870
    },
    {
      "epoch": 0.4435,
      "grad_norm": 0.7936941385269165,
      "learning_rate": 0.00017756470783242032,
      "loss": 3.8282,
      "step": 212880
    },
    {
      "epoch": 0.4435208333333333,
      "grad_norm": 0.7885787487030029,
      "learning_rate": 0.00017755501710717793,
      "loss": 3.7582,
      "step": 212890
    },
    {
      "epoch": 0.44354166666666667,
      "grad_norm": 0.8258886337280273,
      "learning_rate": 0.00017754532626290873,
      "loss": 3.7065,
      "step": 212900
    },
    {
      "epoch": 0.4435625,
      "grad_norm": 1.0775156021118164,
      "learning_rate": 0.00017753563529965467,
      "loss": 3.7431,
      "step": 212910
    },
    {
      "epoch": 0.44358333333333333,
      "grad_norm": 0.8022864460945129,
      "learning_rate": 0.00017752594421745755,
      "loss": 3.7779,
      "step": 212920
    },
    {
      "epoch": 0.4436041666666667,
      "grad_norm": 0.7652286887168884,
      "learning_rate": 0.00017751625301635923,
      "loss": 3.7369,
      "step": 212930
    },
    {
      "epoch": 0.443625,
      "grad_norm": 0.8027490973472595,
      "learning_rate": 0.00017750656169640162,
      "loss": 3.5895,
      "step": 212940
    },
    {
      "epoch": 0.44364583333333335,
      "grad_norm": 0.7258865833282471,
      "learning_rate": 0.0001774968702576265,
      "loss": 3.7861,
      "step": 212950
    },
    {
      "epoch": 0.44366666666666665,
      "grad_norm": 0.8028922080993652,
      "learning_rate": 0.00017748717870007586,
      "loss": 3.8496,
      "step": 212960
    },
    {
      "epoch": 0.4436875,
      "grad_norm": 0.7533273696899414,
      "learning_rate": 0.00017747748702379143,
      "loss": 3.7823,
      "step": 212970
    },
    {
      "epoch": 0.4437083333333333,
      "grad_norm": 0.7537243366241455,
      "learning_rate": 0.0001774677952288152,
      "loss": 3.7143,
      "step": 212980
    },
    {
      "epoch": 0.4437291666666667,
      "grad_norm": 0.9096549153327942,
      "learning_rate": 0.00017745810331518892,
      "loss": 3.9045,
      "step": 212990
    },
    {
      "epoch": 0.44375,
      "grad_norm": 0.81485515832901,
      "learning_rate": 0.00017744841128295444,
      "loss": 3.6782,
      "step": 213000
    },
    {
      "epoch": 0.44375,
      "eval_loss": 4.154639720916748,
      "eval_runtime": 9.6859,
      "eval_samples_per_second": 1.032,
      "eval_steps_per_second": 0.31,
      "step": 213000
    },
    {
      "epoch": 0.44377083333333334,
      "grad_norm": 0.739080548286438,
      "learning_rate": 0.00017743871913215381,
      "loss": 3.6915,
      "step": 213010
    },
    {
      "epoch": 0.44379166666666664,
      "grad_norm": 0.7856892347335815,
      "learning_rate": 0.00017742902686282872,
      "loss": 3.9793,
      "step": 213020
    },
    {
      "epoch": 0.4438125,
      "grad_norm": 0.8181655406951904,
      "learning_rate": 0.00017741933447502106,
      "loss": 3.7343,
      "step": 213030
    },
    {
      "epoch": 0.44383333333333336,
      "grad_norm": 0.9712103605270386,
      "learning_rate": 0.00017740964196877277,
      "loss": 3.7578,
      "step": 213040
    },
    {
      "epoch": 0.44385416666666666,
      "grad_norm": 0.9334967732429504,
      "learning_rate": 0.00017739994934412562,
      "loss": 3.4665,
      "step": 213050
    },
    {
      "epoch": 0.443875,
      "grad_norm": 0.7464433312416077,
      "learning_rate": 0.00017739025660112157,
      "loss": 3.827,
      "step": 213060
    },
    {
      "epoch": 0.4438958333333333,
      "grad_norm": 0.7570880055427551,
      "learning_rate": 0.00017738056373980246,
      "loss": 3.6562,
      "step": 213070
    },
    {
      "epoch": 0.4439166666666667,
      "grad_norm": 0.7591307163238525,
      "learning_rate": 0.00017737087076021018,
      "loss": 3.8642,
      "step": 213080
    },
    {
      "epoch": 0.4439375,
      "grad_norm": 0.7253750562667847,
      "learning_rate": 0.00017736117766238655,
      "loss": 3.8652,
      "step": 213090
    },
    {
      "epoch": 0.44395833333333334,
      "grad_norm": 0.8147680759429932,
      "learning_rate": 0.00017735148444637341,
      "loss": 3.674,
      "step": 213100
    },
    {
      "epoch": 0.44397916666666665,
      "grad_norm": 0.8776649236679077,
      "learning_rate": 0.00017734179111221276,
      "loss": 3.6828,
      "step": 213110
    },
    {
      "epoch": 0.444,
      "grad_norm": 0.8217876553535461,
      "learning_rate": 0.0001773320976599464,
      "loss": 3.6282,
      "step": 213120
    },
    {
      "epoch": 0.4440208333333333,
      "grad_norm": 0.6699659824371338,
      "learning_rate": 0.00017732240408961615,
      "loss": 3.7487,
      "step": 213130
    },
    {
      "epoch": 0.44404166666666667,
      "grad_norm": 0.8363955020904541,
      "learning_rate": 0.0001773127104012639,
      "loss": 3.6593,
      "step": 213140
    },
    {
      "epoch": 0.4440625,
      "grad_norm": 0.7808507680892944,
      "learning_rate": 0.0001773030165949316,
      "loss": 3.9884,
      "step": 213150
    },
    {
      "epoch": 0.44408333333333333,
      "grad_norm": 0.8082558512687683,
      "learning_rate": 0.00017729332267066113,
      "loss": 3.9405,
      "step": 213160
    },
    {
      "epoch": 0.4441041666666667,
      "grad_norm": 0.9318697452545166,
      "learning_rate": 0.00017728362862849418,
      "loss": 3.9366,
      "step": 213170
    },
    {
      "epoch": 0.444125,
      "grad_norm": 0.9069943428039551,
      "learning_rate": 0.00017727393446847288,
      "loss": 3.7122,
      "step": 213180
    },
    {
      "epoch": 0.44414583333333335,
      "grad_norm": 0.8115567564964294,
      "learning_rate": 0.0001772642401906389,
      "loss": 3.7927,
      "step": 213190
    },
    {
      "epoch": 0.44416666666666665,
      "grad_norm": 0.7877859473228455,
      "learning_rate": 0.0001772545457950342,
      "loss": 3.7596,
      "step": 213200
    },
    {
      "epoch": 0.4441875,
      "grad_norm": 0.8085097074508667,
      "learning_rate": 0.00017724485128170066,
      "loss": 3.8824,
      "step": 213210
    },
    {
      "epoch": 0.4442083333333333,
      "grad_norm": 1.0215250253677368,
      "learning_rate": 0.00017723515665068017,
      "loss": 3.7143,
      "step": 213220
    },
    {
      "epoch": 0.4442291666666667,
      "grad_norm": 0.7590799331665039,
      "learning_rate": 0.00017722546190201456,
      "loss": 3.7441,
      "step": 213230
    },
    {
      "epoch": 0.44425,
      "grad_norm": 1.2060296535491943,
      "learning_rate": 0.00017721576703574573,
      "loss": 3.8998,
      "step": 213240
    },
    {
      "epoch": 0.44427083333333334,
      "grad_norm": 0.7964367866516113,
      "learning_rate": 0.00017720607205191555,
      "loss": 3.625,
      "step": 213250
    },
    {
      "epoch": 0.44429166666666664,
      "grad_norm": 0.8894115090370178,
      "learning_rate": 0.000177196376950566,
      "loss": 3.9325,
      "step": 213260
    },
    {
      "epoch": 0.4443125,
      "grad_norm": 0.8056159615516663,
      "learning_rate": 0.0001771866817317387,
      "loss": 3.7356,
      "step": 213270
    },
    {
      "epoch": 0.44433333333333336,
      "grad_norm": 0.8397482633590698,
      "learning_rate": 0.00017717698639547582,
      "loss": 3.7411,
      "step": 213280
    },
    {
      "epoch": 0.44435416666666666,
      "grad_norm": 0.7424691915512085,
      "learning_rate": 0.0001771672909418191,
      "loss": 3.648,
      "step": 213290
    },
    {
      "epoch": 0.444375,
      "grad_norm": 0.8670456409454346,
      "learning_rate": 0.0001771575953708104,
      "loss": 3.8086,
      "step": 213300
    },
    {
      "epoch": 0.4443958333333333,
      "grad_norm": 0.7747915983200073,
      "learning_rate": 0.00017714789968249165,
      "loss": 3.9185,
      "step": 213310
    },
    {
      "epoch": 0.4444166666666667,
      "grad_norm": 0.7092797160148621,
      "learning_rate": 0.00017713820387690478,
      "loss": 3.771,
      "step": 213320
    },
    {
      "epoch": 0.4444375,
      "grad_norm": 0.8652082085609436,
      "learning_rate": 0.00017712850795409152,
      "loss": 3.7226,
      "step": 213330
    },
    {
      "epoch": 0.44445833333333334,
      "grad_norm": 0.7716449499130249,
      "learning_rate": 0.00017711881191409388,
      "loss": 3.8701,
      "step": 213340
    },
    {
      "epoch": 0.44447916666666665,
      "grad_norm": 0.7934971451759338,
      "learning_rate": 0.00017710911575695372,
      "loss": 3.7712,
      "step": 213350
    },
    {
      "epoch": 0.4445,
      "grad_norm": 0.7466546297073364,
      "learning_rate": 0.0001770994194827129,
      "loss": 3.9078,
      "step": 213360
    },
    {
      "epoch": 0.4445208333333333,
      "grad_norm": 0.7687228322029114,
      "learning_rate": 0.00017708972309141328,
      "loss": 3.7124,
      "step": 213370
    },
    {
      "epoch": 0.44454166666666667,
      "grad_norm": 0.7348003387451172,
      "learning_rate": 0.00017708002658309687,
      "loss": 3.757,
      "step": 213380
    },
    {
      "epoch": 0.4445625,
      "grad_norm": 0.9961374402046204,
      "learning_rate": 0.0001770703299578054,
      "loss": 3.7825,
      "step": 213390
    },
    {
      "epoch": 0.44458333333333333,
      "grad_norm": 0.8854426741600037,
      "learning_rate": 0.00017706063321558082,
      "loss": 3.8525,
      "step": 213400
    },
    {
      "epoch": 0.4446041666666667,
      "grad_norm": 0.8673180937767029,
      "learning_rate": 0.000177050936356465,
      "loss": 3.8651,
      "step": 213410
    },
    {
      "epoch": 0.444625,
      "grad_norm": 0.6599836349487305,
      "learning_rate": 0.00017704123938049987,
      "loss": 3.8997,
      "step": 213420
    },
    {
      "epoch": 0.44464583333333335,
      "grad_norm": 1.0286238193511963,
      "learning_rate": 0.00017703154228772728,
      "loss": 3.6796,
      "step": 213430
    },
    {
      "epoch": 0.44466666666666665,
      "grad_norm": 0.7521723508834839,
      "learning_rate": 0.00017702184507818915,
      "loss": 3.8314,
      "step": 213440
    },
    {
      "epoch": 0.4446875,
      "grad_norm": 0.6966525316238403,
      "learning_rate": 0.0001770121477519273,
      "loss": 3.5803,
      "step": 213450
    },
    {
      "epoch": 0.4447083333333333,
      "grad_norm": 0.8025906085968018,
      "learning_rate": 0.00017700245030898373,
      "loss": 3.8389,
      "step": 213460
    },
    {
      "epoch": 0.4447291666666667,
      "grad_norm": 0.6883004903793335,
      "learning_rate": 0.0001769927527494002,
      "loss": 3.708,
      "step": 213470
    },
    {
      "epoch": 0.44475,
      "grad_norm": 0.6851367354393005,
      "learning_rate": 0.0001769830550732187,
      "loss": 3.8116,
      "step": 213480
    },
    {
      "epoch": 0.44477083333333334,
      "grad_norm": 0.745442271232605,
      "learning_rate": 0.00017697335728048105,
      "loss": 3.673,
      "step": 213490
    },
    {
      "epoch": 0.44479166666666664,
      "grad_norm": 0.7911413311958313,
      "learning_rate": 0.00017696365937122917,
      "loss": 3.6754,
      "step": 213500
    },
    {
      "epoch": 0.4448125,
      "grad_norm": 0.7929508090019226,
      "learning_rate": 0.00017695396134550498,
      "loss": 3.8757,
      "step": 213510
    },
    {
      "epoch": 0.44483333333333336,
      "grad_norm": 0.779678463935852,
      "learning_rate": 0.0001769442632033504,
      "loss": 3.5578,
      "step": 213520
    },
    {
      "epoch": 0.44485416666666666,
      "grad_norm": 0.8368452787399292,
      "learning_rate": 0.00017693456494480717,
      "loss": 3.9428,
      "step": 213530
    },
    {
      "epoch": 0.444875,
      "grad_norm": 0.7393520474433899,
      "learning_rate": 0.0001769248665699173,
      "loss": 3.7483,
      "step": 213540
    },
    {
      "epoch": 0.4448958333333333,
      "grad_norm": 1.0898358821868896,
      "learning_rate": 0.00017691516807872272,
      "loss": 3.7186,
      "step": 213550
    },
    {
      "epoch": 0.4449166666666667,
      "grad_norm": 0.7913667559623718,
      "learning_rate": 0.00017690546947126524,
      "loss": 3.7179,
      "step": 213560
    },
    {
      "epoch": 0.4449375,
      "grad_norm": 0.8677204251289368,
      "learning_rate": 0.00017689577074758679,
      "loss": 3.7414,
      "step": 213570
    },
    {
      "epoch": 0.44495833333333334,
      "grad_norm": 0.8356863856315613,
      "learning_rate": 0.00017688607190772924,
      "loss": 3.5397,
      "step": 213580
    },
    {
      "epoch": 0.44497916666666665,
      "grad_norm": 0.8272428512573242,
      "learning_rate": 0.00017687637295173448,
      "loss": 3.9051,
      "step": 213590
    },
    {
      "epoch": 0.445,
      "grad_norm": 0.912655234336853,
      "learning_rate": 0.00017686667387964444,
      "loss": 3.8023,
      "step": 213600
    },
    {
      "epoch": 0.4450208333333333,
      "grad_norm": 0.8235670328140259,
      "learning_rate": 0.00017685697469150104,
      "loss": 3.8151,
      "step": 213610
    },
    {
      "epoch": 0.44504166666666667,
      "grad_norm": 0.7781650424003601,
      "learning_rate": 0.0001768472753873461,
      "loss": 3.8137,
      "step": 213620
    },
    {
      "epoch": 0.4450625,
      "grad_norm": 0.8373658061027527,
      "learning_rate": 0.0001768375759672216,
      "loss": 3.799,
      "step": 213630
    },
    {
      "epoch": 0.44508333333333333,
      "grad_norm": 0.9785881042480469,
      "learning_rate": 0.00017682787643116934,
      "loss": 3.8008,
      "step": 213640
    },
    {
      "epoch": 0.4451041666666667,
      "grad_norm": 0.8967382907867432,
      "learning_rate": 0.0001768181767792313,
      "loss": 3.7612,
      "step": 213650
    },
    {
      "epoch": 0.445125,
      "grad_norm": 0.769804835319519,
      "learning_rate": 0.00017680847701144936,
      "loss": 4.0018,
      "step": 213660
    },
    {
      "epoch": 0.44514583333333335,
      "grad_norm": 0.944730281829834,
      "learning_rate": 0.00017679877712786538,
      "loss": 3.8407,
      "step": 213670
    },
    {
      "epoch": 0.44516666666666665,
      "grad_norm": 1.1008672714233398,
      "learning_rate": 0.00017678907712852132,
      "loss": 3.7848,
      "step": 213680
    },
    {
      "epoch": 0.4451875,
      "grad_norm": 0.7689015865325928,
      "learning_rate": 0.0001767793770134591,
      "loss": 3.9082,
      "step": 213690
    },
    {
      "epoch": 0.4452083333333333,
      "grad_norm": 0.7483569979667664,
      "learning_rate": 0.00017676967678272048,
      "loss": 3.8413,
      "step": 213700
    },
    {
      "epoch": 0.4452291666666667,
      "grad_norm": 0.8540282845497131,
      "learning_rate": 0.00017675997643634746,
      "loss": 3.7557,
      "step": 213710
    },
    {
      "epoch": 0.44525,
      "grad_norm": 0.7750794291496277,
      "learning_rate": 0.00017675027597438198,
      "loss": 3.9305,
      "step": 213720
    },
    {
      "epoch": 0.44527083333333334,
      "grad_norm": 0.8106008172035217,
      "learning_rate": 0.0001767405753968659,
      "loss": 3.8462,
      "step": 213730
    },
    {
      "epoch": 0.44529166666666664,
      "grad_norm": 0.7009249925613403,
      "learning_rate": 0.00017673087470384107,
      "loss": 3.6982,
      "step": 213740
    },
    {
      "epoch": 0.4453125,
      "grad_norm": 0.8325538039207458,
      "learning_rate": 0.00017672117389534947,
      "loss": 3.6927,
      "step": 213750
    },
    {
      "epoch": 0.44533333333333336,
      "grad_norm": 0.7151668071746826,
      "learning_rate": 0.00017671147297143296,
      "loss": 3.9579,
      "step": 213760
    },
    {
      "epoch": 0.44535416666666666,
      "grad_norm": 0.968100905418396,
      "learning_rate": 0.0001767017719321335,
      "loss": 3.8383,
      "step": 213770
    },
    {
      "epoch": 0.445375,
      "grad_norm": 0.8982349038124084,
      "learning_rate": 0.0001766920707774929,
      "loss": 3.7261,
      "step": 213780
    },
    {
      "epoch": 0.4453958333333333,
      "grad_norm": 0.7369963526725769,
      "learning_rate": 0.00017668236950755314,
      "loss": 3.6348,
      "step": 213790
    },
    {
      "epoch": 0.4454166666666667,
      "grad_norm": 0.8299223184585571,
      "learning_rate": 0.00017667266812235614,
      "loss": 4.0263,
      "step": 213800
    },
    {
      "epoch": 0.4454375,
      "grad_norm": 0.865476667881012,
      "learning_rate": 0.00017666296662194374,
      "loss": 3.7265,
      "step": 213810
    },
    {
      "epoch": 0.44545833333333335,
      "grad_norm": 0.8694138526916504,
      "learning_rate": 0.0001766532650063579,
      "loss": 3.8721,
      "step": 213820
    },
    {
      "epoch": 0.44547916666666665,
      "grad_norm": 0.732003927230835,
      "learning_rate": 0.0001766435632756405,
      "loss": 3.644,
      "step": 213830
    },
    {
      "epoch": 0.4455,
      "grad_norm": 1.1233018636703491,
      "learning_rate": 0.0001766338614298334,
      "loss": 3.7813,
      "step": 213840
    },
    {
      "epoch": 0.4455208333333333,
      "grad_norm": 0.8639100193977356,
      "learning_rate": 0.00017662415946897864,
      "loss": 3.852,
      "step": 213850
    },
    {
      "epoch": 0.44554166666666667,
      "grad_norm": 0.8594472408294678,
      "learning_rate": 0.000176614457393118,
      "loss": 3.7085,
      "step": 213860
    },
    {
      "epoch": 0.4455625,
      "grad_norm": 0.717110812664032,
      "learning_rate": 0.0001766047552022934,
      "loss": 3.785,
      "step": 213870
    },
    {
      "epoch": 0.44558333333333333,
      "grad_norm": 0.8506201505661011,
      "learning_rate": 0.00017659505289654688,
      "loss": 3.7451,
      "step": 213880
    },
    {
      "epoch": 0.4456041666666667,
      "grad_norm": 0.799103319644928,
      "learning_rate": 0.00017658535047592025,
      "loss": 3.7809,
      "step": 213890
    },
    {
      "epoch": 0.445625,
      "grad_norm": 0.7818989157676697,
      "learning_rate": 0.00017657564794045538,
      "loss": 3.8166,
      "step": 213900
    },
    {
      "epoch": 0.44564583333333335,
      "grad_norm": 0.872761070728302,
      "learning_rate": 0.00017656594529019424,
      "loss": 3.8066,
      "step": 213910
    },
    {
      "epoch": 0.44566666666666666,
      "grad_norm": 0.814357578754425,
      "learning_rate": 0.00017655624252517873,
      "loss": 3.6931,
      "step": 213920
    },
    {
      "epoch": 0.4456875,
      "grad_norm": 0.7624467611312866,
      "learning_rate": 0.0001765465396454508,
      "loss": 3.7005,
      "step": 213930
    },
    {
      "epoch": 0.4457083333333333,
      "grad_norm": 0.954084575176239,
      "learning_rate": 0.00017653683665105226,
      "loss": 3.6728,
      "step": 213940
    },
    {
      "epoch": 0.4457291666666667,
      "grad_norm": 0.9292888045310974,
      "learning_rate": 0.00017652713354202515,
      "loss": 3.7712,
      "step": 213950
    },
    {
      "epoch": 0.44575,
      "grad_norm": 0.9821249842643738,
      "learning_rate": 0.0001765174303184113,
      "loss": 3.9097,
      "step": 213960
    },
    {
      "epoch": 0.44577083333333334,
      "grad_norm": 0.8444068431854248,
      "learning_rate": 0.00017650772698025264,
      "loss": 3.702,
      "step": 213970
    },
    {
      "epoch": 0.44579166666666664,
      "grad_norm": 0.8181887865066528,
      "learning_rate": 0.00017649802352759112,
      "loss": 3.8574,
      "step": 213980
    },
    {
      "epoch": 0.4458125,
      "grad_norm": 0.8363041877746582,
      "learning_rate": 0.0001764883199604686,
      "loss": 3.8991,
      "step": 213990
    },
    {
      "epoch": 0.44583333333333336,
      "grad_norm": 0.8255643844604492,
      "learning_rate": 0.00017647861627892702,
      "loss": 3.8097,
      "step": 214000
    },
    {
      "epoch": 0.44583333333333336,
      "eval_loss": 4.1580095291137695,
      "eval_runtime": 9.2182,
      "eval_samples_per_second": 1.085,
      "eval_steps_per_second": 0.325,
      "step": 214000
    },
    {
      "epoch": 0.44585416666666666,
      "grad_norm": 0.8010110855102539,
      "learning_rate": 0.0001764689124830083,
      "loss": 3.7712,
      "step": 214010
    },
    {
      "epoch": 0.445875,
      "grad_norm": 0.7918362617492676,
      "learning_rate": 0.0001764592085727544,
      "loss": 3.8192,
      "step": 214020
    },
    {
      "epoch": 0.4458958333333333,
      "grad_norm": 0.7001497745513916,
      "learning_rate": 0.0001764495045482072,
      "loss": 3.8575,
      "step": 214030
    },
    {
      "epoch": 0.4459166666666667,
      "grad_norm": 0.7755666375160217,
      "learning_rate": 0.00017643980040940848,
      "loss": 3.8123,
      "step": 214040
    },
    {
      "epoch": 0.4459375,
      "grad_norm": 0.9082217216491699,
      "learning_rate": 0.0001764300961564004,
      "loss": 3.6774,
      "step": 214050
    },
    {
      "epoch": 0.44595833333333335,
      "grad_norm": 0.9027419686317444,
      "learning_rate": 0.00017642039178922476,
      "loss": 3.9336,
      "step": 214060
    },
    {
      "epoch": 0.44597916666666665,
      "grad_norm": 0.8057785034179688,
      "learning_rate": 0.00017641068730792344,
      "loss": 3.8631,
      "step": 214070
    },
    {
      "epoch": 0.446,
      "grad_norm": 0.9600836038589478,
      "learning_rate": 0.00017640098271253847,
      "loss": 3.6436,
      "step": 214080
    },
    {
      "epoch": 0.4460208333333333,
      "grad_norm": 0.7495188117027283,
      "learning_rate": 0.00017639127800311166,
      "loss": 3.7976,
      "step": 214090
    },
    {
      "epoch": 0.44604166666666667,
      "grad_norm": 0.7718276977539062,
      "learning_rate": 0.00017638157317968495,
      "loss": 3.6735,
      "step": 214100
    },
    {
      "epoch": 0.4460625,
      "grad_norm": 0.8330195546150208,
      "learning_rate": 0.00017637186824230033,
      "loss": 3.7157,
      "step": 214110
    },
    {
      "epoch": 0.44608333333333333,
      "grad_norm": 0.8479641079902649,
      "learning_rate": 0.00017636216319099967,
      "loss": 3.7775,
      "step": 214120
    },
    {
      "epoch": 0.4461041666666667,
      "grad_norm": 0.8485685586929321,
      "learning_rate": 0.0001763524580258249,
      "loss": 3.8395,
      "step": 214130
    },
    {
      "epoch": 0.446125,
      "grad_norm": 0.6909132599830627,
      "learning_rate": 0.00017634275274681794,
      "loss": 3.7385,
      "step": 214140
    },
    {
      "epoch": 0.44614583333333335,
      "grad_norm": 0.78793865442276,
      "learning_rate": 0.0001763330473540207,
      "loss": 3.6868,
      "step": 214150
    },
    {
      "epoch": 0.44616666666666666,
      "grad_norm": 0.8029932975769043,
      "learning_rate": 0.00017632334184747517,
      "loss": 3.8711,
      "step": 214160
    },
    {
      "epoch": 0.4461875,
      "grad_norm": 0.7528717517852783,
      "learning_rate": 0.00017631363622722313,
      "loss": 3.8087,
      "step": 214170
    },
    {
      "epoch": 0.4462083333333333,
      "grad_norm": 0.7855353951454163,
      "learning_rate": 0.00017630393049330667,
      "loss": 3.8945,
      "step": 214180
    },
    {
      "epoch": 0.4462291666666667,
      "grad_norm": 0.8706746101379395,
      "learning_rate": 0.00017629422464576766,
      "loss": 3.7863,
      "step": 214190
    },
    {
      "epoch": 0.44625,
      "grad_norm": 0.7104641795158386,
      "learning_rate": 0.000176284518684648,
      "loss": 3.8315,
      "step": 214200
    },
    {
      "epoch": 0.44627083333333334,
      "grad_norm": 0.9554730653762817,
      "learning_rate": 0.00017627481260998955,
      "loss": 3.8499,
      "step": 214210
    },
    {
      "epoch": 0.44629166666666664,
      "grad_norm": 0.7681565880775452,
      "learning_rate": 0.00017626510642183436,
      "loss": 3.8295,
      "step": 214220
    },
    {
      "epoch": 0.4463125,
      "grad_norm": 0.8620387315750122,
      "learning_rate": 0.0001762554001202243,
      "loss": 3.6268,
      "step": 214230
    },
    {
      "epoch": 0.44633333333333336,
      "grad_norm": 0.8427082896232605,
      "learning_rate": 0.00017624569370520128,
      "loss": 3.6881,
      "step": 214240
    },
    {
      "epoch": 0.44635416666666666,
      "grad_norm": 0.9575964212417603,
      "learning_rate": 0.00017623598717680732,
      "loss": 3.711,
      "step": 214250
    },
    {
      "epoch": 0.446375,
      "grad_norm": 0.8452014923095703,
      "learning_rate": 0.00017622628053508423,
      "loss": 3.8493,
      "step": 214260
    },
    {
      "epoch": 0.4463958333333333,
      "grad_norm": 1.1715470552444458,
      "learning_rate": 0.000176216573780074,
      "loss": 3.8365,
      "step": 214270
    },
    {
      "epoch": 0.4464166666666667,
      "grad_norm": 0.7649202942848206,
      "learning_rate": 0.00017620686691181852,
      "loss": 3.7124,
      "step": 214280
    },
    {
      "epoch": 0.4464375,
      "grad_norm": 0.8967770338058472,
      "learning_rate": 0.0001761971599303598,
      "loss": 3.7957,
      "step": 214290
    },
    {
      "epoch": 0.44645833333333335,
      "grad_norm": 0.7683911323547363,
      "learning_rate": 0.00017618745283573968,
      "loss": 3.8035,
      "step": 214300
    },
    {
      "epoch": 0.44647916666666665,
      "grad_norm": 1.0750616788864136,
      "learning_rate": 0.00017617774562800014,
      "loss": 3.6453,
      "step": 214310
    },
    {
      "epoch": 0.4465,
      "grad_norm": 0.8130404949188232,
      "learning_rate": 0.00017616803830718312,
      "loss": 3.8659,
      "step": 214320
    },
    {
      "epoch": 0.4465208333333333,
      "grad_norm": 0.7337655425071716,
      "learning_rate": 0.00017615833087333057,
      "loss": 3.7009,
      "step": 214330
    },
    {
      "epoch": 0.44654166666666667,
      "grad_norm": 0.7917225360870361,
      "learning_rate": 0.00017614862332648425,
      "loss": 3.6498,
      "step": 214340
    },
    {
      "epoch": 0.4465625,
      "grad_norm": 0.9824923276901245,
      "learning_rate": 0.00017613891566668633,
      "loss": 3.7539,
      "step": 214350
    },
    {
      "epoch": 0.44658333333333333,
      "grad_norm": 0.7389124631881714,
      "learning_rate": 0.00017612920789397866,
      "loss": 3.8938,
      "step": 214360
    },
    {
      "epoch": 0.4466041666666667,
      "grad_norm": 0.798223078250885,
      "learning_rate": 0.00017611950000840303,
      "loss": 3.71,
      "step": 214370
    },
    {
      "epoch": 0.446625,
      "grad_norm": 0.8466336727142334,
      "learning_rate": 0.0001761097920100016,
      "loss": 3.7808,
      "step": 214380
    },
    {
      "epoch": 0.44664583333333335,
      "grad_norm": 0.7181200981140137,
      "learning_rate": 0.00017610008389881622,
      "loss": 4.0441,
      "step": 214390
    },
    {
      "epoch": 0.44666666666666666,
      "grad_norm": 0.8873786926269531,
      "learning_rate": 0.00017609037567488877,
      "loss": 3.6901,
      "step": 214400
    },
    {
      "epoch": 0.4466875,
      "grad_norm": 0.8188546895980835,
      "learning_rate": 0.00017608066733826124,
      "loss": 3.8884,
      "step": 214410
    },
    {
      "epoch": 0.4467083333333333,
      "grad_norm": 0.73487788438797,
      "learning_rate": 0.00017607095888897553,
      "loss": 3.7473,
      "step": 214420
    },
    {
      "epoch": 0.4467291666666667,
      "grad_norm": 0.9867056608200073,
      "learning_rate": 0.0001760612503270736,
      "loss": 3.9922,
      "step": 214430
    },
    {
      "epoch": 0.44675,
      "grad_norm": 0.7497615218162537,
      "learning_rate": 0.0001760515416525974,
      "loss": 3.9021,
      "step": 214440
    },
    {
      "epoch": 0.44677083333333334,
      "grad_norm": 0.7356224656105042,
      "learning_rate": 0.00017604183286558885,
      "loss": 3.616,
      "step": 214450
    },
    {
      "epoch": 0.44679166666666664,
      "grad_norm": 0.7594048380851746,
      "learning_rate": 0.0001760321239660899,
      "loss": 3.914,
      "step": 214460
    },
    {
      "epoch": 0.4468125,
      "grad_norm": 0.9826551675796509,
      "learning_rate": 0.00017602241495414243,
      "loss": 3.8734,
      "step": 214470
    },
    {
      "epoch": 0.44683333333333336,
      "grad_norm": 0.9730439782142639,
      "learning_rate": 0.0001760127058297885,
      "loss": 3.6658,
      "step": 214480
    },
    {
      "epoch": 0.44685416666666666,
      "grad_norm": 0.7166223526000977,
      "learning_rate": 0.0001760029965930699,
      "loss": 3.7667,
      "step": 214490
    },
    {
      "epoch": 0.446875,
      "grad_norm": 0.7896225452423096,
      "learning_rate": 0.00017599328724402871,
      "loss": 4.0105,
      "step": 214500
    },
    {
      "epoch": 0.4468958333333333,
      "grad_norm": 0.7995703220367432,
      "learning_rate": 0.00017598357778270674,
      "loss": 3.8394,
      "step": 214510
    },
    {
      "epoch": 0.4469166666666667,
      "grad_norm": 0.8195056915283203,
      "learning_rate": 0.00017597386820914605,
      "loss": 3.8788,
      "step": 214520
    },
    {
      "epoch": 0.4469375,
      "grad_norm": 0.8750748634338379,
      "learning_rate": 0.00017596415852338856,
      "loss": 3.7218,
      "step": 214530
    },
    {
      "epoch": 0.44695833333333335,
      "grad_norm": 0.8186057806015015,
      "learning_rate": 0.00017595444872547613,
      "loss": 3.5963,
      "step": 214540
    },
    {
      "epoch": 0.44697916666666665,
      "grad_norm": 0.7060443162918091,
      "learning_rate": 0.00017594473881545075,
      "loss": 3.7598,
      "step": 214550
    },
    {
      "epoch": 0.447,
      "grad_norm": 0.6645843982696533,
      "learning_rate": 0.00017593502879335442,
      "loss": 3.6422,
      "step": 214560
    },
    {
      "epoch": 0.4470208333333333,
      "grad_norm": 1.0080379247665405,
      "learning_rate": 0.00017592531865922898,
      "loss": 3.6265,
      "step": 214570
    },
    {
      "epoch": 0.44704166666666667,
      "grad_norm": 0.8886909484863281,
      "learning_rate": 0.00017591560841311642,
      "loss": 3.8571,
      "step": 214580
    },
    {
      "epoch": 0.4470625,
      "grad_norm": 0.7752467393875122,
      "learning_rate": 0.00017590589805505875,
      "loss": 3.8938,
      "step": 214590
    },
    {
      "epoch": 0.44708333333333333,
      "grad_norm": 0.8520585298538208,
      "learning_rate": 0.00017589618758509783,
      "loss": 3.7016,
      "step": 214600
    },
    {
      "epoch": 0.4471041666666667,
      "grad_norm": 0.8697054386138916,
      "learning_rate": 0.00017588647700327563,
      "loss": 4.0156,
      "step": 214610
    },
    {
      "epoch": 0.447125,
      "grad_norm": 0.7935067415237427,
      "learning_rate": 0.00017587676630963404,
      "loss": 3.7902,
      "step": 214620
    },
    {
      "epoch": 0.44714583333333335,
      "grad_norm": 0.7041186690330505,
      "learning_rate": 0.00017586705550421514,
      "loss": 3.8352,
      "step": 214630
    },
    {
      "epoch": 0.44716666666666666,
      "grad_norm": 0.7932531833648682,
      "learning_rate": 0.00017585734458706073,
      "loss": 3.6849,
      "step": 214640
    },
    {
      "epoch": 0.4471875,
      "grad_norm": 1.0002894401550293,
      "learning_rate": 0.00017584763355821286,
      "loss": 3.7204,
      "step": 214650
    },
    {
      "epoch": 0.4472083333333333,
      "grad_norm": 1.063299298286438,
      "learning_rate": 0.00017583792241771345,
      "loss": 3.6395,
      "step": 214660
    },
    {
      "epoch": 0.4472291666666667,
      "grad_norm": 1.0004831552505493,
      "learning_rate": 0.00017582821116560445,
      "loss": 3.8816,
      "step": 214670
    },
    {
      "epoch": 0.44725,
      "grad_norm": 0.870795726776123,
      "learning_rate": 0.0001758184998019278,
      "loss": 3.8097,
      "step": 214680
    },
    {
      "epoch": 0.44727083333333334,
      "grad_norm": 0.9137346744537354,
      "learning_rate": 0.0001758087883267254,
      "loss": 3.6959,
      "step": 214690
    },
    {
      "epoch": 0.44729166666666664,
      "grad_norm": 0.7298315763473511,
      "learning_rate": 0.00017579907674003935,
      "loss": 3.7373,
      "step": 214700
    },
    {
      "epoch": 0.4473125,
      "grad_norm": 0.8754300475120544,
      "learning_rate": 0.0001757893650419114,
      "loss": 3.7581,
      "step": 214710
    },
    {
      "epoch": 0.44733333333333336,
      "grad_norm": 0.7854869961738586,
      "learning_rate": 0.00017577965323238364,
      "loss": 3.7876,
      "step": 214720
    },
    {
      "epoch": 0.44735416666666666,
      "grad_norm": 0.8215636610984802,
      "learning_rate": 0.00017576994131149803,
      "loss": 3.7476,
      "step": 214730
    },
    {
      "epoch": 0.447375,
      "grad_norm": 0.7893928289413452,
      "learning_rate": 0.0001757602292792964,
      "loss": 3.8958,
      "step": 214740
    },
    {
      "epoch": 0.4473958333333333,
      "grad_norm": 0.773267388343811,
      "learning_rate": 0.00017575051713582084,
      "loss": 3.8059,
      "step": 214750
    },
    {
      "epoch": 0.4474166666666667,
      "grad_norm": 0.8675936460494995,
      "learning_rate": 0.0001757408048811132,
      "loss": 3.7053,
      "step": 214760
    },
    {
      "epoch": 0.4474375,
      "grad_norm": 0.8037567138671875,
      "learning_rate": 0.00017573109251521547,
      "loss": 3.9607,
      "step": 214770
    },
    {
      "epoch": 0.44745833333333335,
      "grad_norm": 0.7914549112319946,
      "learning_rate": 0.00017572138003816963,
      "loss": 3.8113,
      "step": 214780
    },
    {
      "epoch": 0.44747916666666665,
      "grad_norm": 0.7812988758087158,
      "learning_rate": 0.0001757116674500176,
      "loss": 4.0012,
      "step": 214790
    },
    {
      "epoch": 0.4475,
      "grad_norm": 0.8573732972145081,
      "learning_rate": 0.00017570195475080132,
      "loss": 3.8874,
      "step": 214800
    },
    {
      "epoch": 0.4475208333333333,
      "grad_norm": 0.7257622480392456,
      "learning_rate": 0.00017569224194056274,
      "loss": 4.0531,
      "step": 214810
    },
    {
      "epoch": 0.44754166666666667,
      "grad_norm": 1.0605189800262451,
      "learning_rate": 0.0001756825290193439,
      "loss": 3.7496,
      "step": 214820
    },
    {
      "epoch": 0.4475625,
      "grad_norm": 0.8284671902656555,
      "learning_rate": 0.00017567281598718668,
      "loss": 3.6739,
      "step": 214830
    },
    {
      "epoch": 0.44758333333333333,
      "grad_norm": 0.8550987839698792,
      "learning_rate": 0.0001756631028441331,
      "loss": 3.8344,
      "step": 214840
    },
    {
      "epoch": 0.4476041666666667,
      "grad_norm": 0.7809669971466064,
      "learning_rate": 0.00017565338959022502,
      "loss": 3.8591,
      "step": 214850
    },
    {
      "epoch": 0.447625,
      "grad_norm": 0.7107248306274414,
      "learning_rate": 0.00017564367622550448,
      "loss": 3.8691,
      "step": 214860
    },
    {
      "epoch": 0.44764583333333335,
      "grad_norm": 0.9155358076095581,
      "learning_rate": 0.00017563396275001338,
      "loss": 3.7215,
      "step": 214870
    },
    {
      "epoch": 0.44766666666666666,
      "grad_norm": 0.715234637260437,
      "learning_rate": 0.00017562424916379372,
      "loss": 3.7313,
      "step": 214880
    },
    {
      "epoch": 0.4476875,
      "grad_norm": 0.7842194437980652,
      "learning_rate": 0.00017561453546688748,
      "loss": 3.8499,
      "step": 214890
    },
    {
      "epoch": 0.4477083333333333,
      "grad_norm": 0.8562299013137817,
      "learning_rate": 0.00017560482165933657,
      "loss": 3.7789,
      "step": 214900
    },
    {
      "epoch": 0.4477291666666667,
      "grad_norm": 0.7116127610206604,
      "learning_rate": 0.00017559510774118293,
      "loss": 3.8453,
      "step": 214910
    },
    {
      "epoch": 0.44775,
      "grad_norm": 0.9237556457519531,
      "learning_rate": 0.00017558539371246863,
      "loss": 3.8468,
      "step": 214920
    },
    {
      "epoch": 0.44777083333333334,
      "grad_norm": 0.8943806886672974,
      "learning_rate": 0.0001755756795732355,
      "loss": 3.8092,
      "step": 214930
    },
    {
      "epoch": 0.44779166666666664,
      "grad_norm": 0.8136578798294067,
      "learning_rate": 0.00017556596532352552,
      "loss": 3.8074,
      "step": 214940
    },
    {
      "epoch": 0.4478125,
      "grad_norm": 0.7771613001823425,
      "learning_rate": 0.00017555625096338074,
      "loss": 3.658,
      "step": 214950
    },
    {
      "epoch": 0.44783333333333336,
      "grad_norm": 0.8500675559043884,
      "learning_rate": 0.0001755465364928431,
      "loss": 3.7987,
      "step": 214960
    },
    {
      "epoch": 0.44785416666666666,
      "grad_norm": 0.85542231798172,
      "learning_rate": 0.0001755368219119545,
      "loss": 3.7802,
      "step": 214970
    },
    {
      "epoch": 0.447875,
      "grad_norm": 0.8222873210906982,
      "learning_rate": 0.00017552710722075693,
      "loss": 3.7866,
      "step": 214980
    },
    {
      "epoch": 0.4478958333333333,
      "grad_norm": 0.7990843057632446,
      "learning_rate": 0.00017551739241929235,
      "loss": 3.6876,
      "step": 214990
    },
    {
      "epoch": 0.4479166666666667,
      "grad_norm": 0.7937467098236084,
      "learning_rate": 0.00017550767750760277,
      "loss": 3.793,
      "step": 215000
    },
    {
      "epoch": 0.4479166666666667,
      "eval_loss": 4.1565070152282715,
      "eval_runtime": 8.6468,
      "eval_samples_per_second": 1.157,
      "eval_steps_per_second": 0.347,
      "step": 215000
    },
    {
      "epoch": 0.4479375,
      "grad_norm": 1.1378090381622314,
      "learning_rate": 0.0001754979624857301,
      "loss": 3.822,
      "step": 215010
    },
    {
      "epoch": 0.44795833333333335,
      "grad_norm": 0.933527410030365,
      "learning_rate": 0.00017548824735371635,
      "loss": 3.8087,
      "step": 215020
    },
    {
      "epoch": 0.44797916666666665,
      "grad_norm": 0.7943490147590637,
      "learning_rate": 0.00017547853211160344,
      "loss": 3.7619,
      "step": 215030
    },
    {
      "epoch": 0.448,
      "grad_norm": 0.7854326963424683,
      "learning_rate": 0.00017546881675943333,
      "loss": 3.7344,
      "step": 215040
    },
    {
      "epoch": 0.4480208333333333,
      "grad_norm": 0.7288934588432312,
      "learning_rate": 0.00017545910129724803,
      "loss": 3.7422,
      "step": 215050
    },
    {
      "epoch": 0.44804166666666667,
      "grad_norm": 0.6541165709495544,
      "learning_rate": 0.00017544938572508953,
      "loss": 3.6719,
      "step": 215060
    },
    {
      "epoch": 0.4480625,
      "grad_norm": 0.7758232951164246,
      "learning_rate": 0.00017543967004299968,
      "loss": 3.8758,
      "step": 215070
    },
    {
      "epoch": 0.44808333333333333,
      "grad_norm": 0.7127532958984375,
      "learning_rate": 0.00017542995425102057,
      "loss": 3.9148,
      "step": 215080
    },
    {
      "epoch": 0.4481041666666667,
      "grad_norm": 0.8910031318664551,
      "learning_rate": 0.00017542023834919417,
      "loss": 3.7007,
      "step": 215090
    },
    {
      "epoch": 0.448125,
      "grad_norm": 0.7891069650650024,
      "learning_rate": 0.00017541052233756237,
      "loss": 3.7785,
      "step": 215100
    },
    {
      "epoch": 0.44814583333333335,
      "grad_norm": 0.844314455986023,
      "learning_rate": 0.0001754008062161671,
      "loss": 3.8829,
      "step": 215110
    },
    {
      "epoch": 0.44816666666666666,
      "grad_norm": 0.7885832786560059,
      "learning_rate": 0.0001753910899850505,
      "loss": 3.7713,
      "step": 215120
    },
    {
      "epoch": 0.4481875,
      "grad_norm": 0.8106919527053833,
      "learning_rate": 0.0001753813736442544,
      "loss": 3.8383,
      "step": 215130
    },
    {
      "epoch": 0.4482083333333333,
      "grad_norm": 1.0063552856445312,
      "learning_rate": 0.00017537165719382083,
      "loss": 3.8095,
      "step": 215140
    },
    {
      "epoch": 0.4482291666666667,
      "grad_norm": 0.8840637803077698,
      "learning_rate": 0.0001753619406337917,
      "loss": 3.7534,
      "step": 215150
    },
    {
      "epoch": 0.44825,
      "grad_norm": 0.7692446112632751,
      "learning_rate": 0.0001753522239642091,
      "loss": 3.7368,
      "step": 215160
    },
    {
      "epoch": 0.44827083333333334,
      "grad_norm": 0.950550377368927,
      "learning_rate": 0.00017534250718511483,
      "loss": 3.8626,
      "step": 215170
    },
    {
      "epoch": 0.44829166666666664,
      "grad_norm": 0.7708231806755066,
      "learning_rate": 0.00017533279029655104,
      "loss": 3.8146,
      "step": 215180
    },
    {
      "epoch": 0.4483125,
      "grad_norm": 0.8880558609962463,
      "learning_rate": 0.00017532307329855957,
      "loss": 3.8345,
      "step": 215190
    },
    {
      "epoch": 0.4483333333333333,
      "grad_norm": 1.2596217393875122,
      "learning_rate": 0.00017531335619118253,
      "loss": 3.6492,
      "step": 215200
    },
    {
      "epoch": 0.44835416666666666,
      "grad_norm": 0.8783251643180847,
      "learning_rate": 0.0001753036389744617,
      "loss": 3.7013,
      "step": 215210
    },
    {
      "epoch": 0.448375,
      "grad_norm": 0.8291942477226257,
      "learning_rate": 0.0001752939216484392,
      "loss": 3.828,
      "step": 215220
    },
    {
      "epoch": 0.4483958333333333,
      "grad_norm": 0.8141917586326599,
      "learning_rate": 0.00017528420421315704,
      "loss": 3.7938,
      "step": 215230
    },
    {
      "epoch": 0.4484166666666667,
      "grad_norm": 0.8778463006019592,
      "learning_rate": 0.00017527448666865704,
      "loss": 3.6986,
      "step": 215240
    },
    {
      "epoch": 0.4484375,
      "grad_norm": 0.7465651631355286,
      "learning_rate": 0.0001752647690149813,
      "loss": 3.7195,
      "step": 215250
    },
    {
      "epoch": 0.44845833333333335,
      "grad_norm": 0.7647963166236877,
      "learning_rate": 0.00017525505125217178,
      "loss": 3.9825,
      "step": 215260
    },
    {
      "epoch": 0.44847916666666665,
      "grad_norm": 0.7937787771224976,
      "learning_rate": 0.00017524533338027042,
      "loss": 3.782,
      "step": 215270
    },
    {
      "epoch": 0.4485,
      "grad_norm": 0.8034719228744507,
      "learning_rate": 0.00017523561539931916,
      "loss": 3.8817,
      "step": 215280
    },
    {
      "epoch": 0.4485208333333333,
      "grad_norm": 0.8585010170936584,
      "learning_rate": 0.0001752258973093601,
      "loss": 3.6786,
      "step": 215290
    },
    {
      "epoch": 0.44854166666666667,
      "grad_norm": 0.7742725014686584,
      "learning_rate": 0.00017521617911043513,
      "loss": 3.8161,
      "step": 215300
    },
    {
      "epoch": 0.4485625,
      "grad_norm": 0.75807124376297,
      "learning_rate": 0.0001752064608025862,
      "loss": 3.7165,
      "step": 215310
    },
    {
      "epoch": 0.44858333333333333,
      "grad_norm": 0.8075869083404541,
      "learning_rate": 0.0001751967423858554,
      "loss": 3.9062,
      "step": 215320
    },
    {
      "epoch": 0.4486041666666667,
      "grad_norm": 0.7581374049186707,
      "learning_rate": 0.00017518702386028464,
      "loss": 3.8544,
      "step": 215330
    },
    {
      "epoch": 0.448625,
      "grad_norm": 0.8769021034240723,
      "learning_rate": 0.00017517730522591585,
      "loss": 3.6908,
      "step": 215340
    },
    {
      "epoch": 0.44864583333333335,
      "grad_norm": 0.8281258344650269,
      "learning_rate": 0.00017516758648279112,
      "loss": 3.735,
      "step": 215350
    },
    {
      "epoch": 0.44866666666666666,
      "grad_norm": 0.73085618019104,
      "learning_rate": 0.00017515786763095238,
      "loss": 3.7334,
      "step": 215360
    },
    {
      "epoch": 0.4486875,
      "grad_norm": 0.9479342103004456,
      "learning_rate": 0.0001751481486704416,
      "loss": 3.8367,
      "step": 215370
    },
    {
      "epoch": 0.4487083333333333,
      "grad_norm": 0.8081554174423218,
      "learning_rate": 0.00017513842960130077,
      "loss": 3.7277,
      "step": 215380
    },
    {
      "epoch": 0.4487291666666667,
      "grad_norm": 0.7506730556488037,
      "learning_rate": 0.00017512871042357187,
      "loss": 3.6782,
      "step": 215390
    },
    {
      "epoch": 0.44875,
      "grad_norm": 1.0043771266937256,
      "learning_rate": 0.0001751189911372969,
      "loss": 3.7636,
      "step": 215400
    },
    {
      "epoch": 0.44877083333333334,
      "grad_norm": 0.8112907409667969,
      "learning_rate": 0.0001751092717425178,
      "loss": 3.8495,
      "step": 215410
    },
    {
      "epoch": 0.44879166666666664,
      "grad_norm": 0.7732560038566589,
      "learning_rate": 0.0001750995522392766,
      "loss": 3.7339,
      "step": 215420
    },
    {
      "epoch": 0.4488125,
      "grad_norm": 0.7651111483573914,
      "learning_rate": 0.0001750898326276153,
      "loss": 3.8248,
      "step": 215430
    },
    {
      "epoch": 0.4488333333333333,
      "grad_norm": 0.7819613218307495,
      "learning_rate": 0.0001750801129075758,
      "loss": 3.5886,
      "step": 215440
    },
    {
      "epoch": 0.44885416666666667,
      "grad_norm": 0.8480401039123535,
      "learning_rate": 0.00017507039307920017,
      "loss": 3.7705,
      "step": 215450
    },
    {
      "epoch": 0.448875,
      "grad_norm": 1.0237189531326294,
      "learning_rate": 0.0001750606731425304,
      "loss": 3.8808,
      "step": 215460
    },
    {
      "epoch": 0.4488958333333333,
      "grad_norm": 0.7806090116500854,
      "learning_rate": 0.0001750509530976084,
      "loss": 3.843,
      "step": 215470
    },
    {
      "epoch": 0.4489166666666667,
      "grad_norm": 0.9135294556617737,
      "learning_rate": 0.0001750412329444762,
      "loss": 3.8125,
      "step": 215480
    },
    {
      "epoch": 0.4489375,
      "grad_norm": 1.0160961151123047,
      "learning_rate": 0.00017503151268317578,
      "loss": 3.8453,
      "step": 215490
    },
    {
      "epoch": 0.44895833333333335,
      "grad_norm": 0.7163739204406738,
      "learning_rate": 0.00017502179231374915,
      "loss": 3.7706,
      "step": 215500
    },
    {
      "epoch": 0.44897916666666665,
      "grad_norm": 0.9369239807128906,
      "learning_rate": 0.00017501207183623826,
      "loss": 3.884,
      "step": 215510
    },
    {
      "epoch": 0.449,
      "grad_norm": 0.8486090302467346,
      "learning_rate": 0.00017500235125068514,
      "loss": 3.8444,
      "step": 215520
    },
    {
      "epoch": 0.4490208333333333,
      "grad_norm": 0.7928500175476074,
      "learning_rate": 0.00017499263055713174,
      "loss": 3.8308,
      "step": 215530
    },
    {
      "epoch": 0.4490416666666667,
      "grad_norm": 0.8487524390220642,
      "learning_rate": 0.0001749829097556201,
      "loss": 3.7277,
      "step": 215540
    },
    {
      "epoch": 0.4490625,
      "grad_norm": 0.94408118724823,
      "learning_rate": 0.00017497318884619216,
      "loss": 3.7872,
      "step": 215550
    },
    {
      "epoch": 0.44908333333333333,
      "grad_norm": 0.804016649723053,
      "learning_rate": 0.00017496346782888995,
      "loss": 3.6524,
      "step": 215560
    },
    {
      "epoch": 0.4491041666666667,
      "grad_norm": 0.8014283180236816,
      "learning_rate": 0.00017495374670375546,
      "loss": 3.6256,
      "step": 215570
    },
    {
      "epoch": 0.449125,
      "grad_norm": 0.9298773407936096,
      "learning_rate": 0.00017494402547083056,
      "loss": 3.75,
      "step": 215580
    },
    {
      "epoch": 0.44914583333333336,
      "grad_norm": 0.7368490695953369,
      "learning_rate": 0.0001749343041301574,
      "loss": 3.7604,
      "step": 215590
    },
    {
      "epoch": 0.44916666666666666,
      "grad_norm": 0.7665882706642151,
      "learning_rate": 0.00017492458268177796,
      "loss": 3.9413,
      "step": 215600
    },
    {
      "epoch": 0.4491875,
      "grad_norm": 0.8987945318222046,
      "learning_rate": 0.00017491486112573411,
      "loss": 3.7186,
      "step": 215610
    },
    {
      "epoch": 0.4492083333333333,
      "grad_norm": 0.7535707950592041,
      "learning_rate": 0.000174905139462068,
      "loss": 3.7387,
      "step": 215620
    },
    {
      "epoch": 0.4492291666666667,
      "grad_norm": 0.8079168200492859,
      "learning_rate": 0.00017489541769082152,
      "loss": 3.8578,
      "step": 215630
    },
    {
      "epoch": 0.44925,
      "grad_norm": 0.8705726265907288,
      "learning_rate": 0.00017488569581203665,
      "loss": 3.8274,
      "step": 215640
    },
    {
      "epoch": 0.44927083333333334,
      "grad_norm": 0.7783911228179932,
      "learning_rate": 0.00017487597382575548,
      "loss": 3.6736,
      "step": 215650
    },
    {
      "epoch": 0.44929166666666664,
      "grad_norm": 0.7423486709594727,
      "learning_rate": 0.00017486625173201992,
      "loss": 3.6404,
      "step": 215660
    },
    {
      "epoch": 0.4493125,
      "grad_norm": 0.8914962410926819,
      "learning_rate": 0.000174856529530872,
      "loss": 3.772,
      "step": 215670
    },
    {
      "epoch": 0.4493333333333333,
      "grad_norm": 0.8766016960144043,
      "learning_rate": 0.00017484680722235372,
      "loss": 3.9159,
      "step": 215680
    },
    {
      "epoch": 0.44935416666666667,
      "grad_norm": 0.7841625809669495,
      "learning_rate": 0.00017483708480650704,
      "loss": 3.8903,
      "step": 215690
    },
    {
      "epoch": 0.449375,
      "grad_norm": 0.6906731724739075,
      "learning_rate": 0.000174827362283374,
      "loss": 3.8087,
      "step": 215700
    },
    {
      "epoch": 0.4493958333333333,
      "grad_norm": 0.8470136523246765,
      "learning_rate": 0.00017481763965299658,
      "loss": 3.8489,
      "step": 215710
    },
    {
      "epoch": 0.4494166666666667,
      "grad_norm": 0.8734012246131897,
      "learning_rate": 0.0001748079169154168,
      "loss": 3.9047,
      "step": 215720
    },
    {
      "epoch": 0.4494375,
      "grad_norm": 0.8758447766304016,
      "learning_rate": 0.0001747981940706766,
      "loss": 3.8365,
      "step": 215730
    },
    {
      "epoch": 0.44945833333333335,
      "grad_norm": 0.8708831071853638,
      "learning_rate": 0.00017478847111881802,
      "loss": 3.8309,
      "step": 215740
    },
    {
      "epoch": 0.44947916666666665,
      "grad_norm": 0.9377384781837463,
      "learning_rate": 0.00017477874805988308,
      "loss": 3.9034,
      "step": 215750
    },
    {
      "epoch": 0.4495,
      "grad_norm": 0.8048405647277832,
      "learning_rate": 0.00017476902489391377,
      "loss": 3.9932,
      "step": 215760
    },
    {
      "epoch": 0.4495208333333333,
      "grad_norm": 0.817423939704895,
      "learning_rate": 0.0001747593016209521,
      "loss": 3.8043,
      "step": 215770
    },
    {
      "epoch": 0.4495416666666667,
      "grad_norm": 0.7732683420181274,
      "learning_rate": 0.00017474957824103996,
      "loss": 4.1341,
      "step": 215780
    },
    {
      "epoch": 0.4495625,
      "grad_norm": 0.8460540175437927,
      "learning_rate": 0.00017473985475421953,
      "loss": 3.7421,
      "step": 215790
    },
    {
      "epoch": 0.44958333333333333,
      "grad_norm": 0.8162462115287781,
      "learning_rate": 0.00017473013116053266,
      "loss": 3.7604,
      "step": 215800
    },
    {
      "epoch": 0.4496041666666667,
      "grad_norm": 0.8267875909805298,
      "learning_rate": 0.00017472040746002138,
      "loss": 3.7783,
      "step": 215810
    },
    {
      "epoch": 0.449625,
      "grad_norm": 1.1064860820770264,
      "learning_rate": 0.0001747106836527278,
      "loss": 3.7491,
      "step": 215820
    },
    {
      "epoch": 0.44964583333333336,
      "grad_norm": 0.7917606830596924,
      "learning_rate": 0.00017470095973869384,
      "loss": 3.6414,
      "step": 215830
    },
    {
      "epoch": 0.44966666666666666,
      "grad_norm": 0.834942102432251,
      "learning_rate": 0.0001746912357179615,
      "loss": 3.6955,
      "step": 215840
    },
    {
      "epoch": 0.4496875,
      "grad_norm": 0.744361937046051,
      "learning_rate": 0.00017468151159057276,
      "loss": 3.74,
      "step": 215850
    },
    {
      "epoch": 0.4497083333333333,
      "grad_norm": 0.6989733576774597,
      "learning_rate": 0.00017467178735656972,
      "loss": 3.6281,
      "step": 215860
    },
    {
      "epoch": 0.4497291666666667,
      "grad_norm": 0.7147067189216614,
      "learning_rate": 0.00017466206301599427,
      "loss": 3.7762,
      "step": 215870
    },
    {
      "epoch": 0.44975,
      "grad_norm": 0.7760608196258545,
      "learning_rate": 0.0001746523385688885,
      "loss": 3.9405,
      "step": 215880
    },
    {
      "epoch": 0.44977083333333334,
      "grad_norm": 0.8180449604988098,
      "learning_rate": 0.00017464261401529436,
      "loss": 3.6461,
      "step": 215890
    },
    {
      "epoch": 0.44979166666666665,
      "grad_norm": 0.6959348320960999,
      "learning_rate": 0.00017463288935525392,
      "loss": 3.7483,
      "step": 215900
    },
    {
      "epoch": 0.4498125,
      "grad_norm": 0.7888557314872742,
      "learning_rate": 0.0001746231645888091,
      "loss": 3.8013,
      "step": 215910
    },
    {
      "epoch": 0.4498333333333333,
      "grad_norm": 0.8482787609100342,
      "learning_rate": 0.000174613439716002,
      "loss": 3.8395,
      "step": 215920
    },
    {
      "epoch": 0.44985416666666667,
      "grad_norm": 0.7984509468078613,
      "learning_rate": 0.00017460371473687457,
      "loss": 3.7784,
      "step": 215930
    },
    {
      "epoch": 0.449875,
      "grad_norm": 0.7700648307800293,
      "learning_rate": 0.0001745939896514688,
      "loss": 3.9812,
      "step": 215940
    },
    {
      "epoch": 0.44989583333333333,
      "grad_norm": 0.7132558226585388,
      "learning_rate": 0.00017458426445982677,
      "loss": 3.7097,
      "step": 215950
    },
    {
      "epoch": 0.4499166666666667,
      "grad_norm": 0.9005542397499084,
      "learning_rate": 0.00017457453916199046,
      "loss": 3.8311,
      "step": 215960
    },
    {
      "epoch": 0.4499375,
      "grad_norm": 0.8259812593460083,
      "learning_rate": 0.00017456481375800186,
      "loss": 3.6786,
      "step": 215970
    },
    {
      "epoch": 0.44995833333333335,
      "grad_norm": 0.7062476873397827,
      "learning_rate": 0.00017455508824790292,
      "loss": 3.808,
      "step": 215980
    },
    {
      "epoch": 0.44997916666666665,
      "grad_norm": 0.9407413005828857,
      "learning_rate": 0.00017454536263173583,
      "loss": 3.6629,
      "step": 215990
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.7949005961418152,
      "learning_rate": 0.0001745356369095424,
      "loss": 3.747,
      "step": 216000
    },
    {
      "epoch": 0.45,
      "eval_loss": 4.156289577484131,
      "eval_runtime": 8.3813,
      "eval_samples_per_second": 1.193,
      "eval_steps_per_second": 0.358,
      "step": 216000
    },
    {
      "epoch": 0.4500208333333333,
      "grad_norm": 0.7580996751785278,
      "learning_rate": 0.00017452591108136473,
      "loss": 3.8188,
      "step": 216010
    },
    {
      "epoch": 0.4500416666666667,
      "grad_norm": 0.6966575384140015,
      "learning_rate": 0.0001745161851472449,
      "loss": 3.9063,
      "step": 216020
    },
    {
      "epoch": 0.4500625,
      "grad_norm": 0.7621318697929382,
      "learning_rate": 0.00017450645910722478,
      "loss": 3.8846,
      "step": 216030
    },
    {
      "epoch": 0.45008333333333334,
      "grad_norm": 0.9449453949928284,
      "learning_rate": 0.00017449673296134651,
      "loss": 3.7675,
      "step": 216040
    },
    {
      "epoch": 0.4501041666666667,
      "grad_norm": 1.0156474113464355,
      "learning_rate": 0.00017448700670965204,
      "loss": 3.7782,
      "step": 216050
    },
    {
      "epoch": 0.450125,
      "grad_norm": 0.7609302997589111,
      "learning_rate": 0.00017447728035218337,
      "loss": 3.9044,
      "step": 216060
    },
    {
      "epoch": 0.45014583333333336,
      "grad_norm": 0.8396399021148682,
      "learning_rate": 0.0001744675538889826,
      "loss": 3.8281,
      "step": 216070
    },
    {
      "epoch": 0.45016666666666666,
      "grad_norm": 0.7796765565872192,
      "learning_rate": 0.0001744578273200916,
      "loss": 3.8069,
      "step": 216080
    },
    {
      "epoch": 0.4501875,
      "grad_norm": 0.7012739181518555,
      "learning_rate": 0.0001744481006455525,
      "loss": 3.8757,
      "step": 216090
    },
    {
      "epoch": 0.4502083333333333,
      "grad_norm": 0.790378212928772,
      "learning_rate": 0.00017443837386540731,
      "loss": 3.7402,
      "step": 216100
    },
    {
      "epoch": 0.4502291666666667,
      "grad_norm": 0.7463567852973938,
      "learning_rate": 0.00017442864697969797,
      "loss": 3.8417,
      "step": 216110
    },
    {
      "epoch": 0.45025,
      "grad_norm": 0.7820798754692078,
      "learning_rate": 0.00017441891998846656,
      "loss": 3.8356,
      "step": 216120
    },
    {
      "epoch": 0.45027083333333334,
      "grad_norm": 0.995353102684021,
      "learning_rate": 0.00017440919289175513,
      "loss": 3.8416,
      "step": 216130
    },
    {
      "epoch": 0.45029166666666665,
      "grad_norm": 0.7659251093864441,
      "learning_rate": 0.0001743994656896056,
      "loss": 3.8322,
      "step": 216140
    },
    {
      "epoch": 0.4503125,
      "grad_norm": 0.9555308222770691,
      "learning_rate": 0.00017438973838206003,
      "loss": 3.8315,
      "step": 216150
    },
    {
      "epoch": 0.4503333333333333,
      "grad_norm": 0.7954477667808533,
      "learning_rate": 0.00017438001096916047,
      "loss": 3.7526,
      "step": 216160
    },
    {
      "epoch": 0.45035416666666667,
      "grad_norm": 0.7683753371238708,
      "learning_rate": 0.0001743702834509489,
      "loss": 3.9427,
      "step": 216170
    },
    {
      "epoch": 0.450375,
      "grad_norm": 0.8624082207679749,
      "learning_rate": 0.0001743605558274673,
      "loss": 3.804,
      "step": 216180
    },
    {
      "epoch": 0.45039583333333333,
      "grad_norm": 0.8716701865196228,
      "learning_rate": 0.00017435082809875784,
      "loss": 3.7067,
      "step": 216190
    },
    {
      "epoch": 0.4504166666666667,
      "grad_norm": 0.7941856384277344,
      "learning_rate": 0.0001743411002648624,
      "loss": 3.8055,
      "step": 216200
    },
    {
      "epoch": 0.4504375,
      "grad_norm": 0.8711944818496704,
      "learning_rate": 0.00017433137232582304,
      "loss": 3.8793,
      "step": 216210
    },
    {
      "epoch": 0.45045833333333335,
      "grad_norm": 0.7927721738815308,
      "learning_rate": 0.00017432164428168178,
      "loss": 3.8666,
      "step": 216220
    },
    {
      "epoch": 0.45047916666666665,
      "grad_norm": 0.8056866526603699,
      "learning_rate": 0.00017431191613248066,
      "loss": 3.7973,
      "step": 216230
    },
    {
      "epoch": 0.4505,
      "grad_norm": 1.212087631225586,
      "learning_rate": 0.00017430218787826163,
      "loss": 3.7144,
      "step": 216240
    },
    {
      "epoch": 0.4505208333333333,
      "grad_norm": 0.817513644695282,
      "learning_rate": 0.00017429245951906683,
      "loss": 3.9755,
      "step": 216250
    },
    {
      "epoch": 0.4505416666666667,
      "grad_norm": 0.9482408165931702,
      "learning_rate": 0.00017428273105493818,
      "loss": 3.7801,
      "step": 216260
    },
    {
      "epoch": 0.4505625,
      "grad_norm": 0.7662644982337952,
      "learning_rate": 0.0001742730024859178,
      "loss": 3.8496,
      "step": 216270
    },
    {
      "epoch": 0.45058333333333334,
      "grad_norm": 1.0409396886825562,
      "learning_rate": 0.0001742632738120476,
      "loss": 3.7779,
      "step": 216280
    },
    {
      "epoch": 0.45060416666666664,
      "grad_norm": 0.7639393210411072,
      "learning_rate": 0.00017425354503336967,
      "loss": 3.5953,
      "step": 216290
    },
    {
      "epoch": 0.450625,
      "grad_norm": 0.867588460445404,
      "learning_rate": 0.00017424381614992608,
      "loss": 3.7733,
      "step": 216300
    },
    {
      "epoch": 0.45064583333333336,
      "grad_norm": 0.7782843708992004,
      "learning_rate": 0.0001742340871617587,
      "loss": 3.7533,
      "step": 216310
    },
    {
      "epoch": 0.45066666666666666,
      "grad_norm": 0.8843962550163269,
      "learning_rate": 0.00017422435806890973,
      "loss": 3.7678,
      "step": 216320
    },
    {
      "epoch": 0.4506875,
      "grad_norm": 0.8073654174804688,
      "learning_rate": 0.00017421462887142112,
      "loss": 3.9142,
      "step": 216330
    },
    {
      "epoch": 0.4507083333333333,
      "grad_norm": 0.7346264719963074,
      "learning_rate": 0.0001742048995693349,
      "loss": 3.7376,
      "step": 216340
    },
    {
      "epoch": 0.4507291666666667,
      "grad_norm": 0.8211929202079773,
      "learning_rate": 0.00017419517016269305,
      "loss": 3.9087,
      "step": 216350
    },
    {
      "epoch": 0.45075,
      "grad_norm": 0.8521855473518372,
      "learning_rate": 0.00017418544065153768,
      "loss": 3.529,
      "step": 216360
    },
    {
      "epoch": 0.45077083333333334,
      "grad_norm": 0.8206595778465271,
      "learning_rate": 0.00017417571103591078,
      "loss": 3.7502,
      "step": 216370
    },
    {
      "epoch": 0.45079166666666665,
      "grad_norm": 0.7197787761688232,
      "learning_rate": 0.00017416598131585436,
      "loss": 3.6952,
      "step": 216380
    },
    {
      "epoch": 0.4508125,
      "grad_norm": 0.7789478898048401,
      "learning_rate": 0.00017415625149141045,
      "loss": 3.8767,
      "step": 216390
    },
    {
      "epoch": 0.4508333333333333,
      "grad_norm": 0.7701003551483154,
      "learning_rate": 0.00017414652156262113,
      "loss": 3.9099,
      "step": 216400
    },
    {
      "epoch": 0.45085416666666667,
      "grad_norm": 1.0443813800811768,
      "learning_rate": 0.0001741367915295284,
      "loss": 3.8281,
      "step": 216410
    },
    {
      "epoch": 0.450875,
      "grad_norm": 0.9841074347496033,
      "learning_rate": 0.00017412706139217424,
      "loss": 3.7241,
      "step": 216420
    },
    {
      "epoch": 0.45089583333333333,
      "grad_norm": 0.7698702216148376,
      "learning_rate": 0.00017411733115060076,
      "loss": 3.8705,
      "step": 216430
    },
    {
      "epoch": 0.4509166666666667,
      "grad_norm": 0.7554059028625488,
      "learning_rate": 0.00017410760080484994,
      "loss": 3.9041,
      "step": 216440
    },
    {
      "epoch": 0.4509375,
      "grad_norm": 0.8630182147026062,
      "learning_rate": 0.00017409787035496384,
      "loss": 3.9881,
      "step": 216450
    },
    {
      "epoch": 0.45095833333333335,
      "grad_norm": 0.9134306907653809,
      "learning_rate": 0.00017408813980098446,
      "loss": 3.8996,
      "step": 216460
    },
    {
      "epoch": 0.45097916666666665,
      "grad_norm": 0.72993403673172,
      "learning_rate": 0.0001740784091429539,
      "loss": 3.8315,
      "step": 216470
    },
    {
      "epoch": 0.451,
      "grad_norm": 0.7104971408843994,
      "learning_rate": 0.0001740686783809141,
      "loss": 3.8505,
      "step": 216480
    },
    {
      "epoch": 0.4510208333333333,
      "grad_norm": 0.9423898458480835,
      "learning_rate": 0.00017405894751490713,
      "loss": 3.8329,
      "step": 216490
    },
    {
      "epoch": 0.4510416666666667,
      "grad_norm": 0.7812149524688721,
      "learning_rate": 0.00017404921654497508,
      "loss": 3.8217,
      "step": 216500
    },
    {
      "epoch": 0.4510625,
      "grad_norm": 0.8556984066963196,
      "learning_rate": 0.00017403948547115987,
      "loss": 3.7146,
      "step": 216510
    },
    {
      "epoch": 0.45108333333333334,
      "grad_norm": 1.2992008924484253,
      "learning_rate": 0.00017402975429350366,
      "loss": 3.726,
      "step": 216520
    },
    {
      "epoch": 0.45110416666666664,
      "grad_norm": 1.2046942710876465,
      "learning_rate": 0.00017402002301204837,
      "loss": 3.599,
      "step": 216530
    },
    {
      "epoch": 0.451125,
      "grad_norm": 0.883773684501648,
      "learning_rate": 0.00017401029162683612,
      "loss": 3.606,
      "step": 216540
    },
    {
      "epoch": 0.45114583333333336,
      "grad_norm": 0.8433945775032043,
      "learning_rate": 0.0001740005601379089,
      "loss": 3.7269,
      "step": 216550
    },
    {
      "epoch": 0.45116666666666666,
      "grad_norm": 0.8739691972732544,
      "learning_rate": 0.00017399082854530876,
      "loss": 3.7336,
      "step": 216560
    },
    {
      "epoch": 0.4511875,
      "grad_norm": 0.8587899208068848,
      "learning_rate": 0.00017398109684907775,
      "loss": 3.5907,
      "step": 216570
    },
    {
      "epoch": 0.4512083333333333,
      "grad_norm": 1.101157546043396,
      "learning_rate": 0.00017397136504925786,
      "loss": 3.7087,
      "step": 216580
    },
    {
      "epoch": 0.4512291666666667,
      "grad_norm": 0.8483184576034546,
      "learning_rate": 0.0001739616331458912,
      "loss": 3.6796,
      "step": 216590
    },
    {
      "epoch": 0.45125,
      "grad_norm": 0.9438574314117432,
      "learning_rate": 0.00017395190113901976,
      "loss": 3.7493,
      "step": 216600
    },
    {
      "epoch": 0.45127083333333334,
      "grad_norm": 0.849819004535675,
      "learning_rate": 0.00017394216902868556,
      "loss": 3.7021,
      "step": 216610
    },
    {
      "epoch": 0.45129166666666665,
      "grad_norm": 0.7518360614776611,
      "learning_rate": 0.00017393243681493068,
      "loss": 3.726,
      "step": 216620
    },
    {
      "epoch": 0.4513125,
      "grad_norm": 0.8224295973777771,
      "learning_rate": 0.00017392270449779717,
      "loss": 3.7194,
      "step": 216630
    },
    {
      "epoch": 0.4513333333333333,
      "grad_norm": 0.8760061860084534,
      "learning_rate": 0.00017391297207732705,
      "loss": 3.9085,
      "step": 216640
    },
    {
      "epoch": 0.45135416666666667,
      "grad_norm": 0.8657108545303345,
      "learning_rate": 0.00017390323955356228,
      "loss": 3.7926,
      "step": 216650
    },
    {
      "epoch": 0.451375,
      "grad_norm": 1.6623421907424927,
      "learning_rate": 0.0001738935069265451,
      "loss": 3.718,
      "step": 216660
    },
    {
      "epoch": 0.45139583333333333,
      "grad_norm": 0.796965479850769,
      "learning_rate": 0.00017388377419631735,
      "loss": 3.8183,
      "step": 216670
    },
    {
      "epoch": 0.4514166666666667,
      "grad_norm": 0.799042820930481,
      "learning_rate": 0.00017387404136292114,
      "loss": 3.8275,
      "step": 216680
    },
    {
      "epoch": 0.4514375,
      "grad_norm": 0.725004255771637,
      "learning_rate": 0.00017386430842639857,
      "loss": 3.7725,
      "step": 216690
    },
    {
      "epoch": 0.45145833333333335,
      "grad_norm": 0.9010224938392639,
      "learning_rate": 0.0001738545753867916,
      "loss": 3.8763,
      "step": 216700
    },
    {
      "epoch": 0.45147916666666665,
      "grad_norm": 1.0398283004760742,
      "learning_rate": 0.0001738448422441423,
      "loss": 3.7599,
      "step": 216710
    },
    {
      "epoch": 0.4515,
      "grad_norm": 0.9753854870796204,
      "learning_rate": 0.00017383510899849275,
      "loss": 3.5771,
      "step": 216720
    },
    {
      "epoch": 0.4515208333333333,
      "grad_norm": 0.774868369102478,
      "learning_rate": 0.00017382537564988493,
      "loss": 3.8034,
      "step": 216730
    },
    {
      "epoch": 0.4515416666666667,
      "grad_norm": 0.739957332611084,
      "learning_rate": 0.00017381564219836094,
      "loss": 3.7579,
      "step": 216740
    },
    {
      "epoch": 0.4515625,
      "grad_norm": 0.7793959379196167,
      "learning_rate": 0.0001738059086439628,
      "loss": 3.9039,
      "step": 216750
    },
    {
      "epoch": 0.45158333333333334,
      "grad_norm": 0.7133806347846985,
      "learning_rate": 0.00017379617498673253,
      "loss": 3.8622,
      "step": 216760
    },
    {
      "epoch": 0.45160416666666664,
      "grad_norm": 0.8296646475791931,
      "learning_rate": 0.00017378644122671222,
      "loss": 3.7577,
      "step": 216770
    },
    {
      "epoch": 0.451625,
      "grad_norm": 0.8210142850875854,
      "learning_rate": 0.00017377670736394392,
      "loss": 3.7344,
      "step": 216780
    },
    {
      "epoch": 0.45164583333333336,
      "grad_norm": 0.8802955150604248,
      "learning_rate": 0.00017376697339846963,
      "loss": 3.682,
      "step": 216790
    },
    {
      "epoch": 0.45166666666666666,
      "grad_norm": 0.7736446857452393,
      "learning_rate": 0.0001737572393303315,
      "loss": 3.6378,
      "step": 216800
    },
    {
      "epoch": 0.4516875,
      "grad_norm": 0.7409669160842896,
      "learning_rate": 0.00017374750515957137,
      "loss": 3.656,
      "step": 216810
    },
    {
      "epoch": 0.4517083333333333,
      "grad_norm": 0.806618332862854,
      "learning_rate": 0.0001737377708862315,
      "loss": 3.8559,
      "step": 216820
    },
    {
      "epoch": 0.4517291666666667,
      "grad_norm": 0.9308168292045593,
      "learning_rate": 0.00017372803651035385,
      "loss": 3.8125,
      "step": 216830
    },
    {
      "epoch": 0.45175,
      "grad_norm": 0.8999598026275635,
      "learning_rate": 0.0001737183020319805,
      "loss": 3.8663,
      "step": 216840
    },
    {
      "epoch": 0.45177083333333334,
      "grad_norm": 0.7780296206474304,
      "learning_rate": 0.00017370856745115338,
      "loss": 3.8706,
      "step": 216850
    },
    {
      "epoch": 0.45179166666666665,
      "grad_norm": 0.7435666918754578,
      "learning_rate": 0.00017369883276791473,
      "loss": 3.7497,
      "step": 216860
    },
    {
      "epoch": 0.4518125,
      "grad_norm": 0.8182092308998108,
      "learning_rate": 0.00017368909798230644,
      "loss": 3.9398,
      "step": 216870
    },
    {
      "epoch": 0.4518333333333333,
      "grad_norm": 0.7221056222915649,
      "learning_rate": 0.0001736793630943706,
      "loss": 3.9252,
      "step": 216880
    },
    {
      "epoch": 0.45185416666666667,
      "grad_norm": 0.7520015239715576,
      "learning_rate": 0.0001736696281041494,
      "loss": 3.8266,
      "step": 216890
    },
    {
      "epoch": 0.451875,
      "grad_norm": 0.9728971719741821,
      "learning_rate": 0.0001736598930116847,
      "loss": 3.6138,
      "step": 216900
    },
    {
      "epoch": 0.45189583333333333,
      "grad_norm": 0.8150849342346191,
      "learning_rate": 0.00017365015781701864,
      "loss": 3.8644,
      "step": 216910
    },
    {
      "epoch": 0.4519166666666667,
      "grad_norm": 0.8892695307731628,
      "learning_rate": 0.00017364042252019326,
      "loss": 3.8364,
      "step": 216920
    },
    {
      "epoch": 0.4519375,
      "grad_norm": 0.7942922115325928,
      "learning_rate": 0.00017363068712125058,
      "loss": 3.7595,
      "step": 216930
    },
    {
      "epoch": 0.45195833333333335,
      "grad_norm": 0.7935887575149536,
      "learning_rate": 0.0001736209516202327,
      "loss": 4.0373,
      "step": 216940
    },
    {
      "epoch": 0.45197916666666665,
      "grad_norm": 0.7952449917793274,
      "learning_rate": 0.00017361121601718166,
      "loss": 3.7227,
      "step": 216950
    },
    {
      "epoch": 0.452,
      "grad_norm": 0.7587540745735168,
      "learning_rate": 0.00017360148031213952,
      "loss": 3.8909,
      "step": 216960
    },
    {
      "epoch": 0.4520208333333333,
      "grad_norm": 0.8064977526664734,
      "learning_rate": 0.00017359174450514838,
      "loss": 3.9808,
      "step": 216970
    },
    {
      "epoch": 0.4520416666666667,
      "grad_norm": 0.8022285103797913,
      "learning_rate": 0.00017358200859625016,
      "loss": 3.8597,
      "step": 216980
    },
    {
      "epoch": 0.4520625,
      "grad_norm": 1.041601538658142,
      "learning_rate": 0.00017357227258548702,
      "loss": 3.544,
      "step": 216990
    },
    {
      "epoch": 0.45208333333333334,
      "grad_norm": 0.8355773687362671,
      "learning_rate": 0.00017356253647290103,
      "loss": 3.717,
      "step": 217000
    },
    {
      "epoch": 0.45208333333333334,
      "eval_loss": 4.151869297027588,
      "eval_runtime": 9.895,
      "eval_samples_per_second": 1.011,
      "eval_steps_per_second": 0.303,
      "step": 217000
    },
    {
      "epoch": 0.45210416666666664,
      "grad_norm": 0.7888913154602051,
      "learning_rate": 0.00017355280025853413,
      "loss": 3.7868,
      "step": 217010
    },
    {
      "epoch": 0.452125,
      "grad_norm": 0.779207170009613,
      "learning_rate": 0.00017354306394242852,
      "loss": 3.7977,
      "step": 217020
    },
    {
      "epoch": 0.45214583333333336,
      "grad_norm": 0.9342320561408997,
      "learning_rate": 0.00017353332752462623,
      "loss": 3.8091,
      "step": 217030
    },
    {
      "epoch": 0.45216666666666666,
      "grad_norm": 0.9117669463157654,
      "learning_rate": 0.00017352359100516923,
      "loss": 3.8271,
      "step": 217040
    },
    {
      "epoch": 0.4521875,
      "grad_norm": 0.8630363345146179,
      "learning_rate": 0.00017351385438409958,
      "loss": 3.8129,
      "step": 217050
    },
    {
      "epoch": 0.4522083333333333,
      "grad_norm": 0.9072793126106262,
      "learning_rate": 0.00017350411766145946,
      "loss": 3.9204,
      "step": 217060
    },
    {
      "epoch": 0.4522291666666667,
      "grad_norm": 1.0138133764266968,
      "learning_rate": 0.00017349438083729082,
      "loss": 3.8545,
      "step": 217070
    },
    {
      "epoch": 0.45225,
      "grad_norm": 0.9151679873466492,
      "learning_rate": 0.00017348464391163577,
      "loss": 3.7597,
      "step": 217080
    },
    {
      "epoch": 0.45227083333333334,
      "grad_norm": 0.7968862652778625,
      "learning_rate": 0.00017347490688453637,
      "loss": 3.8279,
      "step": 217090
    },
    {
      "epoch": 0.45229166666666665,
      "grad_norm": 0.6762734055519104,
      "learning_rate": 0.00017346516975603462,
      "loss": 3.861,
      "step": 217100
    },
    {
      "epoch": 0.4523125,
      "grad_norm": 0.7840186357498169,
      "learning_rate": 0.00017345543252617263,
      "loss": 3.8003,
      "step": 217110
    },
    {
      "epoch": 0.4523333333333333,
      "grad_norm": 0.8638504147529602,
      "learning_rate": 0.00017344569519499246,
      "loss": 3.7848,
      "step": 217120
    },
    {
      "epoch": 0.45235416666666667,
      "grad_norm": 0.9686731696128845,
      "learning_rate": 0.0001734359577625362,
      "loss": 4.0166,
      "step": 217130
    },
    {
      "epoch": 0.452375,
      "grad_norm": 0.8230546116828918,
      "learning_rate": 0.0001734262202288459,
      "loss": 3.6967,
      "step": 217140
    },
    {
      "epoch": 0.45239583333333333,
      "grad_norm": 0.7277012467384338,
      "learning_rate": 0.00017341648259396354,
      "loss": 3.7525,
      "step": 217150
    },
    {
      "epoch": 0.4524166666666667,
      "grad_norm": 0.7513730525970459,
      "learning_rate": 0.00017340674485793125,
      "loss": 3.9458,
      "step": 217160
    },
    {
      "epoch": 0.4524375,
      "grad_norm": 0.7277050614356995,
      "learning_rate": 0.00017339700702079114,
      "loss": 3.7639,
      "step": 217170
    },
    {
      "epoch": 0.45245833333333335,
      "grad_norm": 0.8039734363555908,
      "learning_rate": 0.00017338726908258512,
      "loss": 3.7979,
      "step": 217180
    },
    {
      "epoch": 0.45247916666666665,
      "grad_norm": 0.8736911416053772,
      "learning_rate": 0.00017337753104335545,
      "loss": 3.8823,
      "step": 217190
    },
    {
      "epoch": 0.4525,
      "grad_norm": 0.9038739204406738,
      "learning_rate": 0.0001733677929031441,
      "loss": 3.7761,
      "step": 217200
    },
    {
      "epoch": 0.4525208333333333,
      "grad_norm": 0.8169524073600769,
      "learning_rate": 0.0001733580546619931,
      "loss": 3.8413,
      "step": 217210
    },
    {
      "epoch": 0.4525416666666667,
      "grad_norm": 0.7553784251213074,
      "learning_rate": 0.0001733483163199445,
      "loss": 3.6409,
      "step": 217220
    },
    {
      "epoch": 0.4525625,
      "grad_norm": 0.7736367583274841,
      "learning_rate": 0.00017333857787704048,
      "loss": 3.7007,
      "step": 217230
    },
    {
      "epoch": 0.45258333333333334,
      "grad_norm": 1.2058753967285156,
      "learning_rate": 0.00017332883933332305,
      "loss": 3.7953,
      "step": 217240
    },
    {
      "epoch": 0.45260416666666664,
      "grad_norm": 0.8891177773475647,
      "learning_rate": 0.00017331910068883424,
      "loss": 3.7466,
      "step": 217250
    },
    {
      "epoch": 0.452625,
      "grad_norm": 0.9139989018440247,
      "learning_rate": 0.00017330936194361615,
      "loss": 3.8287,
      "step": 217260
    },
    {
      "epoch": 0.45264583333333336,
      "grad_norm": 0.8254039287567139,
      "learning_rate": 0.00017329962309771085,
      "loss": 3.8405,
      "step": 217270
    },
    {
      "epoch": 0.45266666666666666,
      "grad_norm": 0.7801703810691833,
      "learning_rate": 0.0001732898841511604,
      "loss": 3.8595,
      "step": 217280
    },
    {
      "epoch": 0.4526875,
      "grad_norm": 0.7287602424621582,
      "learning_rate": 0.00017328014510400688,
      "loss": 3.7072,
      "step": 217290
    },
    {
      "epoch": 0.4527083333333333,
      "grad_norm": 0.8303400874137878,
      "learning_rate": 0.0001732704059562923,
      "loss": 3.8769,
      "step": 217300
    },
    {
      "epoch": 0.4527291666666667,
      "grad_norm": 0.8478646874427795,
      "learning_rate": 0.00017326066670805883,
      "loss": 3.8144,
      "step": 217310
    },
    {
      "epoch": 0.45275,
      "grad_norm": 0.9436466097831726,
      "learning_rate": 0.00017325092735934848,
      "loss": 4.073,
      "step": 217320
    },
    {
      "epoch": 0.45277083333333334,
      "grad_norm": 0.8821792602539062,
      "learning_rate": 0.0001732411879102033,
      "loss": 3.8843,
      "step": 217330
    },
    {
      "epoch": 0.45279166666666665,
      "grad_norm": 0.8682423233985901,
      "learning_rate": 0.00017323144836066542,
      "loss": 3.9062,
      "step": 217340
    },
    {
      "epoch": 0.4528125,
      "grad_norm": 0.7122232913970947,
      "learning_rate": 0.00017322170871077682,
      "loss": 3.8224,
      "step": 217350
    },
    {
      "epoch": 0.4528333333333333,
      "grad_norm": 1.0047842264175415,
      "learning_rate": 0.00017321196896057968,
      "loss": 3.7963,
      "step": 217360
    },
    {
      "epoch": 0.45285416666666667,
      "grad_norm": 0.7178120017051697,
      "learning_rate": 0.00017320222911011606,
      "loss": 3.8311,
      "step": 217370
    },
    {
      "epoch": 0.452875,
      "grad_norm": 0.915178120136261,
      "learning_rate": 0.00017319248915942788,
      "loss": 3.6411,
      "step": 217380
    },
    {
      "epoch": 0.45289583333333333,
      "grad_norm": 1.0569053888320923,
      "learning_rate": 0.00017318274910855744,
      "loss": 3.676,
      "step": 217390
    },
    {
      "epoch": 0.4529166666666667,
      "grad_norm": 0.7061107158660889,
      "learning_rate": 0.00017317300895754666,
      "loss": 3.781,
      "step": 217400
    },
    {
      "epoch": 0.4529375,
      "grad_norm": 0.7996729612350464,
      "learning_rate": 0.00017316326870643763,
      "loss": 3.5753,
      "step": 217410
    },
    {
      "epoch": 0.45295833333333335,
      "grad_norm": 0.914371907711029,
      "learning_rate": 0.00017315352835527246,
      "loss": 3.7531,
      "step": 217420
    },
    {
      "epoch": 0.45297916666666665,
      "grad_norm": 0.7915447950363159,
      "learning_rate": 0.0001731437879040932,
      "loss": 3.8395,
      "step": 217430
    },
    {
      "epoch": 0.453,
      "grad_norm": 0.7286117672920227,
      "learning_rate": 0.000173134047352942,
      "loss": 3.8923,
      "step": 217440
    },
    {
      "epoch": 0.4530208333333333,
      "grad_norm": 0.8189336061477661,
      "learning_rate": 0.0001731243067018608,
      "loss": 3.7666,
      "step": 217450
    },
    {
      "epoch": 0.4530416666666667,
      "grad_norm": 0.970719039440155,
      "learning_rate": 0.0001731145659508918,
      "loss": 3.7933,
      "step": 217460
    },
    {
      "epoch": 0.4530625,
      "grad_norm": 1.146239995956421,
      "learning_rate": 0.00017310482510007698,
      "loss": 3.7833,
      "step": 217470
    },
    {
      "epoch": 0.45308333333333334,
      "grad_norm": 0.790720522403717,
      "learning_rate": 0.00017309508414945846,
      "loss": 3.5984,
      "step": 217480
    },
    {
      "epoch": 0.45310416666666664,
      "grad_norm": 0.6875238418579102,
      "learning_rate": 0.00017308534309907835,
      "loss": 3.6911,
      "step": 217490
    },
    {
      "epoch": 0.453125,
      "grad_norm": 0.7342221736907959,
      "learning_rate": 0.0001730756019489787,
      "loss": 3.7151,
      "step": 217500
    },
    {
      "epoch": 0.45314583333333336,
      "grad_norm": 0.908808171749115,
      "learning_rate": 0.00017306586069920155,
      "loss": 3.9267,
      "step": 217510
    },
    {
      "epoch": 0.45316666666666666,
      "grad_norm": 0.6588169932365417,
      "learning_rate": 0.00017305611934978902,
      "loss": 3.7507,
      "step": 217520
    },
    {
      "epoch": 0.4531875,
      "grad_norm": 0.796554446220398,
      "learning_rate": 0.00017304637790078325,
      "loss": 3.7557,
      "step": 217530
    },
    {
      "epoch": 0.4532083333333333,
      "grad_norm": 0.7809433341026306,
      "learning_rate": 0.0001730366363522262,
      "loss": 3.6249,
      "step": 217540
    },
    {
      "epoch": 0.4532291666666667,
      "grad_norm": 0.7606410384178162,
      "learning_rate": 0.00017302689470415994,
      "loss": 3.7079,
      "step": 217550
    },
    {
      "epoch": 0.45325,
      "grad_norm": 0.800999104976654,
      "learning_rate": 0.0001730171529566267,
      "loss": 3.7763,
      "step": 217560
    },
    {
      "epoch": 0.45327083333333335,
      "grad_norm": 0.8233857154846191,
      "learning_rate": 0.00017300741110966845,
      "loss": 3.8883,
      "step": 217570
    },
    {
      "epoch": 0.45329166666666665,
      "grad_norm": 0.902513861656189,
      "learning_rate": 0.00017299766916332724,
      "loss": 3.8106,
      "step": 217580
    },
    {
      "epoch": 0.4533125,
      "grad_norm": 0.7622156739234924,
      "learning_rate": 0.00017298792711764526,
      "loss": 3.7213,
      "step": 217590
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 0.8058487176895142,
      "learning_rate": 0.0001729781849726645,
      "loss": 3.82,
      "step": 217600
    },
    {
      "epoch": 0.45335416666666667,
      "grad_norm": 1.093421220779419,
      "learning_rate": 0.00017296844272842707,
      "loss": 3.7461,
      "step": 217610
    },
    {
      "epoch": 0.453375,
      "grad_norm": 0.9807572960853577,
      "learning_rate": 0.00017295870038497505,
      "loss": 3.6565,
      "step": 217620
    },
    {
      "epoch": 0.45339583333333333,
      "grad_norm": 0.7390802502632141,
      "learning_rate": 0.00017294895794235058,
      "loss": 3.7713,
      "step": 217630
    },
    {
      "epoch": 0.4534166666666667,
      "grad_norm": 0.8889816403388977,
      "learning_rate": 0.00017293921540059568,
      "loss": 3.6075,
      "step": 217640
    },
    {
      "epoch": 0.4534375,
      "grad_norm": 0.8057641386985779,
      "learning_rate": 0.00017292947275975243,
      "loss": 3.7768,
      "step": 217650
    },
    {
      "epoch": 0.45345833333333335,
      "grad_norm": 0.8617154955863953,
      "learning_rate": 0.00017291973001986295,
      "loss": 3.7657,
      "step": 217660
    },
    {
      "epoch": 0.45347916666666666,
      "grad_norm": 0.7076300382614136,
      "learning_rate": 0.0001729099871809693,
      "loss": 3.6084,
      "step": 217670
    },
    {
      "epoch": 0.4535,
      "grad_norm": 0.8649404644966125,
      "learning_rate": 0.00017290024424311356,
      "loss": 3.7795,
      "step": 217680
    },
    {
      "epoch": 0.4535208333333333,
      "grad_norm": 0.7291880249977112,
      "learning_rate": 0.00017289050120633786,
      "loss": 3.7355,
      "step": 217690
    },
    {
      "epoch": 0.4535416666666667,
      "grad_norm": 0.7097411751747131,
      "learning_rate": 0.00017288075807068425,
      "loss": 3.9413,
      "step": 217700
    },
    {
      "epoch": 0.4535625,
      "grad_norm": 0.7850999236106873,
      "learning_rate": 0.0001728710148361948,
      "loss": 3.885,
      "step": 217710
    },
    {
      "epoch": 0.45358333333333334,
      "grad_norm": 0.8612011671066284,
      "learning_rate": 0.00017286127150291164,
      "loss": 3.7781,
      "step": 217720
    },
    {
      "epoch": 0.45360416666666664,
      "grad_norm": 0.836765706539154,
      "learning_rate": 0.00017285152807087684,
      "loss": 3.6946,
      "step": 217730
    },
    {
      "epoch": 0.453625,
      "grad_norm": 0.7507131695747375,
      "learning_rate": 0.00017284178454013248,
      "loss": 3.7322,
      "step": 217740
    },
    {
      "epoch": 0.45364583333333336,
      "grad_norm": 0.8808727264404297,
      "learning_rate": 0.0001728320409107206,
      "loss": 3.697,
      "step": 217750
    },
    {
      "epoch": 0.45366666666666666,
      "grad_norm": 0.7235748171806335,
      "learning_rate": 0.0001728222971826834,
      "loss": 3.8741,
      "step": 217760
    },
    {
      "epoch": 0.4536875,
      "grad_norm": 0.7377535700798035,
      "learning_rate": 0.00017281255335606293,
      "loss": 3.8225,
      "step": 217770
    },
    {
      "epoch": 0.4537083333333333,
      "grad_norm": 0.7860040664672852,
      "learning_rate": 0.00017280280943090121,
      "loss": 3.8699,
      "step": 217780
    },
    {
      "epoch": 0.4537291666666667,
      "grad_norm": 0.8296602964401245,
      "learning_rate": 0.00017279306540724038,
      "loss": 3.7969,
      "step": 217790
    },
    {
      "epoch": 0.45375,
      "grad_norm": 1.2353572845458984,
      "learning_rate": 0.00017278332128512256,
      "loss": 3.7197,
      "step": 217800
    },
    {
      "epoch": 0.45377083333333335,
      "grad_norm": 0.8749423623085022,
      "learning_rate": 0.00017277357706458978,
      "loss": 3.7355,
      "step": 217810
    },
    {
      "epoch": 0.45379166666666665,
      "grad_norm": 0.8459696769714355,
      "learning_rate": 0.00017276383274568416,
      "loss": 3.818,
      "step": 217820
    },
    {
      "epoch": 0.4538125,
      "grad_norm": 0.6585549116134644,
      "learning_rate": 0.00017275408832844783,
      "loss": 3.8954,
      "step": 217830
    },
    {
      "epoch": 0.4538333333333333,
      "grad_norm": 0.8029689788818359,
      "learning_rate": 0.00017274434381292283,
      "loss": 3.819,
      "step": 217840
    },
    {
      "epoch": 0.45385416666666667,
      "grad_norm": 0.7736260890960693,
      "learning_rate": 0.00017273459919915128,
      "loss": 3.7047,
      "step": 217850
    },
    {
      "epoch": 0.453875,
      "grad_norm": 0.7886266112327576,
      "learning_rate": 0.0001727248544871752,
      "loss": 3.7844,
      "step": 217860
    },
    {
      "epoch": 0.45389583333333333,
      "grad_norm": 0.8095819354057312,
      "learning_rate": 0.00017271510967703684,
      "loss": 3.7487,
      "step": 217870
    },
    {
      "epoch": 0.4539166666666667,
      "grad_norm": 0.8887430429458618,
      "learning_rate": 0.0001727053647687781,
      "loss": 3.8255,
      "step": 217880
    },
    {
      "epoch": 0.4539375,
      "grad_norm": 0.7762162089347839,
      "learning_rate": 0.0001726956197624412,
      "loss": 3.592,
      "step": 217890
    },
    {
      "epoch": 0.45395833333333335,
      "grad_norm": 0.7066401839256287,
      "learning_rate": 0.00017268587465806825,
      "loss": 3.7478,
      "step": 217900
    },
    {
      "epoch": 0.45397916666666666,
      "grad_norm": 0.7805790305137634,
      "learning_rate": 0.00017267612945570128,
      "loss": 3.7471,
      "step": 217910
    },
    {
      "epoch": 0.454,
      "grad_norm": 0.7345669865608215,
      "learning_rate": 0.00017266638415538237,
      "loss": 3.8602,
      "step": 217920
    },
    {
      "epoch": 0.4540208333333333,
      "grad_norm": 1.0154682397842407,
      "learning_rate": 0.0001726566387571537,
      "loss": 3.82,
      "step": 217930
    },
    {
      "epoch": 0.4540416666666667,
      "grad_norm": 0.8125444650650024,
      "learning_rate": 0.0001726468932610573,
      "loss": 3.8172,
      "step": 217940
    },
    {
      "epoch": 0.4540625,
      "grad_norm": 0.8638689517974854,
      "learning_rate": 0.00017263714766713525,
      "loss": 3.8814,
      "step": 217950
    },
    {
      "epoch": 0.45408333333333334,
      "grad_norm": 0.7318537831306458,
      "learning_rate": 0.00017262740197542973,
      "loss": 3.8109,
      "step": 217960
    },
    {
      "epoch": 0.45410416666666664,
      "grad_norm": 0.7659697532653809,
      "learning_rate": 0.0001726176561859828,
      "loss": 3.602,
      "step": 217970
    },
    {
      "epoch": 0.454125,
      "grad_norm": 0.8679311275482178,
      "learning_rate": 0.00017260791029883652,
      "loss": 3.669,
      "step": 217980
    },
    {
      "epoch": 0.45414583333333336,
      "grad_norm": 0.7393779158592224,
      "learning_rate": 0.00017259816431403302,
      "loss": 3.5254,
      "step": 217990
    },
    {
      "epoch": 0.45416666666666666,
      "grad_norm": 0.8472098112106323,
      "learning_rate": 0.0001725884182316144,
      "loss": 3.7103,
      "step": 218000
    },
    {
      "epoch": 0.45416666666666666,
      "eval_loss": 4.148288726806641,
      "eval_runtime": 8.6925,
      "eval_samples_per_second": 1.15,
      "eval_steps_per_second": 0.345,
      "step": 218000
    },
    {
      "epoch": 0.4541875,
      "grad_norm": 0.7369346022605896,
      "learning_rate": 0.00017257867205162277,
      "loss": 3.7817,
      "step": 218010
    },
    {
      "epoch": 0.4542083333333333,
      "grad_norm": 0.7741173505783081,
      "learning_rate": 0.00017256892577410015,
      "loss": 4.1485,
      "step": 218020
    },
    {
      "epoch": 0.4542291666666667,
      "grad_norm": 0.8230578899383545,
      "learning_rate": 0.00017255917939908876,
      "loss": 3.7502,
      "step": 218030
    },
    {
      "epoch": 0.45425,
      "grad_norm": 0.6980988383293152,
      "learning_rate": 0.00017254943292663067,
      "loss": 3.746,
      "step": 218040
    },
    {
      "epoch": 0.45427083333333335,
      "grad_norm": 0.8670674562454224,
      "learning_rate": 0.00017253968635676787,
      "loss": 3.8522,
      "step": 218050
    },
    {
      "epoch": 0.45429166666666665,
      "grad_norm": 0.7881518602371216,
      "learning_rate": 0.0001725299396895426,
      "loss": 3.6499,
      "step": 218060
    },
    {
      "epoch": 0.4543125,
      "grad_norm": 0.7973877191543579,
      "learning_rate": 0.00017252019292499695,
      "loss": 3.6722,
      "step": 218070
    },
    {
      "epoch": 0.4543333333333333,
      "grad_norm": 0.7993258833885193,
      "learning_rate": 0.00017251044606317293,
      "loss": 3.8472,
      "step": 218080
    },
    {
      "epoch": 0.45435416666666667,
      "grad_norm": 0.7771761417388916,
      "learning_rate": 0.00017250069910411267,
      "loss": 3.7835,
      "step": 218090
    },
    {
      "epoch": 0.454375,
      "grad_norm": 0.8837060332298279,
      "learning_rate": 0.00017249095204785835,
      "loss": 3.6678,
      "step": 218100
    },
    {
      "epoch": 0.45439583333333333,
      "grad_norm": 0.7574945688247681,
      "learning_rate": 0.00017248120489445198,
      "loss": 3.8832,
      "step": 218110
    },
    {
      "epoch": 0.4544166666666667,
      "grad_norm": 0.7225365042686462,
      "learning_rate": 0.00017247145764393574,
      "loss": 3.8841,
      "step": 218120
    },
    {
      "epoch": 0.4544375,
      "grad_norm": 0.8323838710784912,
      "learning_rate": 0.00017246171029635168,
      "loss": 3.8165,
      "step": 218130
    },
    {
      "epoch": 0.45445833333333335,
      "grad_norm": 0.8078937530517578,
      "learning_rate": 0.00017245196285174192,
      "loss": 3.7712,
      "step": 218140
    },
    {
      "epoch": 0.45447916666666666,
      "grad_norm": 1.1000299453735352,
      "learning_rate": 0.00017244221531014856,
      "loss": 3.8606,
      "step": 218150
    },
    {
      "epoch": 0.4545,
      "grad_norm": 0.6988959312438965,
      "learning_rate": 0.0001724324676716137,
      "loss": 3.7117,
      "step": 218160
    },
    {
      "epoch": 0.4545208333333333,
      "grad_norm": 0.8009812831878662,
      "learning_rate": 0.0001724227199361795,
      "loss": 3.7877,
      "step": 218170
    },
    {
      "epoch": 0.4545416666666667,
      "grad_norm": 0.8037193417549133,
      "learning_rate": 0.000172412972103888,
      "loss": 3.9145,
      "step": 218180
    },
    {
      "epoch": 0.4545625,
      "grad_norm": 0.9699211716651917,
      "learning_rate": 0.00017240322417478134,
      "loss": 3.7966,
      "step": 218190
    },
    {
      "epoch": 0.45458333333333334,
      "grad_norm": 0.7788385152816772,
      "learning_rate": 0.0001723934761489016,
      "loss": 3.8502,
      "step": 218200
    },
    {
      "epoch": 0.45460416666666664,
      "grad_norm": 0.7822967767715454,
      "learning_rate": 0.00017238372802629097,
      "loss": 3.7608,
      "step": 218210
    },
    {
      "epoch": 0.454625,
      "grad_norm": 0.8308568596839905,
      "learning_rate": 0.00017237397980699137,
      "loss": 3.7902,
      "step": 218220
    },
    {
      "epoch": 0.45464583333333336,
      "grad_norm": 0.7792600989341736,
      "learning_rate": 0.00017236423149104516,
      "loss": 3.8323,
      "step": 218230
    },
    {
      "epoch": 0.45466666666666666,
      "grad_norm": 0.7557525038719177,
      "learning_rate": 0.00017235448307849428,
      "loss": 3.855,
      "step": 218240
    },
    {
      "epoch": 0.4546875,
      "grad_norm": 0.8274843692779541,
      "learning_rate": 0.00017234473456938083,
      "loss": 3.7552,
      "step": 218250
    },
    {
      "epoch": 0.4547083333333333,
      "grad_norm": 1.0716373920440674,
      "learning_rate": 0.00017233498596374704,
      "loss": 3.879,
      "step": 218260
    },
    {
      "epoch": 0.4547291666666667,
      "grad_norm": 0.7757552266120911,
      "learning_rate": 0.00017232523726163493,
      "loss": 3.8846,
      "step": 218270
    },
    {
      "epoch": 0.45475,
      "grad_norm": 1.0746111869812012,
      "learning_rate": 0.00017231548846308664,
      "loss": 3.8334,
      "step": 218280
    },
    {
      "epoch": 0.45477083333333335,
      "grad_norm": 0.8203228712081909,
      "learning_rate": 0.00017230573956814426,
      "loss": 3.6614,
      "step": 218290
    },
    {
      "epoch": 0.45479166666666665,
      "grad_norm": 0.7722915410995483,
      "learning_rate": 0.00017229599057684992,
      "loss": 3.7284,
      "step": 218300
    },
    {
      "epoch": 0.4548125,
      "grad_norm": 0.8024721741676331,
      "learning_rate": 0.0001722862414892457,
      "loss": 3.8387,
      "step": 218310
    },
    {
      "epoch": 0.4548333333333333,
      "grad_norm": 0.7200015187263489,
      "learning_rate": 0.00017227649230537378,
      "loss": 3.7109,
      "step": 218320
    },
    {
      "epoch": 0.45485416666666667,
      "grad_norm": 0.8475274443626404,
      "learning_rate": 0.0001722667430252762,
      "loss": 3.8353,
      "step": 218330
    },
    {
      "epoch": 0.454875,
      "grad_norm": 0.7423941493034363,
      "learning_rate": 0.00017225699364899511,
      "loss": 3.8459,
      "step": 218340
    },
    {
      "epoch": 0.45489583333333333,
      "grad_norm": 0.8286141157150269,
      "learning_rate": 0.00017224724417657264,
      "loss": 3.7465,
      "step": 218350
    },
    {
      "epoch": 0.4549166666666667,
      "grad_norm": 0.8147937059402466,
      "learning_rate": 0.00017223749460805086,
      "loss": 3.584,
      "step": 218360
    },
    {
      "epoch": 0.4549375,
      "grad_norm": 0.8389596343040466,
      "learning_rate": 0.0001722277449434719,
      "loss": 3.7332,
      "step": 218370
    },
    {
      "epoch": 0.45495833333333335,
      "grad_norm": 0.7822895646095276,
      "learning_rate": 0.0001722179951828779,
      "loss": 3.6459,
      "step": 218380
    },
    {
      "epoch": 0.45497916666666666,
      "grad_norm": 0.761294960975647,
      "learning_rate": 0.00017220824532631092,
      "loss": 3.7419,
      "step": 218390
    },
    {
      "epoch": 0.455,
      "grad_norm": 0.8572676181793213,
      "learning_rate": 0.00017219849537381316,
      "loss": 3.8037,
      "step": 218400
    },
    {
      "epoch": 0.4550208333333333,
      "grad_norm": 0.8528864979743958,
      "learning_rate": 0.00017218874532542666,
      "loss": 3.7396,
      "step": 218410
    },
    {
      "epoch": 0.4550416666666667,
      "grad_norm": 0.8909938931465149,
      "learning_rate": 0.00017217899518119355,
      "loss": 3.8645,
      "step": 218420
    },
    {
      "epoch": 0.4550625,
      "grad_norm": 0.9837232232093811,
      "learning_rate": 0.00017216924494115602,
      "loss": 3.9614,
      "step": 218430
    },
    {
      "epoch": 0.45508333333333334,
      "grad_norm": 0.7781339883804321,
      "learning_rate": 0.00017215949460535606,
      "loss": 3.8337,
      "step": 218440
    },
    {
      "epoch": 0.45510416666666664,
      "grad_norm": 1.0524715185165405,
      "learning_rate": 0.00017214974417383586,
      "loss": 3.7272,
      "step": 218450
    },
    {
      "epoch": 0.455125,
      "grad_norm": 0.8629060387611389,
      "learning_rate": 0.00017213999364663757,
      "loss": 3.7718,
      "step": 218460
    },
    {
      "epoch": 0.45514583333333336,
      "grad_norm": 0.732679009437561,
      "learning_rate": 0.00017213024302380325,
      "loss": 3.8257,
      "step": 218470
    },
    {
      "epoch": 0.45516666666666666,
      "grad_norm": 0.7513032555580139,
      "learning_rate": 0.00017212049230537504,
      "loss": 3.7588,
      "step": 218480
    },
    {
      "epoch": 0.4551875,
      "grad_norm": 0.6877059936523438,
      "learning_rate": 0.00017211074149139506,
      "loss": 3.8513,
      "step": 218490
    },
    {
      "epoch": 0.4552083333333333,
      "grad_norm": 0.8337559103965759,
      "learning_rate": 0.0001721009905819054,
      "loss": 3.8034,
      "step": 218500
    },
    {
      "epoch": 0.4552291666666667,
      "grad_norm": 0.8632776141166687,
      "learning_rate": 0.00017209123957694826,
      "loss": 3.9006,
      "step": 218510
    },
    {
      "epoch": 0.45525,
      "grad_norm": 0.7264158725738525,
      "learning_rate": 0.00017208148847656568,
      "loss": 3.8674,
      "step": 218520
    },
    {
      "epoch": 0.45527083333333335,
      "grad_norm": 0.8898013830184937,
      "learning_rate": 0.00017207173728079985,
      "loss": 3.8356,
      "step": 218530
    },
    {
      "epoch": 0.45529166666666665,
      "grad_norm": 0.7565621733665466,
      "learning_rate": 0.0001720619859896928,
      "loss": 3.7024,
      "step": 218540
    },
    {
      "epoch": 0.4553125,
      "grad_norm": 0.7746410369873047,
      "learning_rate": 0.0001720522346032867,
      "loss": 3.8094,
      "step": 218550
    },
    {
      "epoch": 0.4553333333333333,
      "grad_norm": 0.7673349380493164,
      "learning_rate": 0.0001720424831216237,
      "loss": 3.8878,
      "step": 218560
    },
    {
      "epoch": 0.45535416666666667,
      "grad_norm": 0.78758305311203,
      "learning_rate": 0.00017203273154474595,
      "loss": 3.7225,
      "step": 218570
    },
    {
      "epoch": 0.455375,
      "grad_norm": 0.7935782670974731,
      "learning_rate": 0.00017202297987269546,
      "loss": 3.8717,
      "step": 218580
    },
    {
      "epoch": 0.45539583333333333,
      "grad_norm": 0.7014261484146118,
      "learning_rate": 0.0001720132281055144,
      "loss": 3.6653,
      "step": 218590
    },
    {
      "epoch": 0.4554166666666667,
      "grad_norm": 0.7789018750190735,
      "learning_rate": 0.00017200347624324495,
      "loss": 3.7785,
      "step": 218600
    },
    {
      "epoch": 0.4554375,
      "grad_norm": 0.818281352519989,
      "learning_rate": 0.00017199372428592914,
      "loss": 3.7946,
      "step": 218610
    },
    {
      "epoch": 0.45545833333333335,
      "grad_norm": 0.8071275353431702,
      "learning_rate": 0.00017198397223360917,
      "loss": 3.7453,
      "step": 218620
    },
    {
      "epoch": 0.45547916666666666,
      "grad_norm": 0.813357949256897,
      "learning_rate": 0.00017197422008632718,
      "loss": 3.7192,
      "step": 218630
    },
    {
      "epoch": 0.4555,
      "grad_norm": 1.270334243774414,
      "learning_rate": 0.00017196446784412524,
      "loss": 3.8421,
      "step": 218640
    },
    {
      "epoch": 0.4555208333333333,
      "grad_norm": 0.7270114421844482,
      "learning_rate": 0.00017195471550704547,
      "loss": 3.9043,
      "step": 218650
    },
    {
      "epoch": 0.4555416666666667,
      "grad_norm": 1.1128486394882202,
      "learning_rate": 0.00017194496307513,
      "loss": 3.8504,
      "step": 218660
    },
    {
      "epoch": 0.4555625,
      "grad_norm": 0.7624912261962891,
      "learning_rate": 0.00017193521054842102,
      "loss": 3.6749,
      "step": 218670
    },
    {
      "epoch": 0.45558333333333334,
      "grad_norm": 1.2019790410995483,
      "learning_rate": 0.00017192545792696058,
      "loss": 3.8611,
      "step": 218680
    },
    {
      "epoch": 0.45560416666666664,
      "grad_norm": 0.8258681893348694,
      "learning_rate": 0.00017191570521079086,
      "loss": 3.5991,
      "step": 218690
    },
    {
      "epoch": 0.455625,
      "grad_norm": 0.8012904524803162,
      "learning_rate": 0.00017190595239995396,
      "loss": 3.7732,
      "step": 218700
    },
    {
      "epoch": 0.45564583333333336,
      "grad_norm": 0.8173849582672119,
      "learning_rate": 0.00017189619949449207,
      "loss": 3.8633,
      "step": 218710
    },
    {
      "epoch": 0.45566666666666666,
      "grad_norm": 0.8810386657714844,
      "learning_rate": 0.00017188644649444718,
      "loss": 3.8316,
      "step": 218720
    },
    {
      "epoch": 0.4556875,
      "grad_norm": 0.8981626033782959,
      "learning_rate": 0.00017187669339986154,
      "loss": 3.6965,
      "step": 218730
    },
    {
      "epoch": 0.4557083333333333,
      "grad_norm": 0.7730531096458435,
      "learning_rate": 0.00017186694021077727,
      "loss": 3.6998,
      "step": 218740
    },
    {
      "epoch": 0.4557291666666667,
      "grad_norm": 0.762697696685791,
      "learning_rate": 0.00017185718692723644,
      "loss": 3.7989,
      "step": 218750
    },
    {
      "epoch": 0.45575,
      "grad_norm": 0.7460417151451111,
      "learning_rate": 0.00017184743354928123,
      "loss": 3.7349,
      "step": 218760
    },
    {
      "epoch": 0.45577083333333335,
      "grad_norm": 0.7717882394790649,
      "learning_rate": 0.00017183768007695378,
      "loss": 3.8515,
      "step": 218770
    },
    {
      "epoch": 0.45579166666666665,
      "grad_norm": 0.7283890247344971,
      "learning_rate": 0.00017182792651029613,
      "loss": 3.6093,
      "step": 218780
    },
    {
      "epoch": 0.4558125,
      "grad_norm": 0.8800604343414307,
      "learning_rate": 0.0001718181728493505,
      "loss": 3.9141,
      "step": 218790
    },
    {
      "epoch": 0.4558333333333333,
      "grad_norm": 0.7821611762046814,
      "learning_rate": 0.00017180841909415905,
      "loss": 3.6967,
      "step": 218800
    },
    {
      "epoch": 0.45585416666666667,
      "grad_norm": 0.7295961976051331,
      "learning_rate": 0.00017179866524476381,
      "loss": 3.8867,
      "step": 218810
    },
    {
      "epoch": 0.455875,
      "grad_norm": 0.7289102077484131,
      "learning_rate": 0.00017178891130120697,
      "loss": 3.7792,
      "step": 218820
    },
    {
      "epoch": 0.45589583333333333,
      "grad_norm": 0.6983069181442261,
      "learning_rate": 0.00017177915726353067,
      "loss": 3.9154,
      "step": 218830
    },
    {
      "epoch": 0.4559166666666667,
      "grad_norm": 0.7597332000732422,
      "learning_rate": 0.00017176940313177704,
      "loss": 3.7095,
      "step": 218840
    },
    {
      "epoch": 0.4559375,
      "grad_norm": 0.7909107804298401,
      "learning_rate": 0.0001717596489059882,
      "loss": 3.6148,
      "step": 218850
    },
    {
      "epoch": 0.45595833333333335,
      "grad_norm": 0.7810595035552979,
      "learning_rate": 0.00017174989458620626,
      "loss": 3.7516,
      "step": 218860
    },
    {
      "epoch": 0.45597916666666666,
      "grad_norm": 0.7618619203567505,
      "learning_rate": 0.0001717401401724734,
      "loss": 3.7557,
      "step": 218870
    },
    {
      "epoch": 0.456,
      "grad_norm": 0.8564801216125488,
      "learning_rate": 0.00017173038566483176,
      "loss": 3.7193,
      "step": 218880
    },
    {
      "epoch": 0.4560208333333333,
      "grad_norm": 0.7154435515403748,
      "learning_rate": 0.00017172063106332347,
      "loss": 3.704,
      "step": 218890
    },
    {
      "epoch": 0.4560416666666667,
      "grad_norm": 0.7948931455612183,
      "learning_rate": 0.0001717108763679906,
      "loss": 3.667,
      "step": 218900
    },
    {
      "epoch": 0.4560625,
      "grad_norm": 0.7961582541465759,
      "learning_rate": 0.0001717011215788754,
      "loss": 3.7665,
      "step": 218910
    },
    {
      "epoch": 0.45608333333333334,
      "grad_norm": 0.9010810256004333,
      "learning_rate": 0.0001716913666960199,
      "loss": 3.7817,
      "step": 218920
    },
    {
      "epoch": 0.45610416666666664,
      "grad_norm": 0.7524495124816895,
      "learning_rate": 0.00017168161171946626,
      "loss": 3.6196,
      "step": 218930
    },
    {
      "epoch": 0.456125,
      "grad_norm": 0.7880049347877502,
      "learning_rate": 0.0001716718566492567,
      "loss": 3.7558,
      "step": 218940
    },
    {
      "epoch": 0.4561458333333333,
      "grad_norm": 0.8277205228805542,
      "learning_rate": 0.00017166210148543323,
      "loss": 3.7202,
      "step": 218950
    },
    {
      "epoch": 0.45616666666666666,
      "grad_norm": 0.9361151456832886,
      "learning_rate": 0.00017165234622803808,
      "loss": 3.6774,
      "step": 218960
    },
    {
      "epoch": 0.4561875,
      "grad_norm": 0.9162286520004272,
      "learning_rate": 0.0001716425908771134,
      "loss": 3.8115,
      "step": 218970
    },
    {
      "epoch": 0.4562083333333333,
      "grad_norm": 0.6665968894958496,
      "learning_rate": 0.0001716328354327013,
      "loss": 3.8328,
      "step": 218980
    },
    {
      "epoch": 0.4562291666666667,
      "grad_norm": 0.8023574948310852,
      "learning_rate": 0.00017162307989484384,
      "loss": 3.7981,
      "step": 218990
    },
    {
      "epoch": 0.45625,
      "grad_norm": 0.8268207311630249,
      "learning_rate": 0.0001716133242635833,
      "loss": 3.7573,
      "step": 219000
    },
    {
      "epoch": 0.45625,
      "eval_loss": 4.15047550201416,
      "eval_runtime": 8.8732,
      "eval_samples_per_second": 1.127,
      "eval_steps_per_second": 0.338,
      "step": 219000
    },
    {
      "epoch": 0.45627083333333335,
      "grad_norm": 0.751360297203064,
      "learning_rate": 0.00017160356853896172,
      "loss": 3.7845,
      "step": 219010
    },
    {
      "epoch": 0.45629166666666665,
      "grad_norm": 0.8720105290412903,
      "learning_rate": 0.0001715938127210213,
      "loss": 3.9415,
      "step": 219020
    },
    {
      "epoch": 0.4563125,
      "grad_norm": 0.7486757040023804,
      "learning_rate": 0.00017158405680980416,
      "loss": 3.9959,
      "step": 219030
    },
    {
      "epoch": 0.4563333333333333,
      "grad_norm": 0.8906260132789612,
      "learning_rate": 0.00017157430080535244,
      "loss": 3.9921,
      "step": 219040
    },
    {
      "epoch": 0.45635416666666667,
      "grad_norm": 0.757412850856781,
      "learning_rate": 0.00017156454470770825,
      "loss": 3.8292,
      "step": 219050
    },
    {
      "epoch": 0.456375,
      "grad_norm": 0.8478199243545532,
      "learning_rate": 0.00017155478851691377,
      "loss": 3.6089,
      "step": 219060
    },
    {
      "epoch": 0.45639583333333333,
      "grad_norm": 0.6786128282546997,
      "learning_rate": 0.00017154503223301113,
      "loss": 3.8325,
      "step": 219070
    },
    {
      "epoch": 0.4564166666666667,
      "grad_norm": 0.9046443104743958,
      "learning_rate": 0.00017153527585604252,
      "loss": 3.8334,
      "step": 219080
    },
    {
      "epoch": 0.4564375,
      "grad_norm": 0.7578355073928833,
      "learning_rate": 0.00017152551938605,
      "loss": 3.8558,
      "step": 219090
    },
    {
      "epoch": 0.45645833333333335,
      "grad_norm": 0.8471924066543579,
      "learning_rate": 0.00017151576282307574,
      "loss": 3.8092,
      "step": 219100
    },
    {
      "epoch": 0.45647916666666666,
      "grad_norm": 0.779146671295166,
      "learning_rate": 0.00017150600616716198,
      "loss": 3.8223,
      "step": 219110
    },
    {
      "epoch": 0.4565,
      "grad_norm": 0.8328258991241455,
      "learning_rate": 0.0001714962494183507,
      "loss": 3.7924,
      "step": 219120
    },
    {
      "epoch": 0.4565208333333333,
      "grad_norm": 0.8565951585769653,
      "learning_rate": 0.00017148649257668416,
      "loss": 3.6469,
      "step": 219130
    },
    {
      "epoch": 0.4565416666666667,
      "grad_norm": 0.8038803339004517,
      "learning_rate": 0.00017147673564220454,
      "loss": 3.9771,
      "step": 219140
    },
    {
      "epoch": 0.4565625,
      "grad_norm": 0.8147815465927124,
      "learning_rate": 0.00017146697861495386,
      "loss": 3.7996,
      "step": 219150
    },
    {
      "epoch": 0.45658333333333334,
      "grad_norm": 2.5945873260498047,
      "learning_rate": 0.00017145722149497432,
      "loss": 3.7237,
      "step": 219160
    },
    {
      "epoch": 0.45660416666666664,
      "grad_norm": 0.6684133410453796,
      "learning_rate": 0.0001714474642823081,
      "loss": 3.9184,
      "step": 219170
    },
    {
      "epoch": 0.456625,
      "grad_norm": 0.8181803822517395,
      "learning_rate": 0.00017143770697699732,
      "loss": 4.037,
      "step": 219180
    },
    {
      "epoch": 0.4566458333333333,
      "grad_norm": 0.9839320778846741,
      "learning_rate": 0.00017142794957908413,
      "loss": 3.8841,
      "step": 219190
    },
    {
      "epoch": 0.45666666666666667,
      "grad_norm": 0.897142767906189,
      "learning_rate": 0.0001714181920886107,
      "loss": 3.7887,
      "step": 219200
    },
    {
      "epoch": 0.4566875,
      "grad_norm": 0.8115758299827576,
      "learning_rate": 0.00017140843450561913,
      "loss": 3.7843,
      "step": 219210
    },
    {
      "epoch": 0.4567083333333333,
      "grad_norm": 0.9418210387229919,
      "learning_rate": 0.0001713986768301516,
      "loss": 3.6889,
      "step": 219220
    },
    {
      "epoch": 0.4567291666666667,
      "grad_norm": 0.8847978711128235,
      "learning_rate": 0.00017138891906225026,
      "loss": 3.7589,
      "step": 219230
    },
    {
      "epoch": 0.45675,
      "grad_norm": 0.7648297548294067,
      "learning_rate": 0.00017137916120195723,
      "loss": 3.859,
      "step": 219240
    },
    {
      "epoch": 0.45677083333333335,
      "grad_norm": 1.185360312461853,
      "learning_rate": 0.00017136940324931474,
      "loss": 3.6324,
      "step": 219250
    },
    {
      "epoch": 0.45679166666666665,
      "grad_norm": 0.9159495234489441,
      "learning_rate": 0.00017135964520436487,
      "loss": 3.8848,
      "step": 219260
    },
    {
      "epoch": 0.4568125,
      "grad_norm": 2.5212371349334717,
      "learning_rate": 0.00017134988706714977,
      "loss": 3.8148,
      "step": 219270
    },
    {
      "epoch": 0.4568333333333333,
      "grad_norm": 0.7687273025512695,
      "learning_rate": 0.00017134012883771163,
      "loss": 3.8338,
      "step": 219280
    },
    {
      "epoch": 0.4568541666666667,
      "grad_norm": 1.0452102422714233,
      "learning_rate": 0.00017133037051609255,
      "loss": 3.7855,
      "step": 219290
    },
    {
      "epoch": 0.456875,
      "grad_norm": 0.7641792893409729,
      "learning_rate": 0.00017132061210233475,
      "loss": 3.7807,
      "step": 219300
    },
    {
      "epoch": 0.45689583333333333,
      "grad_norm": 0.8689104318618774,
      "learning_rate": 0.0001713108535964803,
      "loss": 3.7879,
      "step": 219310
    },
    {
      "epoch": 0.4569166666666667,
      "grad_norm": 0.7557772397994995,
      "learning_rate": 0.00017130109499857138,
      "loss": 3.7653,
      "step": 219320
    },
    {
      "epoch": 0.4569375,
      "grad_norm": 0.9439741373062134,
      "learning_rate": 0.00017129133630865024,
      "loss": 3.7402,
      "step": 219330
    },
    {
      "epoch": 0.45695833333333336,
      "grad_norm": 0.8176093697547913,
      "learning_rate": 0.00017128157752675893,
      "loss": 3.6747,
      "step": 219340
    },
    {
      "epoch": 0.45697916666666666,
      "grad_norm": 0.9321174621582031,
      "learning_rate": 0.00017127181865293962,
      "loss": 3.7362,
      "step": 219350
    },
    {
      "epoch": 0.457,
      "grad_norm": 1.0569850206375122,
      "learning_rate": 0.00017126205968723447,
      "loss": 3.7758,
      "step": 219360
    },
    {
      "epoch": 0.4570208333333333,
      "grad_norm": 0.7713190913200378,
      "learning_rate": 0.00017125230062968563,
      "loss": 3.7678,
      "step": 219370
    },
    {
      "epoch": 0.4570416666666667,
      "grad_norm": 0.9762965440750122,
      "learning_rate": 0.00017124254148033526,
      "loss": 3.8074,
      "step": 219380
    },
    {
      "epoch": 0.4570625,
      "grad_norm": 0.9658845067024231,
      "learning_rate": 0.00017123278223922555,
      "loss": 3.7759,
      "step": 219390
    },
    {
      "epoch": 0.45708333333333334,
      "grad_norm": 0.8500241041183472,
      "learning_rate": 0.00017122302290639862,
      "loss": 3.7501,
      "step": 219400
    },
    {
      "epoch": 0.45710416666666664,
      "grad_norm": 0.7608730792999268,
      "learning_rate": 0.0001712132634818966,
      "loss": 3.8319,
      "step": 219410
    },
    {
      "epoch": 0.457125,
      "grad_norm": 0.927487850189209,
      "learning_rate": 0.00017120350396576168,
      "loss": 3.9141,
      "step": 219420
    },
    {
      "epoch": 0.4571458333333333,
      "grad_norm": 0.8771998286247253,
      "learning_rate": 0.00017119374435803605,
      "loss": 3.5914,
      "step": 219430
    },
    {
      "epoch": 0.45716666666666667,
      "grad_norm": 0.9081494808197021,
      "learning_rate": 0.00017118398465876183,
      "loss": 3.9672,
      "step": 219440
    },
    {
      "epoch": 0.4571875,
      "grad_norm": 0.7478479146957397,
      "learning_rate": 0.00017117422486798115,
      "loss": 3.5222,
      "step": 219450
    },
    {
      "epoch": 0.4572083333333333,
      "grad_norm": 0.9104452133178711,
      "learning_rate": 0.00017116446498573618,
      "loss": 3.7999,
      "step": 219460
    },
    {
      "epoch": 0.4572291666666667,
      "grad_norm": 0.7853668332099915,
      "learning_rate": 0.0001711547050120692,
      "loss": 3.7357,
      "step": 219470
    },
    {
      "epoch": 0.45725,
      "grad_norm": 0.7233616709709167,
      "learning_rate": 0.0001711449449470222,
      "loss": 3.7243,
      "step": 219480
    },
    {
      "epoch": 0.45727083333333335,
      "grad_norm": 1.1575287580490112,
      "learning_rate": 0.00017113518479063738,
      "loss": 3.765,
      "step": 219490
    },
    {
      "epoch": 0.45729166666666665,
      "grad_norm": 0.742274284362793,
      "learning_rate": 0.00017112542454295697,
      "loss": 3.608,
      "step": 219500
    },
    {
      "epoch": 0.4573125,
      "grad_norm": 0.8922272324562073,
      "learning_rate": 0.00017111566420402308,
      "loss": 3.7218,
      "step": 219510
    },
    {
      "epoch": 0.4573333333333333,
      "grad_norm": 0.8301978707313538,
      "learning_rate": 0.00017110590377387785,
      "loss": 3.774,
      "step": 219520
    },
    {
      "epoch": 0.4573541666666667,
      "grad_norm": 0.8381142020225525,
      "learning_rate": 0.00017109614325256351,
      "loss": 3.8639,
      "step": 219530
    },
    {
      "epoch": 0.457375,
      "grad_norm": 0.9717937111854553,
      "learning_rate": 0.00017108638264012218,
      "loss": 3.7494,
      "step": 219540
    },
    {
      "epoch": 0.45739583333333333,
      "grad_norm": 0.8942884802818298,
      "learning_rate": 0.00017107662193659601,
      "loss": 3.6762,
      "step": 219550
    },
    {
      "epoch": 0.4574166666666667,
      "grad_norm": 0.8162727952003479,
      "learning_rate": 0.0001710668611420272,
      "loss": 3.7071,
      "step": 219560
    },
    {
      "epoch": 0.4574375,
      "grad_norm": 0.7827759385108948,
      "learning_rate": 0.00017105710025645785,
      "loss": 3.5898,
      "step": 219570
    },
    {
      "epoch": 0.45745833333333336,
      "grad_norm": 0.8990097045898438,
      "learning_rate": 0.00017104733927993015,
      "loss": 3.7416,
      "step": 219580
    },
    {
      "epoch": 0.45747916666666666,
      "grad_norm": 1.0860484838485718,
      "learning_rate": 0.00017103757821248635,
      "loss": 3.8464,
      "step": 219590
    },
    {
      "epoch": 0.4575,
      "grad_norm": 0.7419610619544983,
      "learning_rate": 0.00017102781705416846,
      "loss": 3.7224,
      "step": 219600
    },
    {
      "epoch": 0.4575208333333333,
      "grad_norm": 0.8776785135269165,
      "learning_rate": 0.0001710180558050188,
      "loss": 3.8233,
      "step": 219610
    },
    {
      "epoch": 0.4575416666666667,
      "grad_norm": 1.0578442811965942,
      "learning_rate": 0.00017100829446507938,
      "loss": 3.7637,
      "step": 219620
    },
    {
      "epoch": 0.4575625,
      "grad_norm": 0.9930617809295654,
      "learning_rate": 0.00017099853303439248,
      "loss": 3.7528,
      "step": 219630
    },
    {
      "epoch": 0.45758333333333334,
      "grad_norm": 0.7591001987457275,
      "learning_rate": 0.00017098877151300025,
      "loss": 3.7594,
      "step": 219640
    },
    {
      "epoch": 0.45760416666666665,
      "grad_norm": 0.82375168800354,
      "learning_rate": 0.0001709790099009448,
      "loss": 3.6985,
      "step": 219650
    },
    {
      "epoch": 0.457625,
      "grad_norm": 0.7359263300895691,
      "learning_rate": 0.00017096924819826832,
      "loss": 3.741,
      "step": 219660
    },
    {
      "epoch": 0.4576458333333333,
      "grad_norm": 1.1539673805236816,
      "learning_rate": 0.00017095948640501304,
      "loss": 3.8041,
      "step": 219670
    },
    {
      "epoch": 0.45766666666666667,
      "grad_norm": 0.8553886413574219,
      "learning_rate": 0.00017094972452122106,
      "loss": 3.9377,
      "step": 219680
    },
    {
      "epoch": 0.4576875,
      "grad_norm": 0.8701058030128479,
      "learning_rate": 0.0001709399625469345,
      "loss": 3.8447,
      "step": 219690
    },
    {
      "epoch": 0.45770833333333333,
      "grad_norm": 0.7315616011619568,
      "learning_rate": 0.00017093020048219567,
      "loss": 3.9413,
      "step": 219700
    },
    {
      "epoch": 0.4577291666666667,
      "grad_norm": 0.899935781955719,
      "learning_rate": 0.0001709204383270466,
      "loss": 3.8014,
      "step": 219710
    },
    {
      "epoch": 0.45775,
      "grad_norm": 1.2129939794540405,
      "learning_rate": 0.00017091067608152958,
      "loss": 3.6977,
      "step": 219720
    },
    {
      "epoch": 0.45777083333333335,
      "grad_norm": 0.7983981370925903,
      "learning_rate": 0.00017090091374568665,
      "loss": 3.6479,
      "step": 219730
    },
    {
      "epoch": 0.45779166666666665,
      "grad_norm": 0.7602488994598389,
      "learning_rate": 0.0001708911513195601,
      "loss": 3.6011,
      "step": 219740
    },
    {
      "epoch": 0.4578125,
      "grad_norm": 1.0645568370819092,
      "learning_rate": 0.00017088138880319199,
      "loss": 3.7031,
      "step": 219750
    },
    {
      "epoch": 0.4578333333333333,
      "grad_norm": 0.9460079669952393,
      "learning_rate": 0.00017087162619662462,
      "loss": 3.8679,
      "step": 219760
    },
    {
      "epoch": 0.4578541666666667,
      "grad_norm": 0.8927690982818604,
      "learning_rate": 0.00017086186349990002,
      "loss": 3.6889,
      "step": 219770
    },
    {
      "epoch": 0.457875,
      "grad_norm": 0.8712805509567261,
      "learning_rate": 0.0001708521007130605,
      "loss": 3.783,
      "step": 219780
    },
    {
      "epoch": 0.45789583333333334,
      "grad_norm": 0.7301400899887085,
      "learning_rate": 0.00017084233783614807,
      "loss": 3.7996,
      "step": 219790
    },
    {
      "epoch": 0.4579166666666667,
      "grad_norm": 1.1122722625732422,
      "learning_rate": 0.00017083257486920505,
      "loss": 3.7741,
      "step": 219800
    },
    {
      "epoch": 0.4579375,
      "grad_norm": 0.8793350458145142,
      "learning_rate": 0.00017082281181227354,
      "loss": 3.8149,
      "step": 219810
    },
    {
      "epoch": 0.45795833333333336,
      "grad_norm": 0.7474536299705505,
      "learning_rate": 0.00017081304866539568,
      "loss": 3.7091,
      "step": 219820
    },
    {
      "epoch": 0.45797916666666666,
      "grad_norm": 0.7472434639930725,
      "learning_rate": 0.0001708032854286137,
      "loss": 3.8479,
      "step": 219830
    },
    {
      "epoch": 0.458,
      "grad_norm": 0.7660989761352539,
      "learning_rate": 0.00017079352210196987,
      "loss": 3.7604,
      "step": 219840
    },
    {
      "epoch": 0.4580208333333333,
      "grad_norm": 0.7624331712722778,
      "learning_rate": 0.00017078375868550616,
      "loss": 3.7714,
      "step": 219850
    },
    {
      "epoch": 0.4580416666666667,
      "grad_norm": 0.9100207686424255,
      "learning_rate": 0.0001707739951792648,
      "loss": 3.6188,
      "step": 219860
    },
    {
      "epoch": 0.4580625,
      "grad_norm": 0.787821352481842,
      "learning_rate": 0.0001707642315832881,
      "loss": 3.8285,
      "step": 219870
    },
    {
      "epoch": 0.45808333333333334,
      "grad_norm": 0.739037811756134,
      "learning_rate": 0.0001707544678976181,
      "loss": 3.8119,
      "step": 219880
    },
    {
      "epoch": 0.45810416666666665,
      "grad_norm": 0.8047354817390442,
      "learning_rate": 0.000170744704122297,
      "loss": 3.6431,
      "step": 219890
    },
    {
      "epoch": 0.458125,
      "grad_norm": 0.8144229650497437,
      "learning_rate": 0.00017073494025736702,
      "loss": 3.8587,
      "step": 219900
    },
    {
      "epoch": 0.4581458333333333,
      "grad_norm": 0.8619356751441956,
      "learning_rate": 0.00017072517630287027,
      "loss": 3.9457,
      "step": 219910
    },
    {
      "epoch": 0.45816666666666667,
      "grad_norm": 0.8226284384727478,
      "learning_rate": 0.000170715412258849,
      "loss": 3.8722,
      "step": 219920
    },
    {
      "epoch": 0.4581875,
      "grad_norm": 0.8004904389381409,
      "learning_rate": 0.0001707056481253453,
      "loss": 3.817,
      "step": 219930
    },
    {
      "epoch": 0.45820833333333333,
      "grad_norm": 0.7752457857131958,
      "learning_rate": 0.00017069588390240142,
      "loss": 3.7826,
      "step": 219940
    },
    {
      "epoch": 0.4582291666666667,
      "grad_norm": 0.7409631609916687,
      "learning_rate": 0.00017068611959005953,
      "loss": 3.7166,
      "step": 219950
    },
    {
      "epoch": 0.45825,
      "grad_norm": 0.764103353023529,
      "learning_rate": 0.00017067635518836177,
      "loss": 3.8449,
      "step": 219960
    },
    {
      "epoch": 0.45827083333333335,
      "grad_norm": 0.8463153839111328,
      "learning_rate": 0.00017066659069735034,
      "loss": 3.7301,
      "step": 219970
    },
    {
      "epoch": 0.45829166666666665,
      "grad_norm": 0.840232789516449,
      "learning_rate": 0.00017065682611706748,
      "loss": 3.7492,
      "step": 219980
    },
    {
      "epoch": 0.4583125,
      "grad_norm": 0.735422670841217,
      "learning_rate": 0.0001706470614475552,
      "loss": 3.6654,
      "step": 219990
    },
    {
      "epoch": 0.4583333333333333,
      "grad_norm": 0.7775730490684509,
      "learning_rate": 0.00017063729668885584,
      "loss": 3.7231,
      "step": 220000
    },
    {
      "epoch": 0.4583333333333333,
      "eval_loss": 4.1425981521606445,
      "eval_runtime": 8.9797,
      "eval_samples_per_second": 1.114,
      "eval_steps_per_second": 0.334,
      "step": 220000
    },
    {
      "epoch": 0.4583541666666667,
      "grad_norm": 0.8501764535903931,
      "learning_rate": 0.00017062753184101154,
      "loss": 3.8275,
      "step": 220010
    },
    {
      "epoch": 0.458375,
      "grad_norm": 0.8231067657470703,
      "learning_rate": 0.00017061776690406447,
      "loss": 3.8979,
      "step": 220020
    },
    {
      "epoch": 0.45839583333333334,
      "grad_norm": 0.8277459144592285,
      "learning_rate": 0.00017060800187805678,
      "loss": 3.9804,
      "step": 220030
    },
    {
      "epoch": 0.45841666666666664,
      "grad_norm": 0.7142825126647949,
      "learning_rate": 0.00017059823676303067,
      "loss": 3.7302,
      "step": 220040
    },
    {
      "epoch": 0.4584375,
      "grad_norm": 0.8563107848167419,
      "learning_rate": 0.0001705884715590284,
      "loss": 3.7673,
      "step": 220050
    },
    {
      "epoch": 0.45845833333333336,
      "grad_norm": 0.8774808645248413,
      "learning_rate": 0.000170578706266092,
      "loss": 3.6282,
      "step": 220060
    },
    {
      "epoch": 0.45847916666666666,
      "grad_norm": 0.7778774499893188,
      "learning_rate": 0.00017056894088426377,
      "loss": 3.8181,
      "step": 220070
    },
    {
      "epoch": 0.4585,
      "grad_norm": 0.8166449666023254,
      "learning_rate": 0.00017055917541358587,
      "loss": 3.9548,
      "step": 220080
    },
    {
      "epoch": 0.4585208333333333,
      "grad_norm": 0.922298014163971,
      "learning_rate": 0.00017054940985410043,
      "loss": 3.8889,
      "step": 220090
    },
    {
      "epoch": 0.4585416666666667,
      "grad_norm": 0.6993547677993774,
      "learning_rate": 0.0001705396442058497,
      "loss": 3.6674,
      "step": 220100
    },
    {
      "epoch": 0.4585625,
      "grad_norm": 0.8893345594406128,
      "learning_rate": 0.00017052987846887587,
      "loss": 3.6574,
      "step": 220110
    },
    {
      "epoch": 0.45858333333333334,
      "grad_norm": 0.8526577353477478,
      "learning_rate": 0.00017052011264322105,
      "loss": 3.5985,
      "step": 220120
    },
    {
      "epoch": 0.45860416666666665,
      "grad_norm": 0.740217924118042,
      "learning_rate": 0.00017051034672892746,
      "loss": 3.6734,
      "step": 220130
    },
    {
      "epoch": 0.458625,
      "grad_norm": 0.7700844407081604,
      "learning_rate": 0.00017050058072603732,
      "loss": 3.8275,
      "step": 220140
    },
    {
      "epoch": 0.4586458333333333,
      "grad_norm": 0.9219442009925842,
      "learning_rate": 0.00017049081463459278,
      "loss": 3.5982,
      "step": 220150
    },
    {
      "epoch": 0.45866666666666667,
      "grad_norm": 0.7035115361213684,
      "learning_rate": 0.000170481048454636,
      "loss": 3.7776,
      "step": 220160
    },
    {
      "epoch": 0.4586875,
      "grad_norm": 0.908542811870575,
      "learning_rate": 0.0001704712821862092,
      "loss": 3.7609,
      "step": 220170
    },
    {
      "epoch": 0.45870833333333333,
      "grad_norm": 0.7746953964233398,
      "learning_rate": 0.00017046151582935463,
      "loss": 3.8558,
      "step": 220180
    },
    {
      "epoch": 0.4587291666666667,
      "grad_norm": 0.872236430644989,
      "learning_rate": 0.00017045174938411434,
      "loss": 3.8726,
      "step": 220190
    },
    {
      "epoch": 0.45875,
      "grad_norm": 1.0350972414016724,
      "learning_rate": 0.00017044198285053063,
      "loss": 3.612,
      "step": 220200
    },
    {
      "epoch": 0.45877083333333335,
      "grad_norm": 0.7276204824447632,
      "learning_rate": 0.00017043221622864562,
      "loss": 4.0027,
      "step": 220210
    },
    {
      "epoch": 0.45879166666666665,
      "grad_norm": 0.7745700478553772,
      "learning_rate": 0.00017042244951850154,
      "loss": 3.7279,
      "step": 220220
    },
    {
      "epoch": 0.4588125,
      "grad_norm": 0.8390336632728577,
      "learning_rate": 0.00017041268272014056,
      "loss": 3.8372,
      "step": 220230
    },
    {
      "epoch": 0.4588333333333333,
      "grad_norm": 0.7449542284011841,
      "learning_rate": 0.00017040291583360486,
      "loss": 3.7601,
      "step": 220240
    },
    {
      "epoch": 0.4588541666666667,
      "grad_norm": 0.7099915146827698,
      "learning_rate": 0.00017039314885893664,
      "loss": 3.786,
      "step": 220250
    },
    {
      "epoch": 0.458875,
      "grad_norm": 0.8269923329353333,
      "learning_rate": 0.00017038338179617809,
      "loss": 3.7079,
      "step": 220260
    },
    {
      "epoch": 0.45889583333333334,
      "grad_norm": 0.820916473865509,
      "learning_rate": 0.00017037361464537141,
      "loss": 3.8176,
      "step": 220270
    },
    {
      "epoch": 0.45891666666666664,
      "grad_norm": 0.8043529391288757,
      "learning_rate": 0.00017036384740655875,
      "loss": 3.7685,
      "step": 220280
    },
    {
      "epoch": 0.4589375,
      "grad_norm": 0.7751107811927795,
      "learning_rate": 0.00017035408007978238,
      "loss": 3.8464,
      "step": 220290
    },
    {
      "epoch": 0.45895833333333336,
      "grad_norm": 0.7072528600692749,
      "learning_rate": 0.0001703443126650844,
      "loss": 3.7045,
      "step": 220300
    },
    {
      "epoch": 0.45897916666666666,
      "grad_norm": 1.0691814422607422,
      "learning_rate": 0.00017033454516250703,
      "loss": 3.8293,
      "step": 220310
    },
    {
      "epoch": 0.459,
      "grad_norm": 0.8234767913818359,
      "learning_rate": 0.0001703247775720925,
      "loss": 3.873,
      "step": 220320
    },
    {
      "epoch": 0.4590208333333333,
      "grad_norm": 0.7013203501701355,
      "learning_rate": 0.00017031500989388298,
      "loss": 3.6498,
      "step": 220330
    },
    {
      "epoch": 0.4590416666666667,
      "grad_norm": 1.0000829696655273,
      "learning_rate": 0.0001703052421279207,
      "loss": 3.8259,
      "step": 220340
    },
    {
      "epoch": 0.4590625,
      "grad_norm": 0.8685656189918518,
      "learning_rate": 0.00017029547427424775,
      "loss": 3.8574,
      "step": 220350
    },
    {
      "epoch": 0.45908333333333334,
      "grad_norm": 0.7718852162361145,
      "learning_rate": 0.0001702857063329064,
      "loss": 3.6931,
      "step": 220360
    },
    {
      "epoch": 0.45910416666666665,
      "grad_norm": 0.8078737258911133,
      "learning_rate": 0.00017027593830393884,
      "loss": 3.8053,
      "step": 220370
    },
    {
      "epoch": 0.459125,
      "grad_norm": 0.8166176676750183,
      "learning_rate": 0.00017026617018738724,
      "loss": 3.5749,
      "step": 220380
    },
    {
      "epoch": 0.4591458333333333,
      "grad_norm": 0.8486027121543884,
      "learning_rate": 0.00017025640198329374,
      "loss": 3.7847,
      "step": 220390
    },
    {
      "epoch": 0.45916666666666667,
      "grad_norm": 0.7520732283592224,
      "learning_rate": 0.0001702466336917007,
      "loss": 3.7072,
      "step": 220400
    },
    {
      "epoch": 0.4591875,
      "grad_norm": 0.8408654928207397,
      "learning_rate": 0.0001702368653126502,
      "loss": 3.763,
      "step": 220410
    },
    {
      "epoch": 0.45920833333333333,
      "grad_norm": 0.7549915313720703,
      "learning_rate": 0.00017022709684618443,
      "loss": 3.7859,
      "step": 220420
    },
    {
      "epoch": 0.4592291666666667,
      "grad_norm": 0.7373976111412048,
      "learning_rate": 0.0001702173282923456,
      "loss": 3.6919,
      "step": 220430
    },
    {
      "epoch": 0.45925,
      "grad_norm": 0.7782188653945923,
      "learning_rate": 0.00017020755965117595,
      "loss": 3.7195,
      "step": 220440
    },
    {
      "epoch": 0.45927083333333335,
      "grad_norm": 0.771436870098114,
      "learning_rate": 0.00017019779092271762,
      "loss": 3.8085,
      "step": 220450
    },
    {
      "epoch": 0.45929166666666665,
      "grad_norm": 0.9513305425643921,
      "learning_rate": 0.00017018802210701283,
      "loss": 3.9152,
      "step": 220460
    },
    {
      "epoch": 0.4593125,
      "grad_norm": 1.0814149379730225,
      "learning_rate": 0.00017017825320410376,
      "loss": 3.6562,
      "step": 220470
    },
    {
      "epoch": 0.4593333333333333,
      "grad_norm": 0.833652913570404,
      "learning_rate": 0.00017016848421403264,
      "loss": 3.5346,
      "step": 220480
    },
    {
      "epoch": 0.4593541666666667,
      "grad_norm": 0.8618701696395874,
      "learning_rate": 0.00017015871513684162,
      "loss": 3.9271,
      "step": 220490
    },
    {
      "epoch": 0.459375,
      "grad_norm": 0.8234668374061584,
      "learning_rate": 0.00017014894597257296,
      "loss": 3.8934,
      "step": 220500
    },
    {
      "epoch": 0.45939583333333334,
      "grad_norm": 0.9198883771896362,
      "learning_rate": 0.0001701391767212689,
      "loss": 3.8154,
      "step": 220510
    },
    {
      "epoch": 0.45941666666666664,
      "grad_norm": 0.924156665802002,
      "learning_rate": 0.00017012940738297144,
      "loss": 3.7839,
      "step": 220520
    },
    {
      "epoch": 0.4594375,
      "grad_norm": 0.9153794646263123,
      "learning_rate": 0.00017011963795772293,
      "loss": 3.8056,
      "step": 220530
    },
    {
      "epoch": 0.45945833333333336,
      "grad_norm": 0.7760573029518127,
      "learning_rate": 0.00017010986844556562,
      "loss": 3.7751,
      "step": 220540
    },
    {
      "epoch": 0.45947916666666666,
      "grad_norm": 0.8305556774139404,
      "learning_rate": 0.00017010009884654162,
      "loss": 3.6637,
      "step": 220550
    },
    {
      "epoch": 0.4595,
      "grad_norm": 0.877032995223999,
      "learning_rate": 0.00017009032916069308,
      "loss": 3.7447,
      "step": 220560
    },
    {
      "epoch": 0.4595208333333333,
      "grad_norm": 0.7942046523094177,
      "learning_rate": 0.00017008055938806237,
      "loss": 3.7175,
      "step": 220570
    },
    {
      "epoch": 0.4595416666666667,
      "grad_norm": 0.756837785243988,
      "learning_rate": 0.00017007078952869153,
      "loss": 3.6609,
      "step": 220580
    },
    {
      "epoch": 0.4595625,
      "grad_norm": 0.9123280644416809,
      "learning_rate": 0.00017006101958262285,
      "loss": 3.7479,
      "step": 220590
    },
    {
      "epoch": 0.45958333333333334,
      "grad_norm": 0.8096187114715576,
      "learning_rate": 0.00017005124954989846,
      "loss": 3.8632,
      "step": 220600
    },
    {
      "epoch": 0.45960416666666665,
      "grad_norm": 0.7626628875732422,
      "learning_rate": 0.00017004147943056063,
      "loss": 3.9305,
      "step": 220610
    },
    {
      "epoch": 0.459625,
      "grad_norm": 0.8335962295532227,
      "learning_rate": 0.00017003170922465157,
      "loss": 3.8923,
      "step": 220620
    },
    {
      "epoch": 0.4596458333333333,
      "grad_norm": 0.8199586272239685,
      "learning_rate": 0.00017002193893221344,
      "loss": 3.6956,
      "step": 220630
    },
    {
      "epoch": 0.45966666666666667,
      "grad_norm": 0.9444777369499207,
      "learning_rate": 0.00017001216855328844,
      "loss": 3.7329,
      "step": 220640
    },
    {
      "epoch": 0.4596875,
      "grad_norm": 0.8088565468788147,
      "learning_rate": 0.00017000239808791885,
      "loss": 3.684,
      "step": 220650
    },
    {
      "epoch": 0.45970833333333333,
      "grad_norm": 0.7878642082214355,
      "learning_rate": 0.00016999262753614674,
      "loss": 3.7273,
      "step": 220660
    },
    {
      "epoch": 0.4597291666666667,
      "grad_norm": 0.9916898012161255,
      "learning_rate": 0.0001699828568980144,
      "loss": 3.699,
      "step": 220670
    },
    {
      "epoch": 0.45975,
      "grad_norm": 0.8677585124969482,
      "learning_rate": 0.00016997308617356413,
      "loss": 3.8326,
      "step": 220680
    },
    {
      "epoch": 0.45977083333333335,
      "grad_norm": 0.8363224267959595,
      "learning_rate": 0.00016996331536283792,
      "loss": 3.5713,
      "step": 220690
    },
    {
      "epoch": 0.45979166666666665,
      "grad_norm": 0.7600246667861938,
      "learning_rate": 0.00016995354446587812,
      "loss": 3.7007,
      "step": 220700
    },
    {
      "epoch": 0.4598125,
      "grad_norm": 0.8004423379898071,
      "learning_rate": 0.00016994377348272693,
      "loss": 3.721,
      "step": 220710
    },
    {
      "epoch": 0.4598333333333333,
      "grad_norm": 0.8100301623344421,
      "learning_rate": 0.00016993400241342653,
      "loss": 3.7651,
      "step": 220720
    },
    {
      "epoch": 0.4598541666666667,
      "grad_norm": 0.7936304807662964,
      "learning_rate": 0.0001699242312580191,
      "loss": 3.7095,
      "step": 220730
    },
    {
      "epoch": 0.459875,
      "grad_norm": 0.6941196322441101,
      "learning_rate": 0.0001699144600165469,
      "loss": 3.7956,
      "step": 220740
    },
    {
      "epoch": 0.45989583333333334,
      "grad_norm": 0.9330064654350281,
      "learning_rate": 0.00016990468868905215,
      "loss": 3.6566,
      "step": 220750
    },
    {
      "epoch": 0.45991666666666664,
      "grad_norm": 0.7870584726333618,
      "learning_rate": 0.00016989491727557692,
      "loss": 3.835,
      "step": 220760
    },
    {
      "epoch": 0.4599375,
      "grad_norm": 0.7580074071884155,
      "learning_rate": 0.00016988514577616365,
      "loss": 3.9357,
      "step": 220770
    },
    {
      "epoch": 0.45995833333333336,
      "grad_norm": 0.803006112575531,
      "learning_rate": 0.00016987537419085432,
      "loss": 3.9389,
      "step": 220780
    },
    {
      "epoch": 0.45997916666666666,
      "grad_norm": 0.8595545291900635,
      "learning_rate": 0.0001698656025196913,
      "loss": 3.566,
      "step": 220790
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8003968596458435,
      "learning_rate": 0.0001698558307627167,
      "loss": 3.8384,
      "step": 220800
    },
    {
      "epoch": 0.4600208333333333,
      "grad_norm": 0.7793731093406677,
      "learning_rate": 0.0001698460589199728,
      "loss": 3.8569,
      "step": 220810
    },
    {
      "epoch": 0.4600416666666667,
      "grad_norm": 1.1517497301101685,
      "learning_rate": 0.00016983628699150178,
      "loss": 3.8989,
      "step": 220820
    },
    {
      "epoch": 0.4600625,
      "grad_norm": 0.7725074887275696,
      "learning_rate": 0.00016982651497734585,
      "loss": 3.7012,
      "step": 220830
    },
    {
      "epoch": 0.46008333333333334,
      "grad_norm": 0.9558659195899963,
      "learning_rate": 0.00016981674287754717,
      "loss": 3.7535,
      "step": 220840
    },
    {
      "epoch": 0.46010416666666665,
      "grad_norm": 0.7737710475921631,
      "learning_rate": 0.0001698069706921481,
      "loss": 3.6217,
      "step": 220850
    },
    {
      "epoch": 0.460125,
      "grad_norm": 1.0339395999908447,
      "learning_rate": 0.0001697971984211907,
      "loss": 3.7102,
      "step": 220860
    },
    {
      "epoch": 0.4601458333333333,
      "grad_norm": 0.8827157616615295,
      "learning_rate": 0.00016978742606471722,
      "loss": 3.7528,
      "step": 220870
    },
    {
      "epoch": 0.46016666666666667,
      "grad_norm": 0.7868515849113464,
      "learning_rate": 0.00016977765362276995,
      "loss": 3.7818,
      "step": 220880
    },
    {
      "epoch": 0.4601875,
      "grad_norm": 1.0241581201553345,
      "learning_rate": 0.000169767881095391,
      "loss": 3.7097,
      "step": 220890
    },
    {
      "epoch": 0.46020833333333333,
      "grad_norm": 0.9194632768630981,
      "learning_rate": 0.00016975810848262265,
      "loss": 3.766,
      "step": 220900
    },
    {
      "epoch": 0.4602291666666667,
      "grad_norm": 0.8121387362480164,
      "learning_rate": 0.0001697483357845071,
      "loss": 3.8808,
      "step": 220910
    },
    {
      "epoch": 0.46025,
      "grad_norm": 0.821517288684845,
      "learning_rate": 0.00016973856300108654,
      "loss": 3.5711,
      "step": 220920
    },
    {
      "epoch": 0.46027083333333335,
      "grad_norm": 0.832450807094574,
      "learning_rate": 0.0001697287901324032,
      "loss": 3.9144,
      "step": 220930
    },
    {
      "epoch": 0.46029166666666665,
      "grad_norm": 0.758123517036438,
      "learning_rate": 0.0001697190171784993,
      "loss": 3.9766,
      "step": 220940
    },
    {
      "epoch": 0.4603125,
      "grad_norm": 0.8637113571166992,
      "learning_rate": 0.00016970924413941705,
      "loss": 3.8464,
      "step": 220950
    },
    {
      "epoch": 0.4603333333333333,
      "grad_norm": 0.7833142876625061,
      "learning_rate": 0.00016969947101519865,
      "loss": 3.8443,
      "step": 220960
    },
    {
      "epoch": 0.4603541666666667,
      "grad_norm": 0.9736403822898865,
      "learning_rate": 0.00016968969780588634,
      "loss": 3.8824,
      "step": 220970
    },
    {
      "epoch": 0.460375,
      "grad_norm": 0.9971780776977539,
      "learning_rate": 0.00016967992451152235,
      "loss": 3.8455,
      "step": 220980
    },
    {
      "epoch": 0.46039583333333334,
      "grad_norm": 0.8133119940757751,
      "learning_rate": 0.0001696701511321489,
      "loss": 3.6656,
      "step": 220990
    },
    {
      "epoch": 0.46041666666666664,
      "grad_norm": 0.7150852084159851,
      "learning_rate": 0.0001696603776678081,
      "loss": 3.7455,
      "step": 221000
    },
    {
      "epoch": 0.46041666666666664,
      "eval_loss": 4.146733283996582,
      "eval_runtime": 9.3497,
      "eval_samples_per_second": 1.07,
      "eval_steps_per_second": 0.321,
      "step": 221000
    },
    {
      "epoch": 0.4604375,
      "grad_norm": 0.7470450401306152,
      "learning_rate": 0.0001696506041185423,
      "loss": 3.8419,
      "step": 221010
    },
    {
      "epoch": 0.46045833333333336,
      "grad_norm": 0.7039724588394165,
      "learning_rate": 0.00016964083048439372,
      "loss": 3.8774,
      "step": 221020
    },
    {
      "epoch": 0.46047916666666666,
      "grad_norm": 0.8503072261810303,
      "learning_rate": 0.00016963105676540445,
      "loss": 3.7206,
      "step": 221030
    },
    {
      "epoch": 0.4605,
      "grad_norm": 0.7773278951644897,
      "learning_rate": 0.00016962128296161676,
      "loss": 3.8894,
      "step": 221040
    },
    {
      "epoch": 0.4605208333333333,
      "grad_norm": 0.8193216919898987,
      "learning_rate": 0.000169611509073073,
      "loss": 3.7463,
      "step": 221050
    },
    {
      "epoch": 0.4605416666666667,
      "grad_norm": 1.146841049194336,
      "learning_rate": 0.00016960173509981518,
      "loss": 3.9624,
      "step": 221060
    },
    {
      "epoch": 0.4605625,
      "grad_norm": 0.7686074376106262,
      "learning_rate": 0.00016959196104188572,
      "loss": 3.7357,
      "step": 221070
    },
    {
      "epoch": 0.46058333333333334,
      "grad_norm": 0.782802939414978,
      "learning_rate": 0.00016958218689932668,
      "loss": 3.8086,
      "step": 221080
    },
    {
      "epoch": 0.46060416666666665,
      "grad_norm": 0.8917909860610962,
      "learning_rate": 0.00016957241267218036,
      "loss": 3.6353,
      "step": 221090
    },
    {
      "epoch": 0.460625,
      "grad_norm": 0.716413140296936,
      "learning_rate": 0.00016956263836048895,
      "loss": 3.7539,
      "step": 221100
    },
    {
      "epoch": 0.4606458333333333,
      "grad_norm": 0.7250229120254517,
      "learning_rate": 0.00016955286396429467,
      "loss": 3.7755,
      "step": 221110
    },
    {
      "epoch": 0.46066666666666667,
      "grad_norm": 0.9646468162536621,
      "learning_rate": 0.00016954308948363982,
      "loss": 3.865,
      "step": 221120
    },
    {
      "epoch": 0.4606875,
      "grad_norm": 0.75331711769104,
      "learning_rate": 0.00016953331491856652,
      "loss": 3.644,
      "step": 221130
    },
    {
      "epoch": 0.46070833333333333,
      "grad_norm": 0.720634937286377,
      "learning_rate": 0.00016952354026911702,
      "loss": 3.7177,
      "step": 221140
    },
    {
      "epoch": 0.4607291666666667,
      "grad_norm": 0.7741722464561462,
      "learning_rate": 0.00016951376553533357,
      "loss": 3.6438,
      "step": 221150
    },
    {
      "epoch": 0.46075,
      "grad_norm": 0.8232144713401794,
      "learning_rate": 0.0001695039907172584,
      "loss": 3.8252,
      "step": 221160
    },
    {
      "epoch": 0.46077083333333335,
      "grad_norm": 0.7346193194389343,
      "learning_rate": 0.00016949421581493365,
      "loss": 3.7985,
      "step": 221170
    },
    {
      "epoch": 0.46079166666666665,
      "grad_norm": 0.7063388824462891,
      "learning_rate": 0.00016948444082840163,
      "loss": 3.7925,
      "step": 221180
    },
    {
      "epoch": 0.4608125,
      "grad_norm": 1.0569474697113037,
      "learning_rate": 0.00016947466575770455,
      "loss": 3.8305,
      "step": 221190
    },
    {
      "epoch": 0.4608333333333333,
      "grad_norm": 0.7419787645339966,
      "learning_rate": 0.00016946489060288463,
      "loss": 3.783,
      "step": 221200
    },
    {
      "epoch": 0.4608541666666667,
      "grad_norm": 0.7055012583732605,
      "learning_rate": 0.0001694551153639841,
      "loss": 3.8098,
      "step": 221210
    },
    {
      "epoch": 0.460875,
      "grad_norm": 0.8316978216171265,
      "learning_rate": 0.00016944534004104515,
      "loss": 3.5386,
      "step": 221220
    },
    {
      "epoch": 0.46089583333333334,
      "grad_norm": 0.6684609055519104,
      "learning_rate": 0.00016943556463411,
      "loss": 3.8782,
      "step": 221230
    },
    {
      "epoch": 0.46091666666666664,
      "grad_norm": 0.7786193490028381,
      "learning_rate": 0.00016942578914322097,
      "loss": 3.7271,
      "step": 221240
    },
    {
      "epoch": 0.4609375,
      "grad_norm": 0.8318102955818176,
      "learning_rate": 0.00016941601356842018,
      "loss": 3.5572,
      "step": 221250
    },
    {
      "epoch": 0.46095833333333336,
      "grad_norm": 0.7170676589012146,
      "learning_rate": 0.00016940623790974985,
      "loss": 3.8165,
      "step": 221260
    },
    {
      "epoch": 0.46097916666666666,
      "grad_norm": 0.7655773758888245,
      "learning_rate": 0.00016939646216725235,
      "loss": 3.7722,
      "step": 221270
    },
    {
      "epoch": 0.461,
      "grad_norm": 0.7482348680496216,
      "learning_rate": 0.00016938668634096976,
      "loss": 3.842,
      "step": 221280
    },
    {
      "epoch": 0.4610208333333333,
      "grad_norm": 0.7778684496879578,
      "learning_rate": 0.00016937691043094436,
      "loss": 3.7272,
      "step": 221290
    },
    {
      "epoch": 0.4610416666666667,
      "grad_norm": 0.8355151414871216,
      "learning_rate": 0.00016936713443721838,
      "loss": 3.7446,
      "step": 221300
    },
    {
      "epoch": 0.4610625,
      "grad_norm": 0.8779925107955933,
      "learning_rate": 0.00016935735835983405,
      "loss": 3.5275,
      "step": 221310
    },
    {
      "epoch": 0.46108333333333335,
      "grad_norm": 0.8222759366035461,
      "learning_rate": 0.00016934758219883358,
      "loss": 3.6993,
      "step": 221320
    },
    {
      "epoch": 0.46110416666666665,
      "grad_norm": 0.8416501879692078,
      "learning_rate": 0.00016933780595425923,
      "loss": 3.7516,
      "step": 221330
    },
    {
      "epoch": 0.461125,
      "grad_norm": 0.9258973598480225,
      "learning_rate": 0.0001693280296261532,
      "loss": 3.6563,
      "step": 221340
    },
    {
      "epoch": 0.4611458333333333,
      "grad_norm": 1.0352729558944702,
      "learning_rate": 0.00016931825321455773,
      "loss": 3.8773,
      "step": 221350
    },
    {
      "epoch": 0.46116666666666667,
      "grad_norm": 1.018092155456543,
      "learning_rate": 0.00016930847671951509,
      "loss": 3.7214,
      "step": 221360
    },
    {
      "epoch": 0.4611875,
      "grad_norm": 0.7486717700958252,
      "learning_rate": 0.0001692987001410674,
      "loss": 3.8313,
      "step": 221370
    },
    {
      "epoch": 0.46120833333333333,
      "grad_norm": 0.9151196479797363,
      "learning_rate": 0.00016928892347925704,
      "loss": 3.8841,
      "step": 221380
    },
    {
      "epoch": 0.4612291666666667,
      "grad_norm": 0.8734813332557678,
      "learning_rate": 0.00016927914673412611,
      "loss": 3.7865,
      "step": 221390
    },
    {
      "epoch": 0.46125,
      "grad_norm": 0.8591883778572083,
      "learning_rate": 0.00016926936990571692,
      "loss": 3.5925,
      "step": 221400
    },
    {
      "epoch": 0.46127083333333335,
      "grad_norm": 0.8597381114959717,
      "learning_rate": 0.0001692595929940717,
      "loss": 3.8082,
      "step": 221410
    },
    {
      "epoch": 0.46129166666666666,
      "grad_norm": 1.2096810340881348,
      "learning_rate": 0.00016924981599923265,
      "loss": 3.9646,
      "step": 221420
    },
    {
      "epoch": 0.4613125,
      "grad_norm": 0.7720241546630859,
      "learning_rate": 0.00016924003892124196,
      "loss": 3.8712,
      "step": 221430
    },
    {
      "epoch": 0.4613333333333333,
      "grad_norm": 0.7987568378448486,
      "learning_rate": 0.00016923026176014202,
      "loss": 3.8497,
      "step": 221440
    },
    {
      "epoch": 0.4613541666666667,
      "grad_norm": 0.7857821583747864,
      "learning_rate": 0.0001692204845159749,
      "loss": 3.7607,
      "step": 221450
    },
    {
      "epoch": 0.461375,
      "grad_norm": 0.8003969192504883,
      "learning_rate": 0.00016921070718878286,
      "loss": 3.8724,
      "step": 221460
    },
    {
      "epoch": 0.46139583333333334,
      "grad_norm": 0.8217565417289734,
      "learning_rate": 0.00016920092977860824,
      "loss": 3.7507,
      "step": 221470
    },
    {
      "epoch": 0.46141666666666664,
      "grad_norm": 0.7749701142311096,
      "learning_rate": 0.00016919115228549315,
      "loss": 3.8867,
      "step": 221480
    },
    {
      "epoch": 0.4614375,
      "grad_norm": 0.8326733112335205,
      "learning_rate": 0.00016918137470947993,
      "loss": 3.7561,
      "step": 221490
    },
    {
      "epoch": 0.46145833333333336,
      "grad_norm": 0.83988356590271,
      "learning_rate": 0.00016917159705061072,
      "loss": 3.9154,
      "step": 221500
    },
    {
      "epoch": 0.46147916666666666,
      "grad_norm": 0.9083678722381592,
      "learning_rate": 0.0001691618193089278,
      "loss": 3.8711,
      "step": 221510
    },
    {
      "epoch": 0.4615,
      "grad_norm": 1.0035313367843628,
      "learning_rate": 0.00016915204148447349,
      "loss": 3.7547,
      "step": 221520
    },
    {
      "epoch": 0.4615208333333333,
      "grad_norm": 1.0802021026611328,
      "learning_rate": 0.00016914226357728982,
      "loss": 3.8808,
      "step": 221530
    },
    {
      "epoch": 0.4615416666666667,
      "grad_norm": 0.7900787591934204,
      "learning_rate": 0.00016913248558741918,
      "loss": 3.777,
      "step": 221540
    },
    {
      "epoch": 0.4615625,
      "grad_norm": 0.7892264127731323,
      "learning_rate": 0.00016912270751490383,
      "loss": 3.8202,
      "step": 221550
    },
    {
      "epoch": 0.46158333333333335,
      "grad_norm": 0.9459362626075745,
      "learning_rate": 0.0001691129293597859,
      "loss": 3.8301,
      "step": 221560
    },
    {
      "epoch": 0.46160416666666665,
      "grad_norm": 0.8530253171920776,
      "learning_rate": 0.0001691031511221077,
      "loss": 3.9099,
      "step": 221570
    },
    {
      "epoch": 0.461625,
      "grad_norm": 0.9193543195724487,
      "learning_rate": 0.00016909337280191148,
      "loss": 3.8071,
      "step": 221580
    },
    {
      "epoch": 0.4616458333333333,
      "grad_norm": 0.7571919560432434,
      "learning_rate": 0.0001690835943992394,
      "loss": 3.8038,
      "step": 221590
    },
    {
      "epoch": 0.46166666666666667,
      "grad_norm": 1.3468972444534302,
      "learning_rate": 0.00016907381591413373,
      "loss": 3.7679,
      "step": 221600
    },
    {
      "epoch": 0.4616875,
      "grad_norm": 0.8056535720825195,
      "learning_rate": 0.0001690640373466368,
      "loss": 3.6471,
      "step": 221610
    },
    {
      "epoch": 0.46170833333333333,
      "grad_norm": 0.7744746208190918,
      "learning_rate": 0.0001690542586967907,
      "loss": 3.7567,
      "step": 221620
    },
    {
      "epoch": 0.4617291666666667,
      "grad_norm": 0.9554961323738098,
      "learning_rate": 0.00016904447996463775,
      "loss": 3.6476,
      "step": 221630
    },
    {
      "epoch": 0.46175,
      "grad_norm": 0.7472438216209412,
      "learning_rate": 0.00016903470115022028,
      "loss": 3.8606,
      "step": 221640
    },
    {
      "epoch": 0.46177083333333335,
      "grad_norm": 0.8417534828186035,
      "learning_rate": 0.00016902492225358032,
      "loss": 3.5949,
      "step": 221650
    },
    {
      "epoch": 0.46179166666666666,
      "grad_norm": 0.8670024275779724,
      "learning_rate": 0.00016901514327476028,
      "loss": 3.7041,
      "step": 221660
    },
    {
      "epoch": 0.4618125,
      "grad_norm": 0.7389832735061646,
      "learning_rate": 0.00016900536421380233,
      "loss": 3.7619,
      "step": 221670
    },
    {
      "epoch": 0.4618333333333333,
      "grad_norm": 0.8193883895874023,
      "learning_rate": 0.00016899558507074873,
      "loss": 3.6862,
      "step": 221680
    },
    {
      "epoch": 0.4618541666666667,
      "grad_norm": 0.8072526454925537,
      "learning_rate": 0.00016898580584564173,
      "loss": 3.844,
      "step": 221690
    },
    {
      "epoch": 0.461875,
      "grad_norm": 0.79622483253479,
      "learning_rate": 0.00016897602653852357,
      "loss": 3.6936,
      "step": 221700
    },
    {
      "epoch": 0.46189583333333334,
      "grad_norm": 0.808476448059082,
      "learning_rate": 0.0001689662471494365,
      "loss": 3.6679,
      "step": 221710
    },
    {
      "epoch": 0.46191666666666664,
      "grad_norm": 0.7229758501052856,
      "learning_rate": 0.00016895646767842276,
      "loss": 3.9229,
      "step": 221720
    },
    {
      "epoch": 0.4619375,
      "grad_norm": 0.7803975343704224,
      "learning_rate": 0.0001689466881255245,
      "loss": 3.752,
      "step": 221730
    },
    {
      "epoch": 0.46195833333333336,
      "grad_norm": 0.9650906324386597,
      "learning_rate": 0.0001689369084907841,
      "loss": 3.8736,
      "step": 221740
    },
    {
      "epoch": 0.46197916666666666,
      "grad_norm": 0.7127496600151062,
      "learning_rate": 0.00016892712877424377,
      "loss": 3.5508,
      "step": 221750
    },
    {
      "epoch": 0.462,
      "grad_norm": 0.8777227401733398,
      "learning_rate": 0.0001689173489759457,
      "loss": 3.6967,
      "step": 221760
    },
    {
      "epoch": 0.4620208333333333,
      "grad_norm": 1.079394817352295,
      "learning_rate": 0.0001689075690959322,
      "loss": 3.9857,
      "step": 221770
    },
    {
      "epoch": 0.4620416666666667,
      "grad_norm": 0.7317348718643188,
      "learning_rate": 0.0001688977891342455,
      "loss": 3.796,
      "step": 221780
    },
    {
      "epoch": 0.4620625,
      "grad_norm": 0.9438573718070984,
      "learning_rate": 0.0001688880090909278,
      "loss": 3.8189,
      "step": 221790
    },
    {
      "epoch": 0.46208333333333335,
      "grad_norm": 0.7762559056282043,
      "learning_rate": 0.00016887822896602137,
      "loss": 3.8405,
      "step": 221800
    },
    {
      "epoch": 0.46210416666666665,
      "grad_norm": 0.7969009280204773,
      "learning_rate": 0.00016886844875956846,
      "loss": 3.7351,
      "step": 221810
    },
    {
      "epoch": 0.462125,
      "grad_norm": 1.0296231508255005,
      "learning_rate": 0.00016885866847161135,
      "loss": 3.8039,
      "step": 221820
    },
    {
      "epoch": 0.4621458333333333,
      "grad_norm": 0.78813636302948,
      "learning_rate": 0.00016884888810219224,
      "loss": 3.7398,
      "step": 221830
    },
    {
      "epoch": 0.46216666666666667,
      "grad_norm": 0.7998591065406799,
      "learning_rate": 0.0001688391076513534,
      "loss": 3.764,
      "step": 221840
    },
    {
      "epoch": 0.4621875,
      "grad_norm": 0.7700837850570679,
      "learning_rate": 0.00016882932711913707,
      "loss": 3.8588,
      "step": 221850
    },
    {
      "epoch": 0.46220833333333333,
      "grad_norm": 0.7719722986221313,
      "learning_rate": 0.00016881954650558548,
      "loss": 3.9269,
      "step": 221860
    },
    {
      "epoch": 0.4622291666666667,
      "grad_norm": 0.8255566954612732,
      "learning_rate": 0.00016880976581074093,
      "loss": 3.9351,
      "step": 221870
    },
    {
      "epoch": 0.46225,
      "grad_norm": 1.1153481006622314,
      "learning_rate": 0.00016879998503464561,
      "loss": 3.7256,
      "step": 221880
    },
    {
      "epoch": 0.46227083333333335,
      "grad_norm": 0.7414870262145996,
      "learning_rate": 0.00016879020417734182,
      "loss": 3.8617,
      "step": 221890
    },
    {
      "epoch": 0.46229166666666666,
      "grad_norm": 1.0031033754348755,
      "learning_rate": 0.00016878042323887176,
      "loss": 3.8184,
      "step": 221900
    },
    {
      "epoch": 0.4623125,
      "grad_norm": 0.8511600494384766,
      "learning_rate": 0.00016877064221927773,
      "loss": 3.5705,
      "step": 221910
    },
    {
      "epoch": 0.4623333333333333,
      "grad_norm": 0.8371368646621704,
      "learning_rate": 0.00016876086111860197,
      "loss": 3.7047,
      "step": 221920
    },
    {
      "epoch": 0.4623541666666667,
      "grad_norm": 0.7669222354888916,
      "learning_rate": 0.00016875107993688667,
      "loss": 3.6794,
      "step": 221930
    },
    {
      "epoch": 0.462375,
      "grad_norm": 0.8532522916793823,
      "learning_rate": 0.00016874129867417415,
      "loss": 3.9331,
      "step": 221940
    },
    {
      "epoch": 0.46239583333333334,
      "grad_norm": 0.8327512741088867,
      "learning_rate": 0.00016873151733050665,
      "loss": 3.9279,
      "step": 221950
    },
    {
      "epoch": 0.46241666666666664,
      "grad_norm": 0.7357062697410583,
      "learning_rate": 0.00016872173590592638,
      "loss": 3.7904,
      "step": 221960
    },
    {
      "epoch": 0.4624375,
      "grad_norm": 0.7963746190071106,
      "learning_rate": 0.0001687119544004757,
      "loss": 3.8195,
      "step": 221970
    },
    {
      "epoch": 0.46245833333333336,
      "grad_norm": 0.9312625527381897,
      "learning_rate": 0.0001687021728141967,
      "loss": 3.7993,
      "step": 221980
    },
    {
      "epoch": 0.46247916666666666,
      "grad_norm": 0.9927231073379517,
      "learning_rate": 0.0001686923911471317,
      "loss": 3.9296,
      "step": 221990
    },
    {
      "epoch": 0.4625,
      "grad_norm": 1.0613319873809814,
      "learning_rate": 0.00016868260939932305,
      "loss": 3.9432,
      "step": 222000
    },
    {
      "epoch": 0.4625,
      "eval_loss": 4.13936710357666,
      "eval_runtime": 8.91,
      "eval_samples_per_second": 1.122,
      "eval_steps_per_second": 0.337,
      "step": 222000
    },
    {
      "epoch": 0.4625208333333333,
      "grad_norm": 0.7299660444259644,
      "learning_rate": 0.00016867282757081285,
      "loss": 3.8051,
      "step": 222010
    },
    {
      "epoch": 0.4625416666666667,
      "grad_norm": 0.838535726070404,
      "learning_rate": 0.0001686630456616435,
      "loss": 3.8074,
      "step": 222020
    },
    {
      "epoch": 0.4625625,
      "grad_norm": 0.7766153812408447,
      "learning_rate": 0.0001686532636718571,
      "loss": 3.765,
      "step": 222030
    },
    {
      "epoch": 0.46258333333333335,
      "grad_norm": 0.8483501672744751,
      "learning_rate": 0.00016864348160149605,
      "loss": 3.8082,
      "step": 222040
    },
    {
      "epoch": 0.46260416666666665,
      "grad_norm": 1.0936299562454224,
      "learning_rate": 0.00016863369945060248,
      "loss": 3.791,
      "step": 222050
    },
    {
      "epoch": 0.462625,
      "grad_norm": 0.8069839477539062,
      "learning_rate": 0.00016862391721921872,
      "loss": 3.8552,
      "step": 222060
    },
    {
      "epoch": 0.4626458333333333,
      "grad_norm": 0.8413720726966858,
      "learning_rate": 0.00016861413490738706,
      "loss": 3.8323,
      "step": 222070
    },
    {
      "epoch": 0.46266666666666667,
      "grad_norm": 0.7966737747192383,
      "learning_rate": 0.00016860435251514963,
      "loss": 3.6756,
      "step": 222080
    },
    {
      "epoch": 0.4626875,
      "grad_norm": 0.7346048355102539,
      "learning_rate": 0.00016859457004254886,
      "loss": 3.6706,
      "step": 222090
    },
    {
      "epoch": 0.46270833333333333,
      "grad_norm": 0.8743836283683777,
      "learning_rate": 0.0001685847874896268,
      "loss": 3.6614,
      "step": 222100
    },
    {
      "epoch": 0.4627291666666667,
      "grad_norm": 0.8093528747558594,
      "learning_rate": 0.0001685750048564259,
      "loss": 3.8155,
      "step": 222110
    },
    {
      "epoch": 0.46275,
      "grad_norm": 0.9239513874053955,
      "learning_rate": 0.00016856522214298827,
      "loss": 3.9581,
      "step": 222120
    },
    {
      "epoch": 0.46277083333333335,
      "grad_norm": 0.7181947231292725,
      "learning_rate": 0.00016855543934935624,
      "loss": 3.526,
      "step": 222130
    },
    {
      "epoch": 0.46279166666666666,
      "grad_norm": 0.7861930131912231,
      "learning_rate": 0.0001685456564755721,
      "loss": 3.8349,
      "step": 222140
    },
    {
      "epoch": 0.4628125,
      "grad_norm": 1.0277209281921387,
      "learning_rate": 0.00016853587352167804,
      "loss": 3.7948,
      "step": 222150
    },
    {
      "epoch": 0.4628333333333333,
      "grad_norm": 0.7507704496383667,
      "learning_rate": 0.00016852609048771634,
      "loss": 3.7894,
      "step": 222160
    },
    {
      "epoch": 0.4628541666666667,
      "grad_norm": 0.7754372358322144,
      "learning_rate": 0.00016851630737372926,
      "loss": 3.7987,
      "step": 222170
    },
    {
      "epoch": 0.462875,
      "grad_norm": 0.8078725337982178,
      "learning_rate": 0.00016850652417975905,
      "loss": 3.8096,
      "step": 222180
    },
    {
      "epoch": 0.46289583333333334,
      "grad_norm": 1.0512539148330688,
      "learning_rate": 0.000168496740905848,
      "loss": 3.7149,
      "step": 222190
    },
    {
      "epoch": 0.46291666666666664,
      "grad_norm": 0.815074622631073,
      "learning_rate": 0.0001684869575520383,
      "loss": 3.6432,
      "step": 222200
    },
    {
      "epoch": 0.4629375,
      "grad_norm": 0.7869535684585571,
      "learning_rate": 0.00016847717411837233,
      "loss": 3.7117,
      "step": 222210
    },
    {
      "epoch": 0.46295833333333336,
      "grad_norm": 0.9501515626907349,
      "learning_rate": 0.00016846739060489226,
      "loss": 3.8577,
      "step": 222220
    },
    {
      "epoch": 0.46297916666666666,
      "grad_norm": 0.8248891234397888,
      "learning_rate": 0.00016845760701164034,
      "loss": 3.8218,
      "step": 222230
    },
    {
      "epoch": 0.463,
      "grad_norm": 0.7145325541496277,
      "learning_rate": 0.00016844782333865892,
      "loss": 3.663,
      "step": 222240
    },
    {
      "epoch": 0.4630208333333333,
      "grad_norm": 0.7189818024635315,
      "learning_rate": 0.0001684380395859902,
      "loss": 3.9165,
      "step": 222250
    },
    {
      "epoch": 0.4630416666666667,
      "grad_norm": 0.7312400937080383,
      "learning_rate": 0.00016842825575367638,
      "loss": 3.771,
      "step": 222260
    },
    {
      "epoch": 0.4630625,
      "grad_norm": 0.7727596759796143,
      "learning_rate": 0.00016841847184175985,
      "loss": 3.6862,
      "step": 222270
    },
    {
      "epoch": 0.46308333333333335,
      "grad_norm": 0.8892219662666321,
      "learning_rate": 0.0001684086878502828,
      "loss": 3.8682,
      "step": 222280
    },
    {
      "epoch": 0.46310416666666665,
      "grad_norm": 0.8403570652008057,
      "learning_rate": 0.00016839890377928752,
      "loss": 3.7946,
      "step": 222290
    },
    {
      "epoch": 0.463125,
      "grad_norm": 0.782971978187561,
      "learning_rate": 0.0001683891196288162,
      "loss": 3.7574,
      "step": 222300
    },
    {
      "epoch": 0.4631458333333333,
      "grad_norm": 0.8474482297897339,
      "learning_rate": 0.00016837933539891122,
      "loss": 3.8581,
      "step": 222310
    },
    {
      "epoch": 0.46316666666666667,
      "grad_norm": 1.5447614192962646,
      "learning_rate": 0.0001683695510896148,
      "loss": 3.7392,
      "step": 222320
    },
    {
      "epoch": 0.4631875,
      "grad_norm": 0.9117458462715149,
      "learning_rate": 0.0001683597667009691,
      "loss": 3.6731,
      "step": 222330
    },
    {
      "epoch": 0.46320833333333333,
      "grad_norm": 1.0152233839035034,
      "learning_rate": 0.00016834998223301659,
      "loss": 3.8245,
      "step": 222340
    },
    {
      "epoch": 0.4632291666666667,
      "grad_norm": 0.7222715616226196,
      "learning_rate": 0.00016834019768579935,
      "loss": 3.6791,
      "step": 222350
    },
    {
      "epoch": 0.46325,
      "grad_norm": 0.7819578647613525,
      "learning_rate": 0.0001683304130593597,
      "loss": 3.777,
      "step": 222360
    },
    {
      "epoch": 0.46327083333333335,
      "grad_norm": 0.8470057845115662,
      "learning_rate": 0.00016832062835373999,
      "loss": 3.8023,
      "step": 222370
    },
    {
      "epoch": 0.46329166666666666,
      "grad_norm": 0.7686922550201416,
      "learning_rate": 0.00016831084356898237,
      "loss": 3.8057,
      "step": 222380
    },
    {
      "epoch": 0.4633125,
      "grad_norm": 0.9454940557479858,
      "learning_rate": 0.00016830105870512918,
      "loss": 3.8789,
      "step": 222390
    },
    {
      "epoch": 0.4633333333333333,
      "grad_norm": 0.880603015422821,
      "learning_rate": 0.0001682912737622226,
      "loss": 3.9441,
      "step": 222400
    },
    {
      "epoch": 0.4633541666666667,
      "grad_norm": 0.7725039124488831,
      "learning_rate": 0.000168281488740305,
      "loss": 3.7799,
      "step": 222410
    },
    {
      "epoch": 0.463375,
      "grad_norm": 0.8636214733123779,
      "learning_rate": 0.00016827170363941865,
      "loss": 3.7813,
      "step": 222420
    },
    {
      "epoch": 0.46339583333333334,
      "grad_norm": 0.765695333480835,
      "learning_rate": 0.00016826191845960569,
      "loss": 4.0301,
      "step": 222430
    },
    {
      "epoch": 0.46341666666666664,
      "grad_norm": 0.852015495300293,
      "learning_rate": 0.0001682521332009085,
      "loss": 3.5655,
      "step": 222440
    },
    {
      "epoch": 0.4634375,
      "grad_norm": 0.9142760038375854,
      "learning_rate": 0.00016824234786336936,
      "loss": 3.8812,
      "step": 222450
    },
    {
      "epoch": 0.46345833333333336,
      "grad_norm": 0.7526705861091614,
      "learning_rate": 0.00016823256244703045,
      "loss": 3.6522,
      "step": 222460
    },
    {
      "epoch": 0.46347916666666666,
      "grad_norm": 0.8138163089752197,
      "learning_rate": 0.00016822277695193407,
      "loss": 3.8087,
      "step": 222470
    },
    {
      "epoch": 0.4635,
      "grad_norm": 0.8184010982513428,
      "learning_rate": 0.00016821299137812257,
      "loss": 3.8437,
      "step": 222480
    },
    {
      "epoch": 0.4635208333333333,
      "grad_norm": 0.7098002433776855,
      "learning_rate": 0.00016820320572563815,
      "loss": 3.7332,
      "step": 222490
    },
    {
      "epoch": 0.4635416666666667,
      "grad_norm": 0.7575036883354187,
      "learning_rate": 0.000168193419994523,
      "loss": 3.9095,
      "step": 222500
    },
    {
      "epoch": 0.4635625,
      "grad_norm": 1.0019989013671875,
      "learning_rate": 0.0001681836341848196,
      "loss": 3.7931,
      "step": 222510
    },
    {
      "epoch": 0.46358333333333335,
      "grad_norm": 0.719712495803833,
      "learning_rate": 0.00016817384829657004,
      "loss": 3.7607,
      "step": 222520
    },
    {
      "epoch": 0.46360416666666665,
      "grad_norm": 1.2884126901626587,
      "learning_rate": 0.00016816406232981663,
      "loss": 3.7725,
      "step": 222530
    },
    {
      "epoch": 0.463625,
      "grad_norm": 0.7437517046928406,
      "learning_rate": 0.00016815427628460167,
      "loss": 3.9007,
      "step": 222540
    },
    {
      "epoch": 0.4636458333333333,
      "grad_norm": 0.8649863600730896,
      "learning_rate": 0.00016814449016096743,
      "loss": 3.6302,
      "step": 222550
    },
    {
      "epoch": 0.46366666666666667,
      "grad_norm": 0.7276339530944824,
      "learning_rate": 0.00016813470395895616,
      "loss": 3.9135,
      "step": 222560
    },
    {
      "epoch": 0.4636875,
      "grad_norm": 0.8082275390625,
      "learning_rate": 0.00016812491767861018,
      "loss": 3.9344,
      "step": 222570
    },
    {
      "epoch": 0.46370833333333333,
      "grad_norm": 0.7379996180534363,
      "learning_rate": 0.00016811513131997173,
      "loss": 3.7767,
      "step": 222580
    },
    {
      "epoch": 0.4637291666666667,
      "grad_norm": 0.7936822772026062,
      "learning_rate": 0.00016810534488308307,
      "loss": 3.8822,
      "step": 222590
    },
    {
      "epoch": 0.46375,
      "grad_norm": 0.8818913698196411,
      "learning_rate": 0.00016809555836798645,
      "loss": 3.7009,
      "step": 222600
    },
    {
      "epoch": 0.46377083333333335,
      "grad_norm": 0.8004165291786194,
      "learning_rate": 0.0001680857717747242,
      "loss": 3.8056,
      "step": 222610
    },
    {
      "epoch": 0.46379166666666666,
      "grad_norm": 0.7975832223892212,
      "learning_rate": 0.00016807598510333862,
      "loss": 3.6679,
      "step": 222620
    },
    {
      "epoch": 0.4638125,
      "grad_norm": 0.7577750086784363,
      "learning_rate": 0.0001680661983538719,
      "loss": 3.7345,
      "step": 222630
    },
    {
      "epoch": 0.4638333333333333,
      "grad_norm": 0.9252198338508606,
      "learning_rate": 0.00016805641152636635,
      "loss": 3.9563,
      "step": 222640
    },
    {
      "epoch": 0.4638541666666667,
      "grad_norm": 0.866720974445343,
      "learning_rate": 0.00016804662462086426,
      "loss": 3.8652,
      "step": 222650
    },
    {
      "epoch": 0.463875,
      "grad_norm": 0.8097475171089172,
      "learning_rate": 0.0001680368376374079,
      "loss": 3.7023,
      "step": 222660
    },
    {
      "epoch": 0.46389583333333334,
      "grad_norm": 0.8791565299034119,
      "learning_rate": 0.00016802705057603951,
      "loss": 3.8489,
      "step": 222670
    },
    {
      "epoch": 0.46391666666666664,
      "grad_norm": 0.8223558068275452,
      "learning_rate": 0.00016801726343680144,
      "loss": 3.8986,
      "step": 222680
    },
    {
      "epoch": 0.4639375,
      "grad_norm": 0.8072295784950256,
      "learning_rate": 0.00016800747621973592,
      "loss": 3.9084,
      "step": 222690
    },
    {
      "epoch": 0.4639583333333333,
      "grad_norm": 0.9138394594192505,
      "learning_rate": 0.0001679976889248852,
      "loss": 3.8983,
      "step": 222700
    },
    {
      "epoch": 0.46397916666666666,
      "grad_norm": 0.790212094783783,
      "learning_rate": 0.0001679879015522916,
      "loss": 3.7289,
      "step": 222710
    },
    {
      "epoch": 0.464,
      "grad_norm": 0.8013148307800293,
      "learning_rate": 0.0001679781141019974,
      "loss": 3.7749,
      "step": 222720
    },
    {
      "epoch": 0.4640208333333333,
      "grad_norm": 0.9082274436950684,
      "learning_rate": 0.00016796832657404485,
      "loss": 3.8362,
      "step": 222730
    },
    {
      "epoch": 0.4640416666666667,
      "grad_norm": 0.9016486406326294,
      "learning_rate": 0.00016795853896847625,
      "loss": 3.7666,
      "step": 222740
    },
    {
      "epoch": 0.4640625,
      "grad_norm": 0.748769998550415,
      "learning_rate": 0.00016794875128533387,
      "loss": 3.816,
      "step": 222750
    },
    {
      "epoch": 0.46408333333333335,
      "grad_norm": 0.8408363461494446,
      "learning_rate": 0.00016793896352465998,
      "loss": 3.7591,
      "step": 222760
    },
    {
      "epoch": 0.46410416666666665,
      "grad_norm": 0.7777091860771179,
      "learning_rate": 0.00016792917568649686,
      "loss": 3.6887,
      "step": 222770
    },
    {
      "epoch": 0.464125,
      "grad_norm": 0.8678504824638367,
      "learning_rate": 0.00016791938777088681,
      "loss": 3.9016,
      "step": 222780
    },
    {
      "epoch": 0.4641458333333333,
      "grad_norm": 0.7643671035766602,
      "learning_rate": 0.00016790959977787214,
      "loss": 3.9622,
      "step": 222790
    },
    {
      "epoch": 0.46416666666666667,
      "grad_norm": 0.7271153330802917,
      "learning_rate": 0.00016789981170749503,
      "loss": 3.7806,
      "step": 222800
    },
    {
      "epoch": 0.4641875,
      "grad_norm": 0.8383708000183105,
      "learning_rate": 0.00016789002355979782,
      "loss": 3.7308,
      "step": 222810
    },
    {
      "epoch": 0.46420833333333333,
      "grad_norm": 0.7539501786231995,
      "learning_rate": 0.00016788023533482284,
      "loss": 3.6178,
      "step": 222820
    },
    {
      "epoch": 0.4642291666666667,
      "grad_norm": 0.8544238805770874,
      "learning_rate": 0.00016787044703261224,
      "loss": 3.6771,
      "step": 222830
    },
    {
      "epoch": 0.46425,
      "grad_norm": 0.7796106338500977,
      "learning_rate": 0.00016786065865320845,
      "loss": 3.9626,
      "step": 222840
    },
    {
      "epoch": 0.46427083333333335,
      "grad_norm": 0.7327075600624084,
      "learning_rate": 0.00016785087019665365,
      "loss": 3.9383,
      "step": 222850
    },
    {
      "epoch": 0.46429166666666666,
      "grad_norm": 1.0255827903747559,
      "learning_rate": 0.0001678410816629902,
      "loss": 3.7953,
      "step": 222860
    },
    {
      "epoch": 0.4643125,
      "grad_norm": 0.8498647212982178,
      "learning_rate": 0.0001678312930522603,
      "loss": 3.7579,
      "step": 222870
    },
    {
      "epoch": 0.4643333333333333,
      "grad_norm": 0.8448145985603333,
      "learning_rate": 0.00016782150436450626,
      "loss": 3.6967,
      "step": 222880
    },
    {
      "epoch": 0.4643541666666667,
      "grad_norm": 0.7973641157150269,
      "learning_rate": 0.0001678117155997704,
      "loss": 3.7696,
      "step": 222890
    },
    {
      "epoch": 0.464375,
      "grad_norm": 0.9291381239891052,
      "learning_rate": 0.00016780192675809496,
      "loss": 3.6015,
      "step": 222900
    },
    {
      "epoch": 0.46439583333333334,
      "grad_norm": 0.8425190448760986,
      "learning_rate": 0.00016779213783952226,
      "loss": 3.7328,
      "step": 222910
    },
    {
      "epoch": 0.46441666666666664,
      "grad_norm": 0.8949713110923767,
      "learning_rate": 0.0001677823488440946,
      "loss": 3.708,
      "step": 222920
    },
    {
      "epoch": 0.4644375,
      "grad_norm": 0.7796653509140015,
      "learning_rate": 0.00016777255977185417,
      "loss": 3.8273,
      "step": 222930
    },
    {
      "epoch": 0.4644583333333333,
      "grad_norm": 0.8037875890731812,
      "learning_rate": 0.00016776277062284335,
      "loss": 3.9148,
      "step": 222940
    },
    {
      "epoch": 0.46447916666666667,
      "grad_norm": 0.9115292429924011,
      "learning_rate": 0.00016775298139710436,
      "loss": 3.9828,
      "step": 222950
    },
    {
      "epoch": 0.4645,
      "grad_norm": 0.9382224678993225,
      "learning_rate": 0.00016774319209467956,
      "loss": 3.5188,
      "step": 222960
    },
    {
      "epoch": 0.4645208333333333,
      "grad_norm": 0.9511173963546753,
      "learning_rate": 0.00016773340271561117,
      "loss": 3.8442,
      "step": 222970
    },
    {
      "epoch": 0.4645416666666667,
      "grad_norm": 0.9329807162284851,
      "learning_rate": 0.00016772361325994155,
      "loss": 3.7218,
      "step": 222980
    },
    {
      "epoch": 0.4645625,
      "grad_norm": 0.7614380121231079,
      "learning_rate": 0.00016771382372771286,
      "loss": 3.759,
      "step": 222990
    },
    {
      "epoch": 0.46458333333333335,
      "grad_norm": 1.0379951000213623,
      "learning_rate": 0.0001677040341189675,
      "loss": 3.7637,
      "step": 223000
    },
    {
      "epoch": 0.46458333333333335,
      "eval_loss": 4.149186134338379,
      "eval_runtime": 8.2831,
      "eval_samples_per_second": 1.207,
      "eval_steps_per_second": 0.362,
      "step": 223000
    },
    {
      "epoch": 0.46460416666666665,
      "grad_norm": 0.8941602110862732,
      "learning_rate": 0.0001676942444337477,
      "loss": 3.6884,
      "step": 223010
    },
    {
      "epoch": 0.464625,
      "grad_norm": 0.79176926612854,
      "learning_rate": 0.0001676844546720958,
      "loss": 3.8897,
      "step": 223020
    },
    {
      "epoch": 0.4646458333333333,
      "grad_norm": 0.7623655796051025,
      "learning_rate": 0.00016767466483405403,
      "loss": 3.8288,
      "step": 223030
    },
    {
      "epoch": 0.4646666666666667,
      "grad_norm": 0.8246926665306091,
      "learning_rate": 0.00016766487491966473,
      "loss": 3.7625,
      "step": 223040
    },
    {
      "epoch": 0.4646875,
      "grad_norm": 0.7823286652565002,
      "learning_rate": 0.00016765508492897014,
      "loss": 3.7259,
      "step": 223050
    },
    {
      "epoch": 0.46470833333333333,
      "grad_norm": 1.008324384689331,
      "learning_rate": 0.00016764529486201259,
      "loss": 3.877,
      "step": 223060
    },
    {
      "epoch": 0.4647291666666667,
      "grad_norm": 1.0417627096176147,
      "learning_rate": 0.0001676355047188343,
      "loss": 3.8613,
      "step": 223070
    },
    {
      "epoch": 0.46475,
      "grad_norm": 0.8888673186302185,
      "learning_rate": 0.00016762571449947767,
      "loss": 3.7179,
      "step": 223080
    },
    {
      "epoch": 0.46477083333333336,
      "grad_norm": 0.854038655757904,
      "learning_rate": 0.00016761592420398488,
      "loss": 3.9276,
      "step": 223090
    },
    {
      "epoch": 0.46479166666666666,
      "grad_norm": 1.483106255531311,
      "learning_rate": 0.0001676061338323983,
      "loss": 3.8019,
      "step": 223100
    },
    {
      "epoch": 0.4648125,
      "grad_norm": 0.8497472405433655,
      "learning_rate": 0.0001675963433847602,
      "loss": 3.7829,
      "step": 223110
    },
    {
      "epoch": 0.4648333333333333,
      "grad_norm": 0.8773394823074341,
      "learning_rate": 0.00016758655286111288,
      "loss": 3.8125,
      "step": 223120
    },
    {
      "epoch": 0.4648541666666667,
      "grad_norm": 0.7421497702598572,
      "learning_rate": 0.00016757676226149853,
      "loss": 3.836,
      "step": 223130
    },
    {
      "epoch": 0.464875,
      "grad_norm": 0.7649416923522949,
      "learning_rate": 0.00016756697158595957,
      "loss": 3.7709,
      "step": 223140
    },
    {
      "epoch": 0.46489583333333334,
      "grad_norm": 0.7940268516540527,
      "learning_rate": 0.0001675571808345383,
      "loss": 3.8151,
      "step": 223150
    },
    {
      "epoch": 0.46491666666666664,
      "grad_norm": 0.8167563080787659,
      "learning_rate": 0.0001675473900072769,
      "loss": 3.8397,
      "step": 223160
    },
    {
      "epoch": 0.4649375,
      "grad_norm": 0.7907664179801941,
      "learning_rate": 0.00016753759910421772,
      "loss": 3.6439,
      "step": 223170
    },
    {
      "epoch": 0.4649583333333333,
      "grad_norm": 0.7607872486114502,
      "learning_rate": 0.0001675278081254031,
      "loss": 3.5982,
      "step": 223180
    },
    {
      "epoch": 0.46497916666666667,
      "grad_norm": 0.8540717363357544,
      "learning_rate": 0.00016751801707087525,
      "loss": 3.5638,
      "step": 223190
    },
    {
      "epoch": 0.465,
      "grad_norm": 0.9516304135322571,
      "learning_rate": 0.00016750822594067648,
      "loss": 3.7218,
      "step": 223200
    },
    {
      "epoch": 0.4650208333333333,
      "grad_norm": 0.7672188878059387,
      "learning_rate": 0.00016749843473484917,
      "loss": 3.7029,
      "step": 223210
    },
    {
      "epoch": 0.4650416666666667,
      "grad_norm": 0.9024828672409058,
      "learning_rate": 0.00016748864345343548,
      "loss": 3.6541,
      "step": 223220
    },
    {
      "epoch": 0.4650625,
      "grad_norm": 0.8611644506454468,
      "learning_rate": 0.00016747885209647778,
      "loss": 3.8441,
      "step": 223230
    },
    {
      "epoch": 0.46508333333333335,
      "grad_norm": 0.9937095046043396,
      "learning_rate": 0.00016746906066401838,
      "loss": 3.7589,
      "step": 223240
    },
    {
      "epoch": 0.46510416666666665,
      "grad_norm": 0.8240371942520142,
      "learning_rate": 0.00016745926915609957,
      "loss": 3.8081,
      "step": 223250
    },
    {
      "epoch": 0.465125,
      "grad_norm": 0.6775085926055908,
      "learning_rate": 0.00016744947757276358,
      "loss": 3.6601,
      "step": 223260
    },
    {
      "epoch": 0.4651458333333333,
      "grad_norm": 0.889300525188446,
      "learning_rate": 0.00016743968591405282,
      "loss": 3.9111,
      "step": 223270
    },
    {
      "epoch": 0.4651666666666667,
      "grad_norm": 0.7517461180686951,
      "learning_rate": 0.00016742989418000947,
      "loss": 3.7888,
      "step": 223280
    },
    {
      "epoch": 0.4651875,
      "grad_norm": 0.7001150846481323,
      "learning_rate": 0.0001674201023706759,
      "loss": 3.8543,
      "step": 223290
    },
    {
      "epoch": 0.46520833333333333,
      "grad_norm": 0.979048490524292,
      "learning_rate": 0.00016741031048609433,
      "loss": 3.7486,
      "step": 223300
    },
    {
      "epoch": 0.4652291666666667,
      "grad_norm": 0.7436097264289856,
      "learning_rate": 0.00016740051852630715,
      "loss": 3.9216,
      "step": 223310
    },
    {
      "epoch": 0.46525,
      "grad_norm": 0.7835223078727722,
      "learning_rate": 0.00016739072649135666,
      "loss": 3.7979,
      "step": 223320
    },
    {
      "epoch": 0.46527083333333336,
      "grad_norm": 0.7831153273582458,
      "learning_rate": 0.00016738093438128506,
      "loss": 3.7358,
      "step": 223330
    },
    {
      "epoch": 0.46529166666666666,
      "grad_norm": 1.0158685445785522,
      "learning_rate": 0.0001673711421961347,
      "loss": 3.7786,
      "step": 223340
    },
    {
      "epoch": 0.4653125,
      "grad_norm": 0.7378234267234802,
      "learning_rate": 0.00016736134993594793,
      "loss": 3.8406,
      "step": 223350
    },
    {
      "epoch": 0.4653333333333333,
      "grad_norm": 0.908941924571991,
      "learning_rate": 0.00016735155760076698,
      "loss": 3.8486,
      "step": 223360
    },
    {
      "epoch": 0.4653541666666667,
      "grad_norm": 0.8976974487304688,
      "learning_rate": 0.0001673417651906341,
      "loss": 3.9516,
      "step": 223370
    },
    {
      "epoch": 0.465375,
      "grad_norm": 0.8001694679260254,
      "learning_rate": 0.00016733197270559175,
      "loss": 3.9258,
      "step": 223380
    },
    {
      "epoch": 0.46539583333333334,
      "grad_norm": 0.8108555674552917,
      "learning_rate": 0.00016732218014568214,
      "loss": 3.8195,
      "step": 223390
    },
    {
      "epoch": 0.46541666666666665,
      "grad_norm": 0.7545124292373657,
      "learning_rate": 0.00016731238751094748,
      "loss": 3.7978,
      "step": 223400
    },
    {
      "epoch": 0.4654375,
      "grad_norm": 0.8217412829399109,
      "learning_rate": 0.00016730259480143023,
      "loss": 3.838,
      "step": 223410
    },
    {
      "epoch": 0.4654583333333333,
      "grad_norm": 0.850852370262146,
      "learning_rate": 0.0001672928020171726,
      "loss": 3.8075,
      "step": 223420
    },
    {
      "epoch": 0.46547916666666667,
      "grad_norm": 0.7797484993934631,
      "learning_rate": 0.00016728300915821691,
      "loss": 3.6952,
      "step": 223430
    },
    {
      "epoch": 0.4655,
      "grad_norm": 0.9306201338768005,
      "learning_rate": 0.00016727321622460548,
      "loss": 3.7518,
      "step": 223440
    },
    {
      "epoch": 0.46552083333333333,
      "grad_norm": 0.9621143341064453,
      "learning_rate": 0.00016726342321638057,
      "loss": 3.6942,
      "step": 223450
    },
    {
      "epoch": 0.4655416666666667,
      "grad_norm": 0.7437914609909058,
      "learning_rate": 0.00016725363013358455,
      "loss": 3.7188,
      "step": 223460
    },
    {
      "epoch": 0.4655625,
      "grad_norm": 0.8886086940765381,
      "learning_rate": 0.0001672438369762596,
      "loss": 4.0057,
      "step": 223470
    },
    {
      "epoch": 0.46558333333333335,
      "grad_norm": 0.7142632007598877,
      "learning_rate": 0.00016723404374444813,
      "loss": 3.5974,
      "step": 223480
    },
    {
      "epoch": 0.46560416666666665,
      "grad_norm": 0.9385099411010742,
      "learning_rate": 0.00016722425043819245,
      "loss": 3.7698,
      "step": 223490
    },
    {
      "epoch": 0.465625,
      "grad_norm": 0.7726926803588867,
      "learning_rate": 0.00016721445705753478,
      "loss": 3.7246,
      "step": 223500
    },
    {
      "epoch": 0.4656458333333333,
      "grad_norm": 0.7642173767089844,
      "learning_rate": 0.00016720466360251748,
      "loss": 3.8732,
      "step": 223510
    },
    {
      "epoch": 0.4656666666666667,
      "grad_norm": 0.8700418472290039,
      "learning_rate": 0.0001671948700731829,
      "loss": 3.8135,
      "step": 223520
    },
    {
      "epoch": 0.4656875,
      "grad_norm": 0.8468251824378967,
      "learning_rate": 0.00016718507646957322,
      "loss": 3.7894,
      "step": 223530
    },
    {
      "epoch": 0.46570833333333334,
      "grad_norm": 0.7881520390510559,
      "learning_rate": 0.0001671752827917308,
      "loss": 3.5644,
      "step": 223540
    },
    {
      "epoch": 0.4657291666666667,
      "grad_norm": 0.8900400400161743,
      "learning_rate": 0.00016716548903969802,
      "loss": 3.7676,
      "step": 223550
    },
    {
      "epoch": 0.46575,
      "grad_norm": 0.897833526134491,
      "learning_rate": 0.0001671556952135171,
      "loss": 3.8701,
      "step": 223560
    },
    {
      "epoch": 0.46577083333333336,
      "grad_norm": 0.7373180985450745,
      "learning_rate": 0.00016714590131323035,
      "loss": 3.6768,
      "step": 223570
    },
    {
      "epoch": 0.46579166666666666,
      "grad_norm": 1.281656265258789,
      "learning_rate": 0.0001671361073388801,
      "loss": 3.8767,
      "step": 223580
    },
    {
      "epoch": 0.4658125,
      "grad_norm": 1.1284189224243164,
      "learning_rate": 0.00016712631329050863,
      "loss": 3.7764,
      "step": 223590
    },
    {
      "epoch": 0.4658333333333333,
      "grad_norm": 0.8126698136329651,
      "learning_rate": 0.0001671165191681583,
      "loss": 3.7447,
      "step": 223600
    },
    {
      "epoch": 0.4658541666666667,
      "grad_norm": 0.8763267397880554,
      "learning_rate": 0.00016710672497187134,
      "loss": 3.7598,
      "step": 223610
    },
    {
      "epoch": 0.465875,
      "grad_norm": 0.7884641885757446,
      "learning_rate": 0.00016709693070169013,
      "loss": 3.8334,
      "step": 223620
    },
    {
      "epoch": 0.46589583333333334,
      "grad_norm": 0.7796435356140137,
      "learning_rate": 0.00016708713635765694,
      "loss": 3.7276,
      "step": 223630
    },
    {
      "epoch": 0.46591666666666665,
      "grad_norm": 0.8690237998962402,
      "learning_rate": 0.00016707734193981407,
      "loss": 3.699,
      "step": 223640
    },
    {
      "epoch": 0.4659375,
      "grad_norm": 0.834554135799408,
      "learning_rate": 0.0001670675474482039,
      "loss": 3.8496,
      "step": 223650
    },
    {
      "epoch": 0.4659583333333333,
      "grad_norm": 0.6947638392448425,
      "learning_rate": 0.00016705775288286868,
      "loss": 3.7922,
      "step": 223660
    },
    {
      "epoch": 0.46597916666666667,
      "grad_norm": 0.8487679362297058,
      "learning_rate": 0.00016704795824385062,
      "loss": 3.6439,
      "step": 223670
    },
    {
      "epoch": 0.466,
      "grad_norm": 0.887407124042511,
      "learning_rate": 0.0001670381635311922,
      "loss": 3.785,
      "step": 223680
    },
    {
      "epoch": 0.46602083333333333,
      "grad_norm": 0.812969982624054,
      "learning_rate": 0.00016702836874493568,
      "loss": 3.6148,
      "step": 223690
    },
    {
      "epoch": 0.4660416666666667,
      "grad_norm": 0.9026166200637817,
      "learning_rate": 0.00016701857388512324,
      "loss": 3.8291,
      "step": 223700
    },
    {
      "epoch": 0.4660625,
      "grad_norm": 0.7860164046287537,
      "learning_rate": 0.00016700877895179742,
      "loss": 3.7119,
      "step": 223710
    },
    {
      "epoch": 0.46608333333333335,
      "grad_norm": 0.7644955515861511,
      "learning_rate": 0.00016699898394500036,
      "loss": 3.8062,
      "step": 223720
    },
    {
      "epoch": 0.46610416666666665,
      "grad_norm": 0.9550212025642395,
      "learning_rate": 0.00016698918886477442,
      "loss": 3.8367,
      "step": 223730
    },
    {
      "epoch": 0.466125,
      "grad_norm": 0.8337997198104858,
      "learning_rate": 0.0001669793937111619,
      "loss": 3.7839,
      "step": 223740
    },
    {
      "epoch": 0.4661458333333333,
      "grad_norm": 0.8516108989715576,
      "learning_rate": 0.00016696959848420514,
      "loss": 3.754,
      "step": 223750
    },
    {
      "epoch": 0.4661666666666667,
      "grad_norm": 0.8470874428749084,
      "learning_rate": 0.0001669598031839464,
      "loss": 3.7482,
      "step": 223760
    },
    {
      "epoch": 0.4661875,
      "grad_norm": 0.8338283896446228,
      "learning_rate": 0.00016695000781042805,
      "loss": 3.7592,
      "step": 223770
    },
    {
      "epoch": 0.46620833333333334,
      "grad_norm": 0.8197217583656311,
      "learning_rate": 0.00016694021236369236,
      "loss": 3.7042,
      "step": 223780
    },
    {
      "epoch": 0.46622916666666664,
      "grad_norm": 0.739554762840271,
      "learning_rate": 0.0001669304168437817,
      "loss": 3.7978,
      "step": 223790
    },
    {
      "epoch": 0.46625,
      "grad_norm": 0.7582670450210571,
      "learning_rate": 0.00016692062125073828,
      "loss": 3.9002,
      "step": 223800
    },
    {
      "epoch": 0.46627083333333336,
      "grad_norm": 0.9558904767036438,
      "learning_rate": 0.00016691082558460446,
      "loss": 3.7299,
      "step": 223810
    },
    {
      "epoch": 0.46629166666666666,
      "grad_norm": 0.8666735291481018,
      "learning_rate": 0.00016690102984542264,
      "loss": 3.9281,
      "step": 223820
    },
    {
      "epoch": 0.4663125,
      "grad_norm": 0.8439291715621948,
      "learning_rate": 0.00016689123403323502,
      "loss": 3.7975,
      "step": 223830
    },
    {
      "epoch": 0.4663333333333333,
      "grad_norm": 0.8764895796775818,
      "learning_rate": 0.00016688143814808394,
      "loss": 3.7534,
      "step": 223840
    },
    {
      "epoch": 0.4663541666666667,
      "grad_norm": 0.87038654088974,
      "learning_rate": 0.00016687164219001178,
      "loss": 3.8074,
      "step": 223850
    },
    {
      "epoch": 0.466375,
      "grad_norm": 0.8127730488777161,
      "learning_rate": 0.0001668618461590608,
      "loss": 3.7831,
      "step": 223860
    },
    {
      "epoch": 0.46639583333333334,
      "grad_norm": 0.8215051889419556,
      "learning_rate": 0.00016685205005527323,
      "loss": 3.8644,
      "step": 223870
    },
    {
      "epoch": 0.46641666666666665,
      "grad_norm": 0.883123517036438,
      "learning_rate": 0.0001668422538786916,
      "loss": 3.8191,
      "step": 223880
    },
    {
      "epoch": 0.4664375,
      "grad_norm": 1.0747649669647217,
      "learning_rate": 0.00016683245762935802,
      "loss": 3.9074,
      "step": 223890
    },
    {
      "epoch": 0.4664583333333333,
      "grad_norm": 0.7648152709007263,
      "learning_rate": 0.00016682266130731488,
      "loss": 3.7496,
      "step": 223900
    },
    {
      "epoch": 0.46647916666666667,
      "grad_norm": 0.8081389665603638,
      "learning_rate": 0.00016681286491260455,
      "loss": 3.7569,
      "step": 223910
    },
    {
      "epoch": 0.4665,
      "grad_norm": 0.7337508201599121,
      "learning_rate": 0.00016680306844526926,
      "loss": 3.7979,
      "step": 223920
    },
    {
      "epoch": 0.46652083333333333,
      "grad_norm": 0.7008667588233948,
      "learning_rate": 0.00016679327190535138,
      "loss": 3.7753,
      "step": 223930
    },
    {
      "epoch": 0.4665416666666667,
      "grad_norm": 0.7688866853713989,
      "learning_rate": 0.00016678347529289322,
      "loss": 3.8371,
      "step": 223940
    },
    {
      "epoch": 0.4665625,
      "grad_norm": 0.9124560356140137,
      "learning_rate": 0.0001667736786079371,
      "loss": 3.7789,
      "step": 223950
    },
    {
      "epoch": 0.46658333333333335,
      "grad_norm": 0.9724833965301514,
      "learning_rate": 0.0001667638818505253,
      "loss": 3.8114,
      "step": 223960
    },
    {
      "epoch": 0.46660416666666665,
      "grad_norm": 0.7335253953933716,
      "learning_rate": 0.00016675408502070017,
      "loss": 3.6086,
      "step": 223970
    },
    {
      "epoch": 0.466625,
      "grad_norm": 0.7664363384246826,
      "learning_rate": 0.00016674428811850402,
      "loss": 3.7687,
      "step": 223980
    },
    {
      "epoch": 0.4666458333333333,
      "grad_norm": 0.8201785683631897,
      "learning_rate": 0.0001667344911439792,
      "loss": 3.8853,
      "step": 223990
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 0.8590123653411865,
      "learning_rate": 0.00016672469409716796,
      "loss": 3.7523,
      "step": 224000
    },
    {
      "epoch": 0.4666666666666667,
      "eval_loss": 4.148809909820557,
      "eval_runtime": 9.1422,
      "eval_samples_per_second": 1.094,
      "eval_steps_per_second": 0.328,
      "step": 224000
    },
    {
      "epoch": 0.4666875,
      "grad_norm": 0.9864657521247864,
      "learning_rate": 0.00016671489697811268,
      "loss": 3.9981,
      "step": 224010
    },
    {
      "epoch": 0.46670833333333334,
      "grad_norm": 0.8990445137023926,
      "learning_rate": 0.0001667050997868557,
      "loss": 3.8319,
      "step": 224020
    },
    {
      "epoch": 0.46672916666666664,
      "grad_norm": 0.9168655872344971,
      "learning_rate": 0.00016669530252343929,
      "loss": 3.7516,
      "step": 224030
    },
    {
      "epoch": 0.46675,
      "grad_norm": 0.9416508674621582,
      "learning_rate": 0.00016668550518790572,
      "loss": 3.8641,
      "step": 224040
    },
    {
      "epoch": 0.46677083333333336,
      "grad_norm": 0.862949550151825,
      "learning_rate": 0.00016667570778029745,
      "loss": 3.7506,
      "step": 224050
    },
    {
      "epoch": 0.46679166666666666,
      "grad_norm": 0.8647269606590271,
      "learning_rate": 0.0001666659103006567,
      "loss": 3.785,
      "step": 224060
    },
    {
      "epoch": 0.4668125,
      "grad_norm": 0.7431991696357727,
      "learning_rate": 0.00016665611274902577,
      "loss": 3.81,
      "step": 224070
    },
    {
      "epoch": 0.4668333333333333,
      "grad_norm": 0.8254965543746948,
      "learning_rate": 0.0001666463151254471,
      "loss": 3.9189,
      "step": 224080
    },
    {
      "epoch": 0.4668541666666667,
      "grad_norm": 0.7683814764022827,
      "learning_rate": 0.00016663651742996287,
      "loss": 3.9465,
      "step": 224090
    },
    {
      "epoch": 0.466875,
      "grad_norm": 0.7117984890937805,
      "learning_rate": 0.00016662671966261548,
      "loss": 3.7647,
      "step": 224100
    },
    {
      "epoch": 0.46689583333333334,
      "grad_norm": 0.8881855607032776,
      "learning_rate": 0.00016661692182344727,
      "loss": 3.9666,
      "step": 224110
    },
    {
      "epoch": 0.46691666666666665,
      "grad_norm": 0.8338346481323242,
      "learning_rate": 0.00016660712391250053,
      "loss": 3.7812,
      "step": 224120
    },
    {
      "epoch": 0.4669375,
      "grad_norm": 1.023353934288025,
      "learning_rate": 0.00016659732592981758,
      "loss": 3.7329,
      "step": 224130
    },
    {
      "epoch": 0.4669583333333333,
      "grad_norm": 0.8865991830825806,
      "learning_rate": 0.00016658752787544076,
      "loss": 3.6541,
      "step": 224140
    },
    {
      "epoch": 0.46697916666666667,
      "grad_norm": 0.9499744772911072,
      "learning_rate": 0.00016657772974941237,
      "loss": 3.7838,
      "step": 224150
    },
    {
      "epoch": 0.467,
      "grad_norm": 0.9912816882133484,
      "learning_rate": 0.0001665679315517748,
      "loss": 3.8766,
      "step": 224160
    },
    {
      "epoch": 0.46702083333333333,
      "grad_norm": 0.7459051609039307,
      "learning_rate": 0.00016655813328257023,
      "loss": 3.8737,
      "step": 224170
    },
    {
      "epoch": 0.4670416666666667,
      "grad_norm": 0.9178169369697571,
      "learning_rate": 0.00016654833494184114,
      "loss": 3.6452,
      "step": 224180
    },
    {
      "epoch": 0.4670625,
      "grad_norm": 0.8616552948951721,
      "learning_rate": 0.00016653853652962982,
      "loss": 3.8874,
      "step": 224190
    },
    {
      "epoch": 0.46708333333333335,
      "grad_norm": 0.7220520973205566,
      "learning_rate": 0.0001665287380459785,
      "loss": 3.8019,
      "step": 224200
    },
    {
      "epoch": 0.46710416666666665,
      "grad_norm": 0.9472835063934326,
      "learning_rate": 0.00016651893949092957,
      "loss": 3.6284,
      "step": 224210
    },
    {
      "epoch": 0.467125,
      "grad_norm": 0.7657212615013123,
      "learning_rate": 0.00016650914086452544,
      "loss": 3.8605,
      "step": 224220
    },
    {
      "epoch": 0.4671458333333333,
      "grad_norm": 0.9849211573600769,
      "learning_rate": 0.0001664993421668083,
      "loss": 3.7011,
      "step": 224230
    },
    {
      "epoch": 0.4671666666666667,
      "grad_norm": 0.7332902550697327,
      "learning_rate": 0.00016648954339782053,
      "loss": 3.7362,
      "step": 224240
    },
    {
      "epoch": 0.4671875,
      "grad_norm": 0.919920802116394,
      "learning_rate": 0.0001664797445576045,
      "loss": 3.9145,
      "step": 224250
    },
    {
      "epoch": 0.46720833333333334,
      "grad_norm": 0.7639548182487488,
      "learning_rate": 0.00016646994564620247,
      "loss": 3.9745,
      "step": 224260
    },
    {
      "epoch": 0.46722916666666664,
      "grad_norm": 0.9446194171905518,
      "learning_rate": 0.00016646014666365675,
      "loss": 3.7383,
      "step": 224270
    },
    {
      "epoch": 0.46725,
      "grad_norm": 0.8261222243309021,
      "learning_rate": 0.0001664503476100098,
      "loss": 3.7752,
      "step": 224280
    },
    {
      "epoch": 0.46727083333333336,
      "grad_norm": 0.8901962041854858,
      "learning_rate": 0.00016644054848530382,
      "loss": 3.8698,
      "step": 224290
    },
    {
      "epoch": 0.46729166666666666,
      "grad_norm": 0.8175672292709351,
      "learning_rate": 0.00016643074928958116,
      "loss": 3.9213,
      "step": 224300
    },
    {
      "epoch": 0.4673125,
      "grad_norm": 1.320687174797058,
      "learning_rate": 0.00016642095002288417,
      "loss": 3.5537,
      "step": 224310
    },
    {
      "epoch": 0.4673333333333333,
      "grad_norm": 0.799224853515625,
      "learning_rate": 0.0001664111506852552,
      "loss": 3.643,
      "step": 224320
    },
    {
      "epoch": 0.4673541666666667,
      "grad_norm": 0.9029486775398254,
      "learning_rate": 0.00016640135127673656,
      "loss": 3.8509,
      "step": 224330
    },
    {
      "epoch": 0.467375,
      "grad_norm": 0.9050658345222473,
      "learning_rate": 0.00016639155179737055,
      "loss": 3.7874,
      "step": 224340
    },
    {
      "epoch": 0.46739583333333334,
      "grad_norm": 0.8850465416908264,
      "learning_rate": 0.00016638175224719951,
      "loss": 3.7808,
      "step": 224350
    },
    {
      "epoch": 0.46741666666666665,
      "grad_norm": 0.7028394937515259,
      "learning_rate": 0.00016637195262626586,
      "loss": 3.7127,
      "step": 224360
    },
    {
      "epoch": 0.4674375,
      "grad_norm": 0.7088708877563477,
      "learning_rate": 0.00016636215293461173,
      "loss": 3.8422,
      "step": 224370
    },
    {
      "epoch": 0.4674583333333333,
      "grad_norm": 0.8617327809333801,
      "learning_rate": 0.00016635235317227968,
      "loss": 3.7794,
      "step": 224380
    },
    {
      "epoch": 0.46747916666666667,
      "grad_norm": 0.7738561034202576,
      "learning_rate": 0.00016634255333931194,
      "loss": 3.8168,
      "step": 224390
    },
    {
      "epoch": 0.4675,
      "grad_norm": 0.7865903973579407,
      "learning_rate": 0.00016633275343575077,
      "loss": 3.5135,
      "step": 224400
    },
    {
      "epoch": 0.46752083333333333,
      "grad_norm": 0.7339752316474915,
      "learning_rate": 0.00016632295346163858,
      "loss": 3.6396,
      "step": 224410
    },
    {
      "epoch": 0.4675416666666667,
      "grad_norm": 0.8469595313072205,
      "learning_rate": 0.00016631315341701777,
      "loss": 3.6746,
      "step": 224420
    },
    {
      "epoch": 0.4675625,
      "grad_norm": 0.9113942980766296,
      "learning_rate": 0.00016630335330193051,
      "loss": 3.8105,
      "step": 224430
    },
    {
      "epoch": 0.46758333333333335,
      "grad_norm": 0.7488046288490295,
      "learning_rate": 0.0001662935531164192,
      "loss": 3.5845,
      "step": 224440
    },
    {
      "epoch": 0.46760416666666665,
      "grad_norm": 1.1078015565872192,
      "learning_rate": 0.0001662837528605263,
      "loss": 3.7264,
      "step": 224450
    },
    {
      "epoch": 0.467625,
      "grad_norm": 0.724351704120636,
      "learning_rate": 0.00016627395253429397,
      "loss": 3.8902,
      "step": 224460
    },
    {
      "epoch": 0.4676458333333333,
      "grad_norm": 0.7399930953979492,
      "learning_rate": 0.00016626415213776458,
      "loss": 3.7186,
      "step": 224470
    },
    {
      "epoch": 0.4676666666666667,
      "grad_norm": 0.8928064703941345,
      "learning_rate": 0.00016625435167098051,
      "loss": 3.6465,
      "step": 224480
    },
    {
      "epoch": 0.4676875,
      "grad_norm": 0.9657009243965149,
      "learning_rate": 0.00016624455113398412,
      "loss": 3.8074,
      "step": 224490
    },
    {
      "epoch": 0.46770833333333334,
      "grad_norm": 0.7824445366859436,
      "learning_rate": 0.0001662347505268176,
      "loss": 3.7965,
      "step": 224500
    },
    {
      "epoch": 0.46772916666666664,
      "grad_norm": 0.8481934666633606,
      "learning_rate": 0.00016622494984952347,
      "loss": 3.993,
      "step": 224510
    },
    {
      "epoch": 0.46775,
      "grad_norm": 0.8152917623519897,
      "learning_rate": 0.00016621514910214395,
      "loss": 3.8396,
      "step": 224520
    },
    {
      "epoch": 0.46777083333333336,
      "grad_norm": 0.7649905681610107,
      "learning_rate": 0.00016620534828472143,
      "loss": 3.7769,
      "step": 224530
    },
    {
      "epoch": 0.46779166666666666,
      "grad_norm": 0.7194926738739014,
      "learning_rate": 0.0001661955473972982,
      "loss": 3.8821,
      "step": 224540
    },
    {
      "epoch": 0.4678125,
      "grad_norm": 0.9820581078529358,
      "learning_rate": 0.00016618574643991659,
      "loss": 3.7613,
      "step": 224550
    },
    {
      "epoch": 0.4678333333333333,
      "grad_norm": 0.9121659398078918,
      "learning_rate": 0.00016617594541261903,
      "loss": 3.837,
      "step": 224560
    },
    {
      "epoch": 0.4678541666666667,
      "grad_norm": 0.8734673857688904,
      "learning_rate": 0.0001661661443154477,
      "loss": 3.7297,
      "step": 224570
    },
    {
      "epoch": 0.467875,
      "grad_norm": 0.8304921388626099,
      "learning_rate": 0.00016615634314844508,
      "loss": 3.9151,
      "step": 224580
    },
    {
      "epoch": 0.46789583333333334,
      "grad_norm": 0.7955940365791321,
      "learning_rate": 0.00016614654191165345,
      "loss": 3.8418,
      "step": 224590
    },
    {
      "epoch": 0.46791666666666665,
      "grad_norm": 0.8014965653419495,
      "learning_rate": 0.00016613674060511515,
      "loss": 3.696,
      "step": 224600
    },
    {
      "epoch": 0.4679375,
      "grad_norm": 0.7397921085357666,
      "learning_rate": 0.00016612693922887252,
      "loss": 3.7764,
      "step": 224610
    },
    {
      "epoch": 0.4679583333333333,
      "grad_norm": 0.8979021310806274,
      "learning_rate": 0.0001661171377829679,
      "loss": 3.8615,
      "step": 224620
    },
    {
      "epoch": 0.46797916666666667,
      "grad_norm": 0.8592299818992615,
      "learning_rate": 0.00016610733626744358,
      "loss": 3.7647,
      "step": 224630
    },
    {
      "epoch": 0.468,
      "grad_norm": 1.0090444087982178,
      "learning_rate": 0.000166097534682342,
      "loss": 3.7756,
      "step": 224640
    },
    {
      "epoch": 0.46802083333333333,
      "grad_norm": 0.9358735084533691,
      "learning_rate": 0.00016608773302770539,
      "loss": 3.7333,
      "step": 224650
    },
    {
      "epoch": 0.4680416666666667,
      "grad_norm": 0.794660210609436,
      "learning_rate": 0.00016607793130357618,
      "loss": 3.7465,
      "step": 224660
    },
    {
      "epoch": 0.4680625,
      "grad_norm": 0.8284441232681274,
      "learning_rate": 0.00016606812950999665,
      "loss": 3.7669,
      "step": 224670
    },
    {
      "epoch": 0.46808333333333335,
      "grad_norm": 0.7739323377609253,
      "learning_rate": 0.00016605832764700915,
      "loss": 3.8068,
      "step": 224680
    },
    {
      "epoch": 0.46810416666666665,
      "grad_norm": 1.2158453464508057,
      "learning_rate": 0.00016604852571465607,
      "loss": 3.7153,
      "step": 224690
    },
    {
      "epoch": 0.468125,
      "grad_norm": 0.8980115056037903,
      "learning_rate": 0.00016603872371297968,
      "loss": 3.8883,
      "step": 224700
    },
    {
      "epoch": 0.4681458333333333,
      "grad_norm": 0.850796103477478,
      "learning_rate": 0.00016602892164202236,
      "loss": 3.7552,
      "step": 224710
    },
    {
      "epoch": 0.4681666666666667,
      "grad_norm": 0.7888875603675842,
      "learning_rate": 0.00016601911950182645,
      "loss": 3.5911,
      "step": 224720
    },
    {
      "epoch": 0.4681875,
      "grad_norm": 0.8434686064720154,
      "learning_rate": 0.0001660093172924343,
      "loss": 3.8441,
      "step": 224730
    },
    {
      "epoch": 0.46820833333333334,
      "grad_norm": 0.7645642757415771,
      "learning_rate": 0.00016599951501388818,
      "loss": 3.6761,
      "step": 224740
    },
    {
      "epoch": 0.46822916666666664,
      "grad_norm": 0.9499536156654358,
      "learning_rate": 0.00016598971266623057,
      "loss": 3.9239,
      "step": 224750
    },
    {
      "epoch": 0.46825,
      "grad_norm": 0.7729924321174622,
      "learning_rate": 0.0001659799102495037,
      "loss": 3.8169,
      "step": 224760
    },
    {
      "epoch": 0.46827083333333336,
      "grad_norm": 0.7984365820884705,
      "learning_rate": 0.0001659701077637499,
      "loss": 3.8863,
      "step": 224770
    },
    {
      "epoch": 0.46829166666666666,
      "grad_norm": 0.7800073027610779,
      "learning_rate": 0.0001659603052090116,
      "loss": 3.6191,
      "step": 224780
    },
    {
      "epoch": 0.4683125,
      "grad_norm": 0.7727203965187073,
      "learning_rate": 0.00016595050258533107,
      "loss": 3.8264,
      "step": 224790
    },
    {
      "epoch": 0.4683333333333333,
      "grad_norm": 0.7334296703338623,
      "learning_rate": 0.00016594069989275072,
      "loss": 4.001,
      "step": 224800
    },
    {
      "epoch": 0.4683541666666667,
      "grad_norm": 0.9942912459373474,
      "learning_rate": 0.0001659308971313128,
      "loss": 3.7218,
      "step": 224810
    },
    {
      "epoch": 0.468375,
      "grad_norm": 0.7928405404090881,
      "learning_rate": 0.00016592109430105977,
      "loss": 3.8857,
      "step": 224820
    },
    {
      "epoch": 0.46839583333333334,
      "grad_norm": 1.0561097860336304,
      "learning_rate": 0.00016591129140203388,
      "loss": 3.7298,
      "step": 224830
    },
    {
      "epoch": 0.46841666666666665,
      "grad_norm": 0.8756690621376038,
      "learning_rate": 0.0001659014884342775,
      "loss": 3.9418,
      "step": 224840
    },
    {
      "epoch": 0.4684375,
      "grad_norm": 0.7636091709136963,
      "learning_rate": 0.00016589168539783299,
      "loss": 3.8477,
      "step": 224850
    },
    {
      "epoch": 0.4684583333333333,
      "grad_norm": 0.8017902970314026,
      "learning_rate": 0.0001658818822927427,
      "loss": 3.9228,
      "step": 224860
    },
    {
      "epoch": 0.46847916666666667,
      "grad_norm": 0.77058345079422,
      "learning_rate": 0.000165872079119049,
      "loss": 3.8471,
      "step": 224870
    },
    {
      "epoch": 0.4685,
      "grad_norm": 0.8034422397613525,
      "learning_rate": 0.00016586227587679417,
      "loss": 3.7531,
      "step": 224880
    },
    {
      "epoch": 0.46852083333333333,
      "grad_norm": 0.8427528738975525,
      "learning_rate": 0.0001658524725660206,
      "loss": 3.7636,
      "step": 224890
    },
    {
      "epoch": 0.4685416666666667,
      "grad_norm": 0.864006519317627,
      "learning_rate": 0.00016584266918677056,
      "loss": 3.8491,
      "step": 224900
    },
    {
      "epoch": 0.4685625,
      "grad_norm": 1.2768466472625732,
      "learning_rate": 0.00016583286573908652,
      "loss": 3.9122,
      "step": 224910
    },
    {
      "epoch": 0.46858333333333335,
      "grad_norm": 0.8659995794296265,
      "learning_rate": 0.00016582306222301076,
      "loss": 3.8249,
      "step": 224920
    },
    {
      "epoch": 0.46860416666666665,
      "grad_norm": 0.846079409122467,
      "learning_rate": 0.00016581325863858565,
      "loss": 3.8878,
      "step": 224930
    },
    {
      "epoch": 0.468625,
      "grad_norm": 0.8664073348045349,
      "learning_rate": 0.00016580345498585345,
      "loss": 3.4894,
      "step": 224940
    },
    {
      "epoch": 0.4686458333333333,
      "grad_norm": 0.8474528193473816,
      "learning_rate": 0.00016579365126485668,
      "loss": 3.8316,
      "step": 224950
    },
    {
      "epoch": 0.4686666666666667,
      "grad_norm": 0.7367271184921265,
      "learning_rate": 0.00016578384747563754,
      "loss": 3.8288,
      "step": 224960
    },
    {
      "epoch": 0.4686875,
      "grad_norm": 0.8933739066123962,
      "learning_rate": 0.0001657740436182384,
      "loss": 3.7431,
      "step": 224970
    },
    {
      "epoch": 0.46870833333333334,
      "grad_norm": 0.9663851857185364,
      "learning_rate": 0.00016576423969270166,
      "loss": 3.7431,
      "step": 224980
    },
    {
      "epoch": 0.46872916666666664,
      "grad_norm": 0.8698368668556213,
      "learning_rate": 0.00016575443569906968,
      "loss": 3.867,
      "step": 224990
    },
    {
      "epoch": 0.46875,
      "grad_norm": 0.8523585796356201,
      "learning_rate": 0.0001657446316373847,
      "loss": 3.8442,
      "step": 225000
    },
    {
      "epoch": 0.46875,
      "eval_loss": 4.142125129699707,
      "eval_runtime": 9.7083,
      "eval_samples_per_second": 1.03,
      "eval_steps_per_second": 0.309,
      "step": 225000
    },
    {
      "epoch": 0.46877083333333336,
      "grad_norm": 0.8174184560775757,
      "learning_rate": 0.00016573482750768917,
      "loss": 3.7406,
      "step": 225010
    },
    {
      "epoch": 0.46879166666666666,
      "grad_norm": 0.6784088611602783,
      "learning_rate": 0.00016572502331002544,
      "loss": 3.77,
      "step": 225020
    },
    {
      "epoch": 0.4688125,
      "grad_norm": 0.8146467208862305,
      "learning_rate": 0.0001657152190444358,
      "loss": 3.857,
      "step": 225030
    },
    {
      "epoch": 0.4688333333333333,
      "grad_norm": 0.9012477993965149,
      "learning_rate": 0.00016570541471096266,
      "loss": 3.9221,
      "step": 225040
    },
    {
      "epoch": 0.4688541666666667,
      "grad_norm": 0.8427361249923706,
      "learning_rate": 0.00016569561030964835,
      "loss": 3.858,
      "step": 225050
    },
    {
      "epoch": 0.468875,
      "grad_norm": 0.9596291184425354,
      "learning_rate": 0.00016568580584053522,
      "loss": 3.611,
      "step": 225060
    },
    {
      "epoch": 0.46889583333333335,
      "grad_norm": 1.136823296546936,
      "learning_rate": 0.00016567600130366558,
      "loss": 3.8284,
      "step": 225070
    },
    {
      "epoch": 0.46891666666666665,
      "grad_norm": 0.7365906238555908,
      "learning_rate": 0.00016566619669908185,
      "loss": 3.6168,
      "step": 225080
    },
    {
      "epoch": 0.4689375,
      "grad_norm": 0.7720869779586792,
      "learning_rate": 0.00016565639202682637,
      "loss": 3.8785,
      "step": 225090
    },
    {
      "epoch": 0.4689583333333333,
      "grad_norm": 0.8175726532936096,
      "learning_rate": 0.00016564658728694144,
      "loss": 3.6963,
      "step": 225100
    },
    {
      "epoch": 0.46897916666666667,
      "grad_norm": 0.8535445928573608,
      "learning_rate": 0.00016563678247946941,
      "loss": 3.8157,
      "step": 225110
    },
    {
      "epoch": 0.469,
      "grad_norm": 0.8799079060554504,
      "learning_rate": 0.00016562697760445276,
      "loss": 3.8269,
      "step": 225120
    },
    {
      "epoch": 0.46902083333333333,
      "grad_norm": 0.8523691296577454,
      "learning_rate": 0.0001656171726619337,
      "loss": 3.763,
      "step": 225130
    },
    {
      "epoch": 0.4690416666666667,
      "grad_norm": 0.7879198789596558,
      "learning_rate": 0.0001656073676519546,
      "loss": 3.7462,
      "step": 225140
    },
    {
      "epoch": 0.4690625,
      "grad_norm": 0.8577151894569397,
      "learning_rate": 0.00016559756257455792,
      "loss": 3.8767,
      "step": 225150
    },
    {
      "epoch": 0.46908333333333335,
      "grad_norm": 0.960282564163208,
      "learning_rate": 0.0001655877574297859,
      "loss": 3.8053,
      "step": 225160
    },
    {
      "epoch": 0.46910416666666666,
      "grad_norm": 0.8333992958068848,
      "learning_rate": 0.00016557795221768096,
      "loss": 3.8376,
      "step": 225170
    },
    {
      "epoch": 0.469125,
      "grad_norm": 0.7392314076423645,
      "learning_rate": 0.00016556814693828543,
      "loss": 3.8832,
      "step": 225180
    },
    {
      "epoch": 0.4691458333333333,
      "grad_norm": 0.771009624004364,
      "learning_rate": 0.00016555834159164167,
      "loss": 3.58,
      "step": 225190
    },
    {
      "epoch": 0.4691666666666667,
      "grad_norm": 0.7487099766731262,
      "learning_rate": 0.00016554853617779203,
      "loss": 3.7646,
      "step": 225200
    },
    {
      "epoch": 0.4691875,
      "grad_norm": 0.7778368592262268,
      "learning_rate": 0.00016553873069677884,
      "loss": 3.587,
      "step": 225210
    },
    {
      "epoch": 0.46920833333333334,
      "grad_norm": 0.8353567719459534,
      "learning_rate": 0.00016552892514864453,
      "loss": 3.862,
      "step": 225220
    },
    {
      "epoch": 0.46922916666666664,
      "grad_norm": 0.8641624450683594,
      "learning_rate": 0.0001655191195334314,
      "loss": 4.0297,
      "step": 225230
    },
    {
      "epoch": 0.46925,
      "grad_norm": 0.7972431182861328,
      "learning_rate": 0.00016550931385118177,
      "loss": 3.8245,
      "step": 225240
    },
    {
      "epoch": 0.46927083333333336,
      "grad_norm": 0.7169433236122131,
      "learning_rate": 0.00016549950810193807,
      "loss": 3.8768,
      "step": 225250
    },
    {
      "epoch": 0.46929166666666666,
      "grad_norm": 0.7126947641372681,
      "learning_rate": 0.00016548970228574266,
      "loss": 3.8534,
      "step": 225260
    },
    {
      "epoch": 0.4693125,
      "grad_norm": 0.8596822619438171,
      "learning_rate": 0.00016547989640263783,
      "loss": 3.7659,
      "step": 225270
    },
    {
      "epoch": 0.4693333333333333,
      "grad_norm": 0.9159911870956421,
      "learning_rate": 0.00016547009045266597,
      "loss": 3.6048,
      "step": 225280
    },
    {
      "epoch": 0.4693541666666667,
      "grad_norm": 0.8788585662841797,
      "learning_rate": 0.0001654602844358695,
      "loss": 3.7434,
      "step": 225290
    },
    {
      "epoch": 0.469375,
      "grad_norm": 0.7998286485671997,
      "learning_rate": 0.00016545047835229065,
      "loss": 3.7391,
      "step": 225300
    },
    {
      "epoch": 0.46939583333333335,
      "grad_norm": 0.785643994808197,
      "learning_rate": 0.00016544067220197186,
      "loss": 3.8074,
      "step": 225310
    },
    {
      "epoch": 0.46941666666666665,
      "grad_norm": 0.7965156435966492,
      "learning_rate": 0.00016543086598495553,
      "loss": 3.668,
      "step": 225320
    },
    {
      "epoch": 0.4694375,
      "grad_norm": 0.8066239953041077,
      "learning_rate": 0.00016542105970128394,
      "loss": 3.6157,
      "step": 225330
    },
    {
      "epoch": 0.4694583333333333,
      "grad_norm": 0.7863004207611084,
      "learning_rate": 0.00016541125335099946,
      "loss": 3.6166,
      "step": 225340
    },
    {
      "epoch": 0.46947916666666667,
      "grad_norm": 0.7859873175621033,
      "learning_rate": 0.00016540144693414448,
      "loss": 3.9598,
      "step": 225350
    },
    {
      "epoch": 0.4695,
      "grad_norm": 0.9211409687995911,
      "learning_rate": 0.00016539164045076136,
      "loss": 3.7501,
      "step": 225360
    },
    {
      "epoch": 0.46952083333333333,
      "grad_norm": 1.2956644296646118,
      "learning_rate": 0.00016538183390089244,
      "loss": 3.844,
      "step": 225370
    },
    {
      "epoch": 0.4695416666666667,
      "grad_norm": 0.7569009065628052,
      "learning_rate": 0.00016537202728458006,
      "loss": 3.7568,
      "step": 225380
    },
    {
      "epoch": 0.4695625,
      "grad_norm": 0.7815629243850708,
      "learning_rate": 0.00016536222060186661,
      "loss": 3.814,
      "step": 225390
    },
    {
      "epoch": 0.46958333333333335,
      "grad_norm": 0.8124348521232605,
      "learning_rate": 0.00016535241385279447,
      "loss": 3.9407,
      "step": 225400
    },
    {
      "epoch": 0.46960416666666666,
      "grad_norm": 1.0008658170700073,
      "learning_rate": 0.00016534260703740598,
      "loss": 3.8453,
      "step": 225410
    },
    {
      "epoch": 0.469625,
      "grad_norm": 0.7546469569206238,
      "learning_rate": 0.00016533280015574347,
      "loss": 3.7974,
      "step": 225420
    },
    {
      "epoch": 0.4696458333333333,
      "grad_norm": 0.9010321497917175,
      "learning_rate": 0.0001653229932078494,
      "loss": 3.6264,
      "step": 225430
    },
    {
      "epoch": 0.4696666666666667,
      "grad_norm": 0.8977168798446655,
      "learning_rate": 0.000165313186193766,
      "loss": 3.9762,
      "step": 225440
    },
    {
      "epoch": 0.4696875,
      "grad_norm": 0.8530576825141907,
      "learning_rate": 0.00016530337911353568,
      "loss": 3.6374,
      "step": 225450
    },
    {
      "epoch": 0.46970833333333334,
      "grad_norm": 0.8972012996673584,
      "learning_rate": 0.0001652935719672009,
      "loss": 3.6157,
      "step": 225460
    },
    {
      "epoch": 0.46972916666666664,
      "grad_norm": 0.7144170999526978,
      "learning_rate": 0.00016528376475480387,
      "loss": 3.7112,
      "step": 225470
    },
    {
      "epoch": 0.46975,
      "grad_norm": 0.7592948079109192,
      "learning_rate": 0.00016527395747638706,
      "loss": 3.7028,
      "step": 225480
    },
    {
      "epoch": 0.46977083333333336,
      "grad_norm": 0.9128591418266296,
      "learning_rate": 0.0001652641501319928,
      "loss": 3.5715,
      "step": 225490
    },
    {
      "epoch": 0.46979166666666666,
      "grad_norm": 0.8189800977706909,
      "learning_rate": 0.00016525434272166345,
      "loss": 3.7834,
      "step": 225500
    },
    {
      "epoch": 0.4698125,
      "grad_norm": 1.1110864877700806,
      "learning_rate": 0.00016524453524544136,
      "loss": 3.7569,
      "step": 225510
    },
    {
      "epoch": 0.4698333333333333,
      "grad_norm": 0.818157970905304,
      "learning_rate": 0.00016523472770336894,
      "loss": 3.7972,
      "step": 225520
    },
    {
      "epoch": 0.4698541666666667,
      "grad_norm": 0.66258305311203,
      "learning_rate": 0.0001652249200954885,
      "loss": 3.6674,
      "step": 225530
    },
    {
      "epoch": 0.469875,
      "grad_norm": 1.6403461694717407,
      "learning_rate": 0.00016521511242184245,
      "loss": 3.673,
      "step": 225540
    },
    {
      "epoch": 0.46989583333333335,
      "grad_norm": 0.8751895427703857,
      "learning_rate": 0.00016520530468247313,
      "loss": 3.7974,
      "step": 225550
    },
    {
      "epoch": 0.46991666666666665,
      "grad_norm": 0.7522923350334167,
      "learning_rate": 0.0001651954968774229,
      "loss": 3.787,
      "step": 225560
    },
    {
      "epoch": 0.4699375,
      "grad_norm": 0.7383357286453247,
      "learning_rate": 0.00016518568900673414,
      "loss": 3.7966,
      "step": 225570
    },
    {
      "epoch": 0.4699583333333333,
      "grad_norm": 0.9628143310546875,
      "learning_rate": 0.00016517588107044925,
      "loss": 3.792,
      "step": 225580
    },
    {
      "epoch": 0.46997916666666667,
      "grad_norm": 0.7688388824462891,
      "learning_rate": 0.00016516607306861053,
      "loss": 3.7089,
      "step": 225590
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.7982146143913269,
      "learning_rate": 0.0001651562650012604,
      "loss": 3.6692,
      "step": 225600
    },
    {
      "epoch": 0.47002083333333333,
      "grad_norm": 0.9291075468063354,
      "learning_rate": 0.00016514645686844116,
      "loss": 3.7337,
      "step": 225610
    },
    {
      "epoch": 0.4700416666666667,
      "grad_norm": 0.8634339570999146,
      "learning_rate": 0.00016513664867019525,
      "loss": 3.8375,
      "step": 225620
    },
    {
      "epoch": 0.4700625,
      "grad_norm": 0.970316469669342,
      "learning_rate": 0.00016512684040656504,
      "loss": 3.8125,
      "step": 225630
    },
    {
      "epoch": 0.47008333333333335,
      "grad_norm": 0.7843782901763916,
      "learning_rate": 0.00016511703207759278,
      "loss": 3.7571,
      "step": 225640
    },
    {
      "epoch": 0.47010416666666666,
      "grad_norm": 0.8274247646331787,
      "learning_rate": 0.00016510722368332103,
      "loss": 3.7405,
      "step": 225650
    },
    {
      "epoch": 0.470125,
      "grad_norm": 0.9801017642021179,
      "learning_rate": 0.000165097415223792,
      "loss": 3.8111,
      "step": 225660
    },
    {
      "epoch": 0.4701458333333333,
      "grad_norm": 0.8625889420509338,
      "learning_rate": 0.0001650876066990481,
      "loss": 3.6749,
      "step": 225670
    },
    {
      "epoch": 0.4701666666666667,
      "grad_norm": 0.6803331971168518,
      "learning_rate": 0.00016507779810913175,
      "loss": 3.7674,
      "step": 225680
    },
    {
      "epoch": 0.4701875,
      "grad_norm": 0.8155810832977295,
      "learning_rate": 0.00016506798945408523,
      "loss": 3.7554,
      "step": 225690
    },
    {
      "epoch": 0.47020833333333334,
      "grad_norm": 0.9601907134056091,
      "learning_rate": 0.00016505818073395102,
      "loss": 3.5622,
      "step": 225700
    },
    {
      "epoch": 0.47022916666666664,
      "grad_norm": 1.1240626573562622,
      "learning_rate": 0.0001650483719487714,
      "loss": 3.9392,
      "step": 225710
    },
    {
      "epoch": 0.47025,
      "grad_norm": 0.9275110960006714,
      "learning_rate": 0.00016503856309858873,
      "loss": 3.7252,
      "step": 225720
    },
    {
      "epoch": 0.47027083333333336,
      "grad_norm": 1.127220869064331,
      "learning_rate": 0.00016502875418344546,
      "loss": 3.7626,
      "step": 225730
    },
    {
      "epoch": 0.47029166666666666,
      "grad_norm": 0.7473388314247131,
      "learning_rate": 0.00016501894520338394,
      "loss": 3.7113,
      "step": 225740
    },
    {
      "epoch": 0.4703125,
      "grad_norm": 0.8152471780776978,
      "learning_rate": 0.00016500913615844647,
      "loss": 3.8261,
      "step": 225750
    },
    {
      "epoch": 0.4703333333333333,
      "grad_norm": 1.0937944650650024,
      "learning_rate": 0.00016499932704867553,
      "loss": 3.6794,
      "step": 225760
    },
    {
      "epoch": 0.4703541666666667,
      "grad_norm": 0.883999228477478,
      "learning_rate": 0.00016498951787411337,
      "loss": 3.7134,
      "step": 225770
    },
    {
      "epoch": 0.470375,
      "grad_norm": 0.8321181535720825,
      "learning_rate": 0.0001649797086348025,
      "loss": 3.8772,
      "step": 225780
    },
    {
      "epoch": 0.47039583333333335,
      "grad_norm": 0.8259491324424744,
      "learning_rate": 0.00016496989933078522,
      "loss": 3.7211,
      "step": 225790
    },
    {
      "epoch": 0.47041666666666665,
      "grad_norm": 2.100511074066162,
      "learning_rate": 0.00016496008996210384,
      "loss": 3.8165,
      "step": 225800
    },
    {
      "epoch": 0.4704375,
      "grad_norm": 0.9876300692558289,
      "learning_rate": 0.0001649502805288008,
      "loss": 3.6658,
      "step": 225810
    },
    {
      "epoch": 0.4704583333333333,
      "grad_norm": 1.068649172782898,
      "learning_rate": 0.0001649404710309185,
      "loss": 3.6812,
      "step": 225820
    },
    {
      "epoch": 0.47047916666666667,
      "grad_norm": 1.0427896976470947,
      "learning_rate": 0.00016493066146849926,
      "loss": 3.8841,
      "step": 225830
    },
    {
      "epoch": 0.4705,
      "grad_norm": 0.9972540736198425,
      "learning_rate": 0.00016492085184158546,
      "loss": 3.8353,
      "step": 225840
    },
    {
      "epoch": 0.47052083333333333,
      "grad_norm": 0.8213891983032227,
      "learning_rate": 0.0001649110421502195,
      "loss": 3.7345,
      "step": 225850
    },
    {
      "epoch": 0.4705416666666667,
      "grad_norm": 0.7756562232971191,
      "learning_rate": 0.00016490123239444373,
      "loss": 3.8502,
      "step": 225860
    },
    {
      "epoch": 0.4705625,
      "grad_norm": 0.7311167120933533,
      "learning_rate": 0.00016489142257430055,
      "loss": 3.7265,
      "step": 225870
    },
    {
      "epoch": 0.47058333333333335,
      "grad_norm": 0.7712534666061401,
      "learning_rate": 0.00016488161268983232,
      "loss": 3.733,
      "step": 225880
    },
    {
      "epoch": 0.47060416666666666,
      "grad_norm": 0.7671815156936646,
      "learning_rate": 0.0001648718027410814,
      "loss": 3.7447,
      "step": 225890
    },
    {
      "epoch": 0.470625,
      "grad_norm": 0.7090163826942444,
      "learning_rate": 0.0001648619927280902,
      "loss": 3.7813,
      "step": 225900
    },
    {
      "epoch": 0.4706458333333333,
      "grad_norm": 0.7213902473449707,
      "learning_rate": 0.00016485218265090102,
      "loss": 3.887,
      "step": 225910
    },
    {
      "epoch": 0.4706666666666667,
      "grad_norm": 0.9289348125457764,
      "learning_rate": 0.00016484237250955633,
      "loss": 3.7724,
      "step": 225920
    },
    {
      "epoch": 0.4706875,
      "grad_norm": 0.7630125880241394,
      "learning_rate": 0.0001648325623040985,
      "loss": 3.773,
      "step": 225930
    },
    {
      "epoch": 0.47070833333333334,
      "grad_norm": 0.9476146697998047,
      "learning_rate": 0.0001648227520345698,
      "loss": 3.7131,
      "step": 225940
    },
    {
      "epoch": 0.47072916666666664,
      "grad_norm": 0.7641808390617371,
      "learning_rate": 0.0001648129417010127,
      "loss": 3.7893,
      "step": 225950
    },
    {
      "epoch": 0.47075,
      "grad_norm": 1.1200429201126099,
      "learning_rate": 0.0001648031313034696,
      "loss": 3.8664,
      "step": 225960
    },
    {
      "epoch": 0.47077083333333336,
      "grad_norm": 0.8386549353599548,
      "learning_rate": 0.00016479332084198283,
      "loss": 3.8101,
      "step": 225970
    },
    {
      "epoch": 0.47079166666666666,
      "grad_norm": 0.7656286358833313,
      "learning_rate": 0.0001647835103165947,
      "loss": 3.7552,
      "step": 225980
    },
    {
      "epoch": 0.4708125,
      "grad_norm": 0.9352438449859619,
      "learning_rate": 0.00016477369972734774,
      "loss": 3.8812,
      "step": 225990
    },
    {
      "epoch": 0.4708333333333333,
      "grad_norm": 0.850771427154541,
      "learning_rate": 0.00016476388907428417,
      "loss": 3.8075,
      "step": 226000
    },
    {
      "epoch": 0.4708333333333333,
      "eval_loss": 4.148852348327637,
      "eval_runtime": 8.3654,
      "eval_samples_per_second": 1.195,
      "eval_steps_per_second": 0.359,
      "step": 226000
    },
    {
      "epoch": 0.4708541666666667,
      "grad_norm": 0.8392989635467529,
      "learning_rate": 0.00016475407835744646,
      "loss": 3.9955,
      "step": 226010
    },
    {
      "epoch": 0.470875,
      "grad_norm": 0.7623253464698792,
      "learning_rate": 0.000164744267576877,
      "loss": 3.7878,
      "step": 226020
    },
    {
      "epoch": 0.47089583333333335,
      "grad_norm": 0.8776353001594543,
      "learning_rate": 0.00016473445673261816,
      "loss": 3.7594,
      "step": 226030
    },
    {
      "epoch": 0.47091666666666665,
      "grad_norm": 0.9028559923171997,
      "learning_rate": 0.00016472464582471228,
      "loss": 3.8856,
      "step": 226040
    },
    {
      "epoch": 0.4709375,
      "grad_norm": 0.7348147034645081,
      "learning_rate": 0.00016471483485320173,
      "loss": 3.733,
      "step": 226050
    },
    {
      "epoch": 0.4709583333333333,
      "grad_norm": 0.9258595108985901,
      "learning_rate": 0.00016470502381812894,
      "loss": 3.7031,
      "step": 226060
    },
    {
      "epoch": 0.47097916666666667,
      "grad_norm": 0.9270889163017273,
      "learning_rate": 0.00016469521271953626,
      "loss": 3.7308,
      "step": 226070
    },
    {
      "epoch": 0.471,
      "grad_norm": 0.813610315322876,
      "learning_rate": 0.00016468540155746604,
      "loss": 3.7481,
      "step": 226080
    },
    {
      "epoch": 0.47102083333333333,
      "grad_norm": 0.671093225479126,
      "learning_rate": 0.00016467559033196076,
      "loss": 3.9735,
      "step": 226090
    },
    {
      "epoch": 0.4710416666666667,
      "grad_norm": 1.005251407623291,
      "learning_rate": 0.00016466577904306274,
      "loss": 3.7984,
      "step": 226100
    },
    {
      "epoch": 0.4710625,
      "grad_norm": 0.8697835206985474,
      "learning_rate": 0.00016465596769081432,
      "loss": 3.6637,
      "step": 226110
    },
    {
      "epoch": 0.47108333333333335,
      "grad_norm": 0.7569875121116638,
      "learning_rate": 0.0001646461562752579,
      "loss": 3.6775,
      "step": 226120
    },
    {
      "epoch": 0.47110416666666666,
      "grad_norm": 1.0275557041168213,
      "learning_rate": 0.000164636344796436,
      "loss": 3.7347,
      "step": 226130
    },
    {
      "epoch": 0.471125,
      "grad_norm": 0.8567780256271362,
      "learning_rate": 0.00016462653325439072,
      "loss": 3.8395,
      "step": 226140
    },
    {
      "epoch": 0.4711458333333333,
      "grad_norm": 0.9958568811416626,
      "learning_rate": 0.0001646167216491647,
      "loss": 3.7776,
      "step": 226150
    },
    {
      "epoch": 0.4711666666666667,
      "grad_norm": 0.7447893023490906,
      "learning_rate": 0.00016460690998080027,
      "loss": 3.6251,
      "step": 226160
    },
    {
      "epoch": 0.4711875,
      "grad_norm": 0.7754477262496948,
      "learning_rate": 0.00016459709824933973,
      "loss": 3.6849,
      "step": 226170
    },
    {
      "epoch": 0.47120833333333334,
      "grad_norm": 0.8091292977333069,
      "learning_rate": 0.0001645872864548254,
      "loss": 3.9622,
      "step": 226180
    },
    {
      "epoch": 0.47122916666666664,
      "grad_norm": 0.8410753011703491,
      "learning_rate": 0.00016457747459729992,
      "loss": 3.6004,
      "step": 226190
    },
    {
      "epoch": 0.47125,
      "grad_norm": 0.8813212513923645,
      "learning_rate": 0.00016456766267680545,
      "loss": 3.808,
      "step": 226200
    },
    {
      "epoch": 0.47127083333333336,
      "grad_norm": 0.7297114729881287,
      "learning_rate": 0.00016455785069338446,
      "loss": 3.5956,
      "step": 226210
    },
    {
      "epoch": 0.47129166666666666,
      "grad_norm": 0.9210508465766907,
      "learning_rate": 0.0001645480386470793,
      "loss": 3.7253,
      "step": 226220
    },
    {
      "epoch": 0.4713125,
      "grad_norm": 0.8107841610908508,
      "learning_rate": 0.0001645382265379324,
      "loss": 3.7886,
      "step": 226230
    },
    {
      "epoch": 0.4713333333333333,
      "grad_norm": 1.128147840499878,
      "learning_rate": 0.0001645284143659861,
      "loss": 3.8576,
      "step": 226240
    },
    {
      "epoch": 0.4713541666666667,
      "grad_norm": 0.906702995300293,
      "learning_rate": 0.00016451860213128277,
      "loss": 3.7823,
      "step": 226250
    },
    {
      "epoch": 0.471375,
      "grad_norm": 0.8221896290779114,
      "learning_rate": 0.00016450878983386485,
      "loss": 3.7689,
      "step": 226260
    },
    {
      "epoch": 0.47139583333333335,
      "grad_norm": 0.858232319355011,
      "learning_rate": 0.0001644989774737747,
      "loss": 3.918,
      "step": 226270
    },
    {
      "epoch": 0.47141666666666665,
      "grad_norm": 0.8336163759231567,
      "learning_rate": 0.0001644891650510547,
      "loss": 3.835,
      "step": 226280
    },
    {
      "epoch": 0.4714375,
      "grad_norm": 0.9002066254615784,
      "learning_rate": 0.00016447935256574728,
      "loss": 3.8222,
      "step": 226290
    },
    {
      "epoch": 0.4714583333333333,
      "grad_norm": 0.7856312394142151,
      "learning_rate": 0.00016446954001789478,
      "loss": 3.816,
      "step": 226300
    },
    {
      "epoch": 0.47147916666666667,
      "grad_norm": 0.7806979417800903,
      "learning_rate": 0.00016445972740753955,
      "loss": 3.6831,
      "step": 226310
    },
    {
      "epoch": 0.4715,
      "grad_norm": 0.7903416752815247,
      "learning_rate": 0.00016444991473472403,
      "loss": 3.6144,
      "step": 226320
    },
    {
      "epoch": 0.47152083333333333,
      "grad_norm": 0.7555422186851501,
      "learning_rate": 0.00016444010199949066,
      "loss": 3.7182,
      "step": 226330
    },
    {
      "epoch": 0.4715416666666667,
      "grad_norm": 0.8829309940338135,
      "learning_rate": 0.00016443028920188168,
      "loss": 3.7092,
      "step": 226340
    },
    {
      "epoch": 0.4715625,
      "grad_norm": 0.7289914488792419,
      "learning_rate": 0.00016442047634193958,
      "loss": 3.7941,
      "step": 226350
    },
    {
      "epoch": 0.47158333333333335,
      "grad_norm": 0.7583680152893066,
      "learning_rate": 0.0001644106634197068,
      "loss": 3.7688,
      "step": 226360
    },
    {
      "epoch": 0.47160416666666666,
      "grad_norm": 0.7993601560592651,
      "learning_rate": 0.00016440085043522562,
      "loss": 3.866,
      "step": 226370
    },
    {
      "epoch": 0.471625,
      "grad_norm": 0.786700963973999,
      "learning_rate": 0.00016439103738853845,
      "loss": 3.7113,
      "step": 226380
    },
    {
      "epoch": 0.4716458333333333,
      "grad_norm": 0.8397699594497681,
      "learning_rate": 0.0001643812242796877,
      "loss": 3.7643,
      "step": 226390
    },
    {
      "epoch": 0.4716666666666667,
      "grad_norm": 0.9132807850837708,
      "learning_rate": 0.00016437141110871574,
      "loss": 3.8058,
      "step": 226400
    },
    {
      "epoch": 0.4716875,
      "grad_norm": 0.7413688898086548,
      "learning_rate": 0.00016436159787566499,
      "loss": 3.6777,
      "step": 226410
    },
    {
      "epoch": 0.47170833333333334,
      "grad_norm": 0.8878917694091797,
      "learning_rate": 0.0001643517845805778,
      "loss": 3.6798,
      "step": 226420
    },
    {
      "epoch": 0.47172916666666664,
      "grad_norm": 0.7743085622787476,
      "learning_rate": 0.00016434197122349665,
      "loss": 3.7179,
      "step": 226430
    },
    {
      "epoch": 0.47175,
      "grad_norm": 0.8695520758628845,
      "learning_rate": 0.00016433215780446378,
      "loss": 3.7408,
      "step": 226440
    },
    {
      "epoch": 0.4717708333333333,
      "grad_norm": 0.7941675782203674,
      "learning_rate": 0.0001643223443235217,
      "loss": 3.9229,
      "step": 226450
    },
    {
      "epoch": 0.47179166666666666,
      "grad_norm": 0.7743933796882629,
      "learning_rate": 0.00016431253078071274,
      "loss": 3.7735,
      "step": 226460
    },
    {
      "epoch": 0.4718125,
      "grad_norm": 0.8557159900665283,
      "learning_rate": 0.0001643027171760794,
      "loss": 3.77,
      "step": 226470
    },
    {
      "epoch": 0.4718333333333333,
      "grad_norm": 0.9053312540054321,
      "learning_rate": 0.00016429290350966383,
      "loss": 3.6873,
      "step": 226480
    },
    {
      "epoch": 0.4718541666666667,
      "grad_norm": 0.7381752729415894,
      "learning_rate": 0.00016428308978150866,
      "loss": 3.6447,
      "step": 226490
    },
    {
      "epoch": 0.471875,
      "grad_norm": 1.0196051597595215,
      "learning_rate": 0.00016427327599165622,
      "loss": 3.8952,
      "step": 226500
    },
    {
      "epoch": 0.47189583333333335,
      "grad_norm": 0.954865038394928,
      "learning_rate": 0.00016426346214014882,
      "loss": 3.7399,
      "step": 226510
    },
    {
      "epoch": 0.47191666666666665,
      "grad_norm": 0.8579328060150146,
      "learning_rate": 0.000164253648227029,
      "loss": 3.6605,
      "step": 226520
    },
    {
      "epoch": 0.4719375,
      "grad_norm": 0.7338458895683289,
      "learning_rate": 0.00016424383425233898,
      "loss": 3.7305,
      "step": 226530
    },
    {
      "epoch": 0.4719583333333333,
      "grad_norm": 0.8664455413818359,
      "learning_rate": 0.00016423402021612126,
      "loss": 3.7968,
      "step": 226540
    },
    {
      "epoch": 0.47197916666666667,
      "grad_norm": 0.8946070075035095,
      "learning_rate": 0.00016422420611841818,
      "loss": 3.5693,
      "step": 226550
    },
    {
      "epoch": 0.472,
      "grad_norm": 0.7256364822387695,
      "learning_rate": 0.00016421439195927218,
      "loss": 3.4817,
      "step": 226560
    },
    {
      "epoch": 0.47202083333333333,
      "grad_norm": 1.042657494544983,
      "learning_rate": 0.00016420457773872564,
      "loss": 3.783,
      "step": 226570
    },
    {
      "epoch": 0.4720416666666667,
      "grad_norm": 1.0469563007354736,
      "learning_rate": 0.00016419476345682095,
      "loss": 3.7564,
      "step": 226580
    },
    {
      "epoch": 0.4720625,
      "grad_norm": 0.9739368557929993,
      "learning_rate": 0.00016418494911360048,
      "loss": 3.7396,
      "step": 226590
    },
    {
      "epoch": 0.47208333333333335,
      "grad_norm": 0.9682168364524841,
      "learning_rate": 0.00016417513470910666,
      "loss": 3.7182,
      "step": 226600
    },
    {
      "epoch": 0.47210416666666666,
      "grad_norm": 0.9078302383422852,
      "learning_rate": 0.00016416532024338186,
      "loss": 3.9199,
      "step": 226610
    },
    {
      "epoch": 0.472125,
      "grad_norm": 0.8195754885673523,
      "learning_rate": 0.0001641555057164685,
      "loss": 3.6696,
      "step": 226620
    },
    {
      "epoch": 0.4721458333333333,
      "grad_norm": 0.7974441051483154,
      "learning_rate": 0.00016414569112840893,
      "loss": 3.7683,
      "step": 226630
    },
    {
      "epoch": 0.4721666666666667,
      "grad_norm": 0.7289552688598633,
      "learning_rate": 0.00016413587647924559,
      "loss": 3.7026,
      "step": 226640
    },
    {
      "epoch": 0.4721875,
      "grad_norm": 0.7523401975631714,
      "learning_rate": 0.00016412606176902087,
      "loss": 3.7364,
      "step": 226650
    },
    {
      "epoch": 0.47220833333333334,
      "grad_norm": 0.7617624402046204,
      "learning_rate": 0.00016411624699777717,
      "loss": 3.6849,
      "step": 226660
    },
    {
      "epoch": 0.47222916666666664,
      "grad_norm": 0.8834340572357178,
      "learning_rate": 0.00016410643216555686,
      "loss": 3.8563,
      "step": 226670
    },
    {
      "epoch": 0.47225,
      "grad_norm": 0.7925580143928528,
      "learning_rate": 0.00016409661727240227,
      "loss": 3.8737,
      "step": 226680
    },
    {
      "epoch": 0.4722708333333333,
      "grad_norm": 0.9355202913284302,
      "learning_rate": 0.00016408680231835596,
      "loss": 3.6871,
      "step": 226690
    },
    {
      "epoch": 0.47229166666666667,
      "grad_norm": 0.6861701607704163,
      "learning_rate": 0.00016407698730346024,
      "loss": 3.709,
      "step": 226700
    },
    {
      "epoch": 0.4723125,
      "grad_norm": 0.7431336045265198,
      "learning_rate": 0.00016406717222775745,
      "loss": 3.8567,
      "step": 226710
    },
    {
      "epoch": 0.4723333333333333,
      "grad_norm": 1.3009042739868164,
      "learning_rate": 0.00016405735709129008,
      "loss": 3.7883,
      "step": 226720
    },
    {
      "epoch": 0.4723541666666667,
      "grad_norm": 0.7734141945838928,
      "learning_rate": 0.00016404754189410048,
      "loss": 3.7016,
      "step": 226730
    },
    {
      "epoch": 0.472375,
      "grad_norm": 0.7488307356834412,
      "learning_rate": 0.00016403772663623107,
      "loss": 3.8482,
      "step": 226740
    },
    {
      "epoch": 0.47239583333333335,
      "grad_norm": 0.8183852434158325,
      "learning_rate": 0.00016402791131772424,
      "loss": 3.7439,
      "step": 226750
    },
    {
      "epoch": 0.47241666666666665,
      "grad_norm": 0.7257822155952454,
      "learning_rate": 0.00016401809593862238,
      "loss": 3.8757,
      "step": 226760
    },
    {
      "epoch": 0.4724375,
      "grad_norm": 0.8071761131286621,
      "learning_rate": 0.00016400828049896788,
      "loss": 3.8869,
      "step": 226770
    },
    {
      "epoch": 0.4724583333333333,
      "grad_norm": 0.8906059861183167,
      "learning_rate": 0.00016399846499880316,
      "loss": 3.7512,
      "step": 226780
    },
    {
      "epoch": 0.4724791666666667,
      "grad_norm": 0.9111548662185669,
      "learning_rate": 0.00016398864943817064,
      "loss": 3.8127,
      "step": 226790
    },
    {
      "epoch": 0.4725,
      "grad_norm": 0.9463064074516296,
      "learning_rate": 0.0001639788338171127,
      "loss": 3.7527,
      "step": 226800
    },
    {
      "epoch": 0.47252083333333333,
      "grad_norm": 0.8409653306007385,
      "learning_rate": 0.00016396901813567168,
      "loss": 3.658,
      "step": 226810
    },
    {
      "epoch": 0.4725416666666667,
      "grad_norm": 0.9257847666740417,
      "learning_rate": 0.00016395920239389,
      "loss": 3.8425,
      "step": 226820
    },
    {
      "epoch": 0.4725625,
      "grad_norm": 0.7816317677497864,
      "learning_rate": 0.0001639493865918102,
      "loss": 3.7967,
      "step": 226830
    },
    {
      "epoch": 0.47258333333333336,
      "grad_norm": 0.9597019553184509,
      "learning_rate": 0.0001639395707294745,
      "loss": 3.6641,
      "step": 226840
    },
    {
      "epoch": 0.47260416666666666,
      "grad_norm": 0.9290925860404968,
      "learning_rate": 0.00016392975480692537,
      "loss": 3.6373,
      "step": 226850
    },
    {
      "epoch": 0.472625,
      "grad_norm": 1.1017229557037354,
      "learning_rate": 0.00016391993882420525,
      "loss": 3.7364,
      "step": 226860
    },
    {
      "epoch": 0.4726458333333333,
      "grad_norm": 0.8387703895568848,
      "learning_rate": 0.0001639101227813565,
      "loss": 3.8409,
      "step": 226870
    },
    {
      "epoch": 0.4726666666666667,
      "grad_norm": 0.8601564764976501,
      "learning_rate": 0.00016390030667842148,
      "loss": 3.7652,
      "step": 226880
    },
    {
      "epoch": 0.4726875,
      "grad_norm": 0.8212698698043823,
      "learning_rate": 0.0001638904905154427,
      "loss": 3.7442,
      "step": 226890
    },
    {
      "epoch": 0.47270833333333334,
      "grad_norm": 0.8179763555526733,
      "learning_rate": 0.00016388067429246245,
      "loss": 3.8344,
      "step": 226900
    },
    {
      "epoch": 0.47272916666666664,
      "grad_norm": 0.8377020359039307,
      "learning_rate": 0.0001638708580095232,
      "loss": 3.9181,
      "step": 226910
    },
    {
      "epoch": 0.47275,
      "grad_norm": 0.8885354995727539,
      "learning_rate": 0.00016386104166666736,
      "loss": 3.676,
      "step": 226920
    },
    {
      "epoch": 0.4727708333333333,
      "grad_norm": 0.8667125701904297,
      "learning_rate": 0.00016385122526393726,
      "loss": 3.7522,
      "step": 226930
    },
    {
      "epoch": 0.47279166666666667,
      "grad_norm": 0.8643789291381836,
      "learning_rate": 0.00016384140880137534,
      "loss": 3.8016,
      "step": 226940
    },
    {
      "epoch": 0.4728125,
      "grad_norm": 0.7453768253326416,
      "learning_rate": 0.00016383159227902405,
      "loss": 3.9635,
      "step": 226950
    },
    {
      "epoch": 0.4728333333333333,
      "grad_norm": 0.7197169661521912,
      "learning_rate": 0.00016382177569692575,
      "loss": 3.8694,
      "step": 226960
    },
    {
      "epoch": 0.4728541666666667,
      "grad_norm": 0.8067252039909363,
      "learning_rate": 0.0001638119590551229,
      "loss": 3.894,
      "step": 226970
    },
    {
      "epoch": 0.472875,
      "grad_norm": 0.6897529363632202,
      "learning_rate": 0.00016380214235365773,
      "loss": 3.8238,
      "step": 226980
    },
    {
      "epoch": 0.47289583333333335,
      "grad_norm": 0.8564261794090271,
      "learning_rate": 0.00016379232559257285,
      "loss": 3.8585,
      "step": 226990
    },
    {
      "epoch": 0.47291666666666665,
      "grad_norm": 0.8269258737564087,
      "learning_rate": 0.00016378250877191063,
      "loss": 3.8635,
      "step": 227000
    },
    {
      "epoch": 0.47291666666666665,
      "eval_loss": 4.142796516418457,
      "eval_runtime": 8.5918,
      "eval_samples_per_second": 1.164,
      "eval_steps_per_second": 0.349,
      "step": 227000
    },
    {
      "epoch": 0.4729375,
      "grad_norm": 0.761660635471344,
      "learning_rate": 0.00016377269189171335,
      "loss": 3.596,
      "step": 227010
    },
    {
      "epoch": 0.4729583333333333,
      "grad_norm": 0.8378297090530396,
      "learning_rate": 0.00016376287495202348,
      "loss": 4.0284,
      "step": 227020
    },
    {
      "epoch": 0.4729791666666667,
      "grad_norm": 1.2264515161514282,
      "learning_rate": 0.0001637530579528835,
      "loss": 3.7451,
      "step": 227030
    },
    {
      "epoch": 0.473,
      "grad_norm": 0.7333104610443115,
      "learning_rate": 0.00016374324089433572,
      "loss": 3.7115,
      "step": 227040
    },
    {
      "epoch": 0.47302083333333333,
      "grad_norm": 0.7491182088851929,
      "learning_rate": 0.00016373342377642254,
      "loss": 3.7746,
      "step": 227050
    },
    {
      "epoch": 0.4730416666666667,
      "grad_norm": 0.8470300436019897,
      "learning_rate": 0.0001637236065991865,
      "loss": 3.6983,
      "step": 227060
    },
    {
      "epoch": 0.4730625,
      "grad_norm": 0.7615286111831665,
      "learning_rate": 0.00016371378936266986,
      "loss": 3.7544,
      "step": 227070
    },
    {
      "epoch": 0.47308333333333336,
      "grad_norm": 0.7230088114738464,
      "learning_rate": 0.00016370397206691507,
      "loss": 3.7831,
      "step": 227080
    },
    {
      "epoch": 0.47310416666666666,
      "grad_norm": 0.8773234486579895,
      "learning_rate": 0.00016369415471196455,
      "loss": 3.737,
      "step": 227090
    },
    {
      "epoch": 0.473125,
      "grad_norm": 0.7876203060150146,
      "learning_rate": 0.00016368433729786072,
      "loss": 3.8757,
      "step": 227100
    },
    {
      "epoch": 0.4731458333333333,
      "grad_norm": 0.769987165927887,
      "learning_rate": 0.00016367451982464594,
      "loss": 3.7161,
      "step": 227110
    },
    {
      "epoch": 0.4731666666666667,
      "grad_norm": 0.7911025881767273,
      "learning_rate": 0.00016366470229236266,
      "loss": 3.7005,
      "step": 227120
    },
    {
      "epoch": 0.4731875,
      "grad_norm": 0.9301880598068237,
      "learning_rate": 0.00016365488470105328,
      "loss": 3.9957,
      "step": 227130
    },
    {
      "epoch": 0.47320833333333334,
      "grad_norm": 0.9231680035591125,
      "learning_rate": 0.0001636450670507602,
      "loss": 3.8336,
      "step": 227140
    },
    {
      "epoch": 0.47322916666666665,
      "grad_norm": 0.9368084073066711,
      "learning_rate": 0.00016363524934152583,
      "loss": 3.7703,
      "step": 227150
    },
    {
      "epoch": 0.47325,
      "grad_norm": 0.8308490514755249,
      "learning_rate": 0.00016362543157339256,
      "loss": 3.6457,
      "step": 227160
    },
    {
      "epoch": 0.4732708333333333,
      "grad_norm": 0.8809034824371338,
      "learning_rate": 0.0001636156137464029,
      "loss": 3.6957,
      "step": 227170
    },
    {
      "epoch": 0.47329166666666667,
      "grad_norm": 0.8602746725082397,
      "learning_rate": 0.00016360579586059907,
      "loss": 3.7981,
      "step": 227180
    },
    {
      "epoch": 0.4733125,
      "grad_norm": 0.9987384676933289,
      "learning_rate": 0.00016359597791602365,
      "loss": 3.5688,
      "step": 227190
    },
    {
      "epoch": 0.47333333333333333,
      "grad_norm": 0.7536695003509521,
      "learning_rate": 0.000163586159912719,
      "loss": 3.7361,
      "step": 227200
    },
    {
      "epoch": 0.4733541666666667,
      "grad_norm": 0.8220461010932922,
      "learning_rate": 0.00016357634185072746,
      "loss": 3.7033,
      "step": 227210
    },
    {
      "epoch": 0.473375,
      "grad_norm": 0.8272463083267212,
      "learning_rate": 0.00016356652373009152,
      "loss": 3.727,
      "step": 227220
    },
    {
      "epoch": 0.47339583333333335,
      "grad_norm": 0.8154260516166687,
      "learning_rate": 0.0001635567055508536,
      "loss": 3.8701,
      "step": 227230
    },
    {
      "epoch": 0.47341666666666665,
      "grad_norm": 0.7421369552612305,
      "learning_rate": 0.00016354688731305607,
      "loss": 3.6728,
      "step": 227240
    },
    {
      "epoch": 0.4734375,
      "grad_norm": 0.8149720430374146,
      "learning_rate": 0.00016353706901674133,
      "loss": 3.9101,
      "step": 227250
    },
    {
      "epoch": 0.4734583333333333,
      "grad_norm": 0.7927610874176025,
      "learning_rate": 0.00016352725066195182,
      "loss": 3.6851,
      "step": 227260
    },
    {
      "epoch": 0.4734791666666667,
      "grad_norm": 1.2020131349563599,
      "learning_rate": 0.0001635174322487299,
      "loss": 3.9349,
      "step": 227270
    },
    {
      "epoch": 0.4735,
      "grad_norm": 0.888550877571106,
      "learning_rate": 0.00016350761377711807,
      "loss": 3.6573,
      "step": 227280
    },
    {
      "epoch": 0.47352083333333334,
      "grad_norm": 0.8059419989585876,
      "learning_rate": 0.00016349779524715868,
      "loss": 3.6832,
      "step": 227290
    },
    {
      "epoch": 0.4735416666666667,
      "grad_norm": 0.7590266466140747,
      "learning_rate": 0.00016348797665889417,
      "loss": 3.8677,
      "step": 227300
    },
    {
      "epoch": 0.4735625,
      "grad_norm": 0.771146297454834,
      "learning_rate": 0.0001634781580123669,
      "loss": 3.9154,
      "step": 227310
    },
    {
      "epoch": 0.47358333333333336,
      "grad_norm": 0.8782133460044861,
      "learning_rate": 0.00016346833930761936,
      "loss": 3.8035,
      "step": 227320
    },
    {
      "epoch": 0.47360416666666666,
      "grad_norm": 0.9415056109428406,
      "learning_rate": 0.00016345852054469394,
      "loss": 4.0253,
      "step": 227330
    },
    {
      "epoch": 0.473625,
      "grad_norm": 0.8358776569366455,
      "learning_rate": 0.000163448701723633,
      "loss": 3.7367,
      "step": 227340
    },
    {
      "epoch": 0.4736458333333333,
      "grad_norm": 0.7987793684005737,
      "learning_rate": 0.00016343888284447902,
      "loss": 3.801,
      "step": 227350
    },
    {
      "epoch": 0.4736666666666667,
      "grad_norm": 1.0317327976226807,
      "learning_rate": 0.00016342906390727437,
      "loss": 3.9832,
      "step": 227360
    },
    {
      "epoch": 0.4736875,
      "grad_norm": 0.7927701473236084,
      "learning_rate": 0.00016341924491206149,
      "loss": 3.8412,
      "step": 227370
    },
    {
      "epoch": 0.47370833333333334,
      "grad_norm": 0.825200617313385,
      "learning_rate": 0.00016340942585888276,
      "loss": 3.7801,
      "step": 227380
    },
    {
      "epoch": 0.47372916666666665,
      "grad_norm": 0.9196262955665588,
      "learning_rate": 0.00016339960674778065,
      "loss": 3.7982,
      "step": 227390
    },
    {
      "epoch": 0.47375,
      "grad_norm": 0.8892752528190613,
      "learning_rate": 0.00016338978757879754,
      "loss": 3.7747,
      "step": 227400
    },
    {
      "epoch": 0.4737708333333333,
      "grad_norm": 0.7764261364936829,
      "learning_rate": 0.00016337996835197582,
      "loss": 3.75,
      "step": 227410
    },
    {
      "epoch": 0.47379166666666667,
      "grad_norm": 0.7660861611366272,
      "learning_rate": 0.00016337014906735796,
      "loss": 3.8589,
      "step": 227420
    },
    {
      "epoch": 0.4738125,
      "grad_norm": 0.8235524296760559,
      "learning_rate": 0.00016336032972498634,
      "loss": 3.8292,
      "step": 227430
    },
    {
      "epoch": 0.47383333333333333,
      "grad_norm": 0.7637166976928711,
      "learning_rate": 0.0001633505103249034,
      "loss": 3.712,
      "step": 227440
    },
    {
      "epoch": 0.4738541666666667,
      "grad_norm": 0.8065471053123474,
      "learning_rate": 0.0001633406908671515,
      "loss": 3.6576,
      "step": 227450
    },
    {
      "epoch": 0.473875,
      "grad_norm": 0.7661262154579163,
      "learning_rate": 0.00016333087135177312,
      "loss": 3.6737,
      "step": 227460
    },
    {
      "epoch": 0.47389583333333335,
      "grad_norm": 0.7833986282348633,
      "learning_rate": 0.00016332105177881064,
      "loss": 3.6005,
      "step": 227470
    },
    {
      "epoch": 0.47391666666666665,
      "grad_norm": 0.7500713467597961,
      "learning_rate": 0.00016331123214830651,
      "loss": 3.4844,
      "step": 227480
    },
    {
      "epoch": 0.4739375,
      "grad_norm": 0.8255361914634705,
      "learning_rate": 0.0001633014124603031,
      "loss": 3.7798,
      "step": 227490
    },
    {
      "epoch": 0.4739583333333333,
      "grad_norm": 0.9472163319587708,
      "learning_rate": 0.00016329159271484287,
      "loss": 3.6964,
      "step": 227500
    },
    {
      "epoch": 0.4739791666666667,
      "grad_norm": 0.8229089379310608,
      "learning_rate": 0.0001632817729119682,
      "loss": 3.8527,
      "step": 227510
    },
    {
      "epoch": 0.474,
      "grad_norm": 0.8591821789741516,
      "learning_rate": 0.00016327195305172154,
      "loss": 3.8027,
      "step": 227520
    },
    {
      "epoch": 0.47402083333333334,
      "grad_norm": 0.7603195309638977,
      "learning_rate": 0.00016326213313414532,
      "loss": 3.8303,
      "step": 227530
    },
    {
      "epoch": 0.47404166666666664,
      "grad_norm": 0.8146430253982544,
      "learning_rate": 0.00016325231315928194,
      "loss": 3.7691,
      "step": 227540
    },
    {
      "epoch": 0.4740625,
      "grad_norm": 0.7859088182449341,
      "learning_rate": 0.00016324249312717375,
      "loss": 3.8232,
      "step": 227550
    },
    {
      "epoch": 0.47408333333333336,
      "grad_norm": 0.8986679911613464,
      "learning_rate": 0.00016323267303786331,
      "loss": 3.6519,
      "step": 227560
    },
    {
      "epoch": 0.47410416666666666,
      "grad_norm": 0.7392051219940186,
      "learning_rate": 0.00016322285289139293,
      "loss": 3.6459,
      "step": 227570
    },
    {
      "epoch": 0.474125,
      "grad_norm": 0.766987144947052,
      "learning_rate": 0.00016321303268780502,
      "loss": 3.799,
      "step": 227580
    },
    {
      "epoch": 0.4741458333333333,
      "grad_norm": 0.8531661033630371,
      "learning_rate": 0.0001632032124271421,
      "loss": 3.931,
      "step": 227590
    },
    {
      "epoch": 0.4741666666666667,
      "grad_norm": 0.7248126268386841,
      "learning_rate": 0.00016319339210944646,
      "loss": 3.7928,
      "step": 227600
    },
    {
      "epoch": 0.4741875,
      "grad_norm": 0.8522660136222839,
      "learning_rate": 0.00016318357173476065,
      "loss": 3.7509,
      "step": 227610
    },
    {
      "epoch": 0.47420833333333334,
      "grad_norm": 0.735779345035553,
      "learning_rate": 0.000163173751303127,
      "loss": 3.6122,
      "step": 227620
    },
    {
      "epoch": 0.47422916666666665,
      "grad_norm": 0.806473970413208,
      "learning_rate": 0.00016316393081458797,
      "loss": 3.4936,
      "step": 227630
    },
    {
      "epoch": 0.47425,
      "grad_norm": 0.8034382462501526,
      "learning_rate": 0.00016315411026918594,
      "loss": 3.8921,
      "step": 227640
    },
    {
      "epoch": 0.4742708333333333,
      "grad_norm": 0.900280773639679,
      "learning_rate": 0.00016314428966696337,
      "loss": 3.6905,
      "step": 227650
    },
    {
      "epoch": 0.47429166666666667,
      "grad_norm": 0.9954524636268616,
      "learning_rate": 0.0001631344690079627,
      "loss": 3.9203,
      "step": 227660
    },
    {
      "epoch": 0.4743125,
      "grad_norm": 0.8904805779457092,
      "learning_rate": 0.0001631246482922263,
      "loss": 3.6566,
      "step": 227670
    },
    {
      "epoch": 0.47433333333333333,
      "grad_norm": 1.0014939308166504,
      "learning_rate": 0.00016311482751979662,
      "loss": 3.94,
      "step": 227680
    },
    {
      "epoch": 0.4743541666666667,
      "grad_norm": 0.9665305614471436,
      "learning_rate": 0.0001631050066907161,
      "loss": 3.7407,
      "step": 227690
    },
    {
      "epoch": 0.474375,
      "grad_norm": 0.7354772686958313,
      "learning_rate": 0.00016309518580502714,
      "loss": 3.6057,
      "step": 227700
    },
    {
      "epoch": 0.47439583333333335,
      "grad_norm": 0.8283520340919495,
      "learning_rate": 0.00016308536486277212,
      "loss": 3.8077,
      "step": 227710
    },
    {
      "epoch": 0.47441666666666665,
      "grad_norm": 0.768034815788269,
      "learning_rate": 0.00016307554386399352,
      "loss": 3.8861,
      "step": 227720
    },
    {
      "epoch": 0.4744375,
      "grad_norm": 0.8699434399604797,
      "learning_rate": 0.0001630657228087338,
      "loss": 3.8206,
      "step": 227730
    },
    {
      "epoch": 0.4744583333333333,
      "grad_norm": 0.9987080693244934,
      "learning_rate": 0.00016305590169703524,
      "loss": 3.5644,
      "step": 227740
    },
    {
      "epoch": 0.4744791666666667,
      "grad_norm": 0.7712528109550476,
      "learning_rate": 0.00016304608052894037,
      "loss": 3.6487,
      "step": 227750
    },
    {
      "epoch": 0.4745,
      "grad_norm": 0.7696032524108887,
      "learning_rate": 0.00016303625930449165,
      "loss": 3.8903,
      "step": 227760
    },
    {
      "epoch": 0.47452083333333334,
      "grad_norm": 0.8821707367897034,
      "learning_rate": 0.00016302643802373142,
      "loss": 3.7238,
      "step": 227770
    },
    {
      "epoch": 0.47454166666666664,
      "grad_norm": 0.8345845937728882,
      "learning_rate": 0.00016301661668670207,
      "loss": 3.7711,
      "step": 227780
    },
    {
      "epoch": 0.4745625,
      "grad_norm": 0.8561860918998718,
      "learning_rate": 0.0001630067952934462,
      "loss": 3.7193,
      "step": 227790
    },
    {
      "epoch": 0.47458333333333336,
      "grad_norm": 0.8571158051490784,
      "learning_rate": 0.00016299697384400606,
      "loss": 3.761,
      "step": 227800
    },
    {
      "epoch": 0.47460416666666666,
      "grad_norm": 0.950771152973175,
      "learning_rate": 0.00016298715233842415,
      "loss": 3.5039,
      "step": 227810
    },
    {
      "epoch": 0.474625,
      "grad_norm": 1.0040191411972046,
      "learning_rate": 0.00016297733077674288,
      "loss": 3.8703,
      "step": 227820
    },
    {
      "epoch": 0.4746458333333333,
      "grad_norm": 0.7227426767349243,
      "learning_rate": 0.00016296750915900467,
      "loss": 3.8975,
      "step": 227830
    },
    {
      "epoch": 0.4746666666666667,
      "grad_norm": 0.8414962291717529,
      "learning_rate": 0.00016295768748525197,
      "loss": 3.7769,
      "step": 227840
    },
    {
      "epoch": 0.4746875,
      "grad_norm": 0.823146641254425,
      "learning_rate": 0.00016294786575552717,
      "loss": 3.6887,
      "step": 227850
    },
    {
      "epoch": 0.47470833333333334,
      "grad_norm": 0.8215775489807129,
      "learning_rate": 0.00016293804396987272,
      "loss": 3.7495,
      "step": 227860
    },
    {
      "epoch": 0.47472916666666665,
      "grad_norm": 0.82856285572052,
      "learning_rate": 0.00016292822212833106,
      "loss": 3.8793,
      "step": 227870
    },
    {
      "epoch": 0.47475,
      "grad_norm": 0.8049535155296326,
      "learning_rate": 0.00016291840023094457,
      "loss": 3.7855,
      "step": 227880
    },
    {
      "epoch": 0.4747708333333333,
      "grad_norm": 0.7628368735313416,
      "learning_rate": 0.0001629085782777557,
      "loss": 3.6912,
      "step": 227890
    },
    {
      "epoch": 0.47479166666666667,
      "grad_norm": 0.7663231492042542,
      "learning_rate": 0.00016289875626880694,
      "loss": 3.9367,
      "step": 227900
    },
    {
      "epoch": 0.4748125,
      "grad_norm": 0.7834097743034363,
      "learning_rate": 0.0001628889342041406,
      "loss": 3.8573,
      "step": 227910
    },
    {
      "epoch": 0.47483333333333333,
      "grad_norm": 0.8143627643585205,
      "learning_rate": 0.00016287911208379916,
      "loss": 3.8232,
      "step": 227920
    },
    {
      "epoch": 0.4748541666666667,
      "grad_norm": 0.9738169312477112,
      "learning_rate": 0.00016286928990782515,
      "loss": 3.9208,
      "step": 227930
    },
    {
      "epoch": 0.474875,
      "grad_norm": 0.7816861271858215,
      "learning_rate": 0.00016285946767626082,
      "loss": 3.896,
      "step": 227940
    },
    {
      "epoch": 0.47489583333333335,
      "grad_norm": 1.003248691558838,
      "learning_rate": 0.00016284964538914866,
      "loss": 3.6108,
      "step": 227950
    },
    {
      "epoch": 0.47491666666666665,
      "grad_norm": 1.0429067611694336,
      "learning_rate": 0.00016283982304653115,
      "loss": 3.9945,
      "step": 227960
    },
    {
      "epoch": 0.4749375,
      "grad_norm": 0.8397911787033081,
      "learning_rate": 0.0001628300006484507,
      "loss": 3.6384,
      "step": 227970
    },
    {
      "epoch": 0.4749583333333333,
      "grad_norm": 0.9337669014930725,
      "learning_rate": 0.0001628201781949497,
      "loss": 3.7376,
      "step": 227980
    },
    {
      "epoch": 0.4749791666666667,
      "grad_norm": 0.9492710828781128,
      "learning_rate": 0.00016281035568607062,
      "loss": 3.7624,
      "step": 227990
    },
    {
      "epoch": 0.475,
      "grad_norm": 0.873110294342041,
      "learning_rate": 0.00016280053312185588,
      "loss": 3.7968,
      "step": 228000
    },
    {
      "epoch": 0.475,
      "eval_loss": 4.127738952636719,
      "eval_runtime": 8.021,
      "eval_samples_per_second": 1.247,
      "eval_steps_per_second": 0.374,
      "step": 228000
    },
    {
      "epoch": 0.47502083333333334,
      "grad_norm": 0.8834174275398254,
      "learning_rate": 0.00016279071050234785,
      "loss": 3.5336,
      "step": 228010
    },
    {
      "epoch": 0.47504166666666664,
      "grad_norm": 0.7786921262741089,
      "learning_rate": 0.0001627808878275891,
      "loss": 3.7946,
      "step": 228020
    },
    {
      "epoch": 0.4750625,
      "grad_norm": 0.7235152125358582,
      "learning_rate": 0.0001627710650976219,
      "loss": 3.8107,
      "step": 228030
    },
    {
      "epoch": 0.47508333333333336,
      "grad_norm": 0.8739823698997498,
      "learning_rate": 0.00016276124231248882,
      "loss": 3.808,
      "step": 228040
    },
    {
      "epoch": 0.47510416666666666,
      "grad_norm": 0.7277241945266724,
      "learning_rate": 0.00016275141947223216,
      "loss": 3.7962,
      "step": 228050
    },
    {
      "epoch": 0.475125,
      "grad_norm": 0.8840017914772034,
      "learning_rate": 0.00016274159657689443,
      "loss": 3.9772,
      "step": 228060
    },
    {
      "epoch": 0.4751458333333333,
      "grad_norm": 0.80140221118927,
      "learning_rate": 0.0001627317736265181,
      "loss": 3.8639,
      "step": 228070
    },
    {
      "epoch": 0.4751666666666667,
      "grad_norm": 0.8941497206687927,
      "learning_rate": 0.0001627219506211455,
      "loss": 3.7295,
      "step": 228080
    },
    {
      "epoch": 0.4751875,
      "grad_norm": 0.9040611982345581,
      "learning_rate": 0.0001627121275608191,
      "loss": 3.649,
      "step": 228090
    },
    {
      "epoch": 0.47520833333333334,
      "grad_norm": 0.8316664099693298,
      "learning_rate": 0.00016270230444558138,
      "loss": 3.7996,
      "step": 228100
    },
    {
      "epoch": 0.47522916666666665,
      "grad_norm": 0.7508277893066406,
      "learning_rate": 0.00016269248127547475,
      "loss": 3.8545,
      "step": 228110
    },
    {
      "epoch": 0.47525,
      "grad_norm": 0.7950739860534668,
      "learning_rate": 0.00016268265805054153,
      "loss": 3.7818,
      "step": 228120
    },
    {
      "epoch": 0.4752708333333333,
      "grad_norm": 0.723667562007904,
      "learning_rate": 0.00016267283477082434,
      "loss": 3.9147,
      "step": 228130
    },
    {
      "epoch": 0.47529166666666667,
      "grad_norm": 0.7942192554473877,
      "learning_rate": 0.00016266301143636546,
      "loss": 3.7749,
      "step": 228140
    },
    {
      "epoch": 0.4753125,
      "grad_norm": 0.801341712474823,
      "learning_rate": 0.0001626531880472074,
      "loss": 3.8832,
      "step": 228150
    },
    {
      "epoch": 0.47533333333333333,
      "grad_norm": 0.8305797576904297,
      "learning_rate": 0.00016264336460339258,
      "loss": 3.8319,
      "step": 228160
    },
    {
      "epoch": 0.4753541666666667,
      "grad_norm": 0.9972256422042847,
      "learning_rate": 0.00016263354110496346,
      "loss": 3.5754,
      "step": 228170
    },
    {
      "epoch": 0.475375,
      "grad_norm": 0.6913699507713318,
      "learning_rate": 0.0001626237175519624,
      "loss": 3.9436,
      "step": 228180
    },
    {
      "epoch": 0.47539583333333335,
      "grad_norm": 0.7635405659675598,
      "learning_rate": 0.0001626138939444319,
      "loss": 3.6433,
      "step": 228190
    },
    {
      "epoch": 0.47541666666666665,
      "grad_norm": 0.9050591588020325,
      "learning_rate": 0.00016260407028241433,
      "loss": 3.8324,
      "step": 228200
    },
    {
      "epoch": 0.4754375,
      "grad_norm": 0.8827922344207764,
      "learning_rate": 0.0001625942465659522,
      "loss": 3.7896,
      "step": 228210
    },
    {
      "epoch": 0.4754583333333333,
      "grad_norm": 0.7541621923446655,
      "learning_rate": 0.00016258442279508794,
      "loss": 3.94,
      "step": 228220
    },
    {
      "epoch": 0.4754791666666667,
      "grad_norm": 0.7306566834449768,
      "learning_rate": 0.0001625745989698639,
      "loss": 3.6587,
      "step": 228230
    },
    {
      "epoch": 0.4755,
      "grad_norm": 0.795382022857666,
      "learning_rate": 0.00016256477509032262,
      "loss": 3.7774,
      "step": 228240
    },
    {
      "epoch": 0.47552083333333334,
      "grad_norm": 0.7677189111709595,
      "learning_rate": 0.00016255495115650645,
      "loss": 4.033,
      "step": 228250
    },
    {
      "epoch": 0.47554166666666664,
      "grad_norm": 0.8406087160110474,
      "learning_rate": 0.00016254512716845786,
      "loss": 3.7944,
      "step": 228260
    },
    {
      "epoch": 0.4755625,
      "grad_norm": 0.8020372986793518,
      "learning_rate": 0.00016253530312621933,
      "loss": 3.9667,
      "step": 228270
    },
    {
      "epoch": 0.47558333333333336,
      "grad_norm": 0.8360982537269592,
      "learning_rate": 0.00016252547902983317,
      "loss": 3.871,
      "step": 228280
    },
    {
      "epoch": 0.47560416666666666,
      "grad_norm": 0.7884853482246399,
      "learning_rate": 0.00016251565487934198,
      "loss": 3.8799,
      "step": 228290
    },
    {
      "epoch": 0.475625,
      "grad_norm": 0.7900139689445496,
      "learning_rate": 0.00016250583067478806,
      "loss": 3.683,
      "step": 228300
    },
    {
      "epoch": 0.4756458333333333,
      "grad_norm": 0.7006628513336182,
      "learning_rate": 0.00016249600641621395,
      "loss": 3.5529,
      "step": 228310
    },
    {
      "epoch": 0.4756666666666667,
      "grad_norm": 0.7690179944038391,
      "learning_rate": 0.000162486182103662,
      "loss": 3.744,
      "step": 228320
    },
    {
      "epoch": 0.4756875,
      "grad_norm": 1.0311105251312256,
      "learning_rate": 0.0001624763577371747,
      "loss": 3.8233,
      "step": 228330
    },
    {
      "epoch": 0.47570833333333334,
      "grad_norm": 0.8719469904899597,
      "learning_rate": 0.00016246653331679445,
      "loss": 3.8234,
      "step": 228340
    },
    {
      "epoch": 0.47572916666666665,
      "grad_norm": 0.8891952037811279,
      "learning_rate": 0.00016245670884256372,
      "loss": 3.7558,
      "step": 228350
    },
    {
      "epoch": 0.47575,
      "grad_norm": 0.7570291757583618,
      "learning_rate": 0.00016244688431452496,
      "loss": 3.8655,
      "step": 228360
    },
    {
      "epoch": 0.4757708333333333,
      "grad_norm": 0.8875386118888855,
      "learning_rate": 0.0001624370597327206,
      "loss": 3.8581,
      "step": 228370
    },
    {
      "epoch": 0.47579166666666667,
      "grad_norm": 1.194340705871582,
      "learning_rate": 0.000162427235097193,
      "loss": 3.8468,
      "step": 228380
    },
    {
      "epoch": 0.4758125,
      "grad_norm": 1.141671061515808,
      "learning_rate": 0.00016241741040798474,
      "loss": 3.8585,
      "step": 228390
    },
    {
      "epoch": 0.47583333333333333,
      "grad_norm": 0.8034887313842773,
      "learning_rate": 0.00016240758566513812,
      "loss": 3.689,
      "step": 228400
    },
    {
      "epoch": 0.4758541666666667,
      "grad_norm": 0.9106435775756836,
      "learning_rate": 0.0001623977608686957,
      "loss": 3.7971,
      "step": 228410
    },
    {
      "epoch": 0.475875,
      "grad_norm": 0.9232433438301086,
      "learning_rate": 0.0001623879360186998,
      "loss": 3.7516,
      "step": 228420
    },
    {
      "epoch": 0.47589583333333335,
      "grad_norm": 0.7635679841041565,
      "learning_rate": 0.000162378111115193,
      "loss": 3.876,
      "step": 228430
    },
    {
      "epoch": 0.47591666666666665,
      "grad_norm": 0.8366963267326355,
      "learning_rate": 0.0001623682861582176,
      "loss": 3.7603,
      "step": 228440
    },
    {
      "epoch": 0.4759375,
      "grad_norm": 1.0042202472686768,
      "learning_rate": 0.00016235846114781604,
      "loss": 3.6519,
      "step": 228450
    },
    {
      "epoch": 0.4759583333333333,
      "grad_norm": 0.7635241150856018,
      "learning_rate": 0.00016234863608403092,
      "loss": 3.7306,
      "step": 228460
    },
    {
      "epoch": 0.4759791666666667,
      "grad_norm": 0.7737174034118652,
      "learning_rate": 0.00016233881096690457,
      "loss": 3.689,
      "step": 228470
    },
    {
      "epoch": 0.476,
      "grad_norm": 0.7849186062812805,
      "learning_rate": 0.00016232898579647938,
      "loss": 3.7497,
      "step": 228480
    },
    {
      "epoch": 0.47602083333333334,
      "grad_norm": 0.7523106336593628,
      "learning_rate": 0.0001623191605727979,
      "loss": 3.754,
      "step": 228490
    },
    {
      "epoch": 0.47604166666666664,
      "grad_norm": 0.763850212097168,
      "learning_rate": 0.00016230933529590253,
      "loss": 3.8857,
      "step": 228500
    },
    {
      "epoch": 0.4760625,
      "grad_norm": 0.8738360404968262,
      "learning_rate": 0.00016229950996583567,
      "loss": 3.8079,
      "step": 228510
    },
    {
      "epoch": 0.47608333333333336,
      "grad_norm": 0.7495872378349304,
      "learning_rate": 0.0001622896845826398,
      "loss": 3.6595,
      "step": 228520
    },
    {
      "epoch": 0.47610416666666666,
      "grad_norm": 0.8518951535224915,
      "learning_rate": 0.0001622798591463574,
      "loss": 3.646,
      "step": 228530
    },
    {
      "epoch": 0.476125,
      "grad_norm": 0.7500289082527161,
      "learning_rate": 0.00016227003365703083,
      "loss": 3.7648,
      "step": 228540
    },
    {
      "epoch": 0.4761458333333333,
      "grad_norm": 0.7953646183013916,
      "learning_rate": 0.00016226020811470256,
      "loss": 3.8844,
      "step": 228550
    },
    {
      "epoch": 0.4761666666666667,
      "grad_norm": 0.8317655324935913,
      "learning_rate": 0.00016225038251941506,
      "loss": 3.6597,
      "step": 228560
    },
    {
      "epoch": 0.4761875,
      "grad_norm": 0.719887912273407,
      "learning_rate": 0.00016224055687121078,
      "loss": 3.8656,
      "step": 228570
    },
    {
      "epoch": 0.47620833333333334,
      "grad_norm": 0.751017689704895,
      "learning_rate": 0.00016223073117013211,
      "loss": 3.89,
      "step": 228580
    },
    {
      "epoch": 0.47622916666666665,
      "grad_norm": 0.9640151262283325,
      "learning_rate": 0.0001622209054162215,
      "loss": 3.9806,
      "step": 228590
    },
    {
      "epoch": 0.47625,
      "grad_norm": 0.760826826095581,
      "learning_rate": 0.0001622110796095215,
      "loss": 3.8259,
      "step": 228600
    },
    {
      "epoch": 0.4762708333333333,
      "grad_norm": 0.8251118659973145,
      "learning_rate": 0.0001622012537500744,
      "loss": 3.656,
      "step": 228610
    },
    {
      "epoch": 0.47629166666666667,
      "grad_norm": 0.8291637301445007,
      "learning_rate": 0.0001621914278379227,
      "loss": 3.6652,
      "step": 228620
    },
    {
      "epoch": 0.4763125,
      "grad_norm": 0.7060231566429138,
      "learning_rate": 0.00016218160187310893,
      "loss": 3.868,
      "step": 228630
    },
    {
      "epoch": 0.47633333333333333,
      "grad_norm": 0.8745769262313843,
      "learning_rate": 0.00016217177585567543,
      "loss": 3.8909,
      "step": 228640
    },
    {
      "epoch": 0.4763541666666667,
      "grad_norm": 0.7834623456001282,
      "learning_rate": 0.0001621619497856646,
      "loss": 3.8957,
      "step": 228650
    },
    {
      "epoch": 0.476375,
      "grad_norm": 0.8267910480499268,
      "learning_rate": 0.00016215212366311907,
      "loss": 3.6456,
      "step": 228660
    },
    {
      "epoch": 0.47639583333333335,
      "grad_norm": 0.8497092127799988,
      "learning_rate": 0.00016214229748808112,
      "loss": 3.7391,
      "step": 228670
    },
    {
      "epoch": 0.47641666666666665,
      "grad_norm": 0.8391067385673523,
      "learning_rate": 0.00016213247126059326,
      "loss": 3.8318,
      "step": 228680
    },
    {
      "epoch": 0.4764375,
      "grad_norm": 0.941072940826416,
      "learning_rate": 0.00016212264498069795,
      "loss": 3.7317,
      "step": 228690
    },
    {
      "epoch": 0.4764583333333333,
      "grad_norm": 0.7729248404502869,
      "learning_rate": 0.00016211281864843757,
      "loss": 3.8356,
      "step": 228700
    },
    {
      "epoch": 0.4764791666666667,
      "grad_norm": 1.371205449104309,
      "learning_rate": 0.00016210299226385465,
      "loss": 3.8465,
      "step": 228710
    },
    {
      "epoch": 0.4765,
      "grad_norm": 0.7827930450439453,
      "learning_rate": 0.00016209316582699155,
      "loss": 4.068,
      "step": 228720
    },
    {
      "epoch": 0.47652083333333334,
      "grad_norm": 0.8592396974563599,
      "learning_rate": 0.00016208333933789078,
      "loss": 3.8053,
      "step": 228730
    },
    {
      "epoch": 0.47654166666666664,
      "grad_norm": 0.8393040895462036,
      "learning_rate": 0.00016207351279659484,
      "loss": 3.734,
      "step": 228740
    },
    {
      "epoch": 0.4765625,
      "grad_norm": 0.7171294093132019,
      "learning_rate": 0.00016206368620314598,
      "loss": 3.6731,
      "step": 228750
    },
    {
      "epoch": 0.47658333333333336,
      "grad_norm": 0.7481410503387451,
      "learning_rate": 0.0001620538595575868,
      "loss": 3.7484,
      "step": 228760
    },
    {
      "epoch": 0.47660416666666666,
      "grad_norm": 0.7725155353546143,
      "learning_rate": 0.0001620440328599598,
      "loss": 3.7777,
      "step": 228770
    },
    {
      "epoch": 0.476625,
      "grad_norm": 0.9456274509429932,
      "learning_rate": 0.00016203420611030723,
      "loss": 3.6317,
      "step": 228780
    },
    {
      "epoch": 0.4766458333333333,
      "grad_norm": 0.8510338664054871,
      "learning_rate": 0.00016202437930867172,
      "loss": 3.9799,
      "step": 228790
    },
    {
      "epoch": 0.4766666666666667,
      "grad_norm": 1.029837727546692,
      "learning_rate": 0.00016201455245509568,
      "loss": 3.7881,
      "step": 228800
    },
    {
      "epoch": 0.4766875,
      "grad_norm": 0.7245389223098755,
      "learning_rate": 0.0001620047255496215,
      "loss": 3.789,
      "step": 228810
    },
    {
      "epoch": 0.47670833333333335,
      "grad_norm": 0.9351601004600525,
      "learning_rate": 0.0001619948985922916,
      "loss": 3.7199,
      "step": 228820
    },
    {
      "epoch": 0.47672916666666665,
      "grad_norm": 0.8301877379417419,
      "learning_rate": 0.00016198507158314858,
      "loss": 3.967,
      "step": 228830
    },
    {
      "epoch": 0.47675,
      "grad_norm": 0.8606275916099548,
      "learning_rate": 0.00016197524452223476,
      "loss": 3.9276,
      "step": 228840
    },
    {
      "epoch": 0.4767708333333333,
      "grad_norm": 1.1603678464889526,
      "learning_rate": 0.00016196541740959257,
      "loss": 3.8573,
      "step": 228850
    },
    {
      "epoch": 0.47679166666666667,
      "grad_norm": 0.7398732900619507,
      "learning_rate": 0.0001619555902452646,
      "loss": 3.9054,
      "step": 228860
    },
    {
      "epoch": 0.4768125,
      "grad_norm": 0.8473144769668579,
      "learning_rate": 0.00016194576302929316,
      "loss": 3.6304,
      "step": 228870
    },
    {
      "epoch": 0.47683333333333333,
      "grad_norm": 0.7654320001602173,
      "learning_rate": 0.00016193593576172076,
      "loss": 3.6827,
      "step": 228880
    },
    {
      "epoch": 0.4768541666666667,
      "grad_norm": 0.8336262106895447,
      "learning_rate": 0.00016192610844258982,
      "loss": 3.7552,
      "step": 228890
    },
    {
      "epoch": 0.476875,
      "grad_norm": 0.8448069095611572,
      "learning_rate": 0.00016191628107194286,
      "loss": 3.7303,
      "step": 228900
    },
    {
      "epoch": 0.47689583333333335,
      "grad_norm": 0.7654362916946411,
      "learning_rate": 0.0001619064536498223,
      "loss": 3.8745,
      "step": 228910
    },
    {
      "epoch": 0.47691666666666666,
      "grad_norm": 0.7897612452507019,
      "learning_rate": 0.00016189662617627047,
      "loss": 3.7848,
      "step": 228920
    },
    {
      "epoch": 0.4769375,
      "grad_norm": 0.8401338458061218,
      "learning_rate": 0.00016188679865133,
      "loss": 3.6983,
      "step": 228930
    },
    {
      "epoch": 0.4769583333333333,
      "grad_norm": 0.9035077095031738,
      "learning_rate": 0.00016187697107504327,
      "loss": 3.8698,
      "step": 228940
    },
    {
      "epoch": 0.4769791666666667,
      "grad_norm": 0.7898954749107361,
      "learning_rate": 0.00016186714344745267,
      "loss": 3.8177,
      "step": 228950
    },
    {
      "epoch": 0.477,
      "grad_norm": 0.8747239112854004,
      "learning_rate": 0.00016185731576860075,
      "loss": 3.8415,
      "step": 228960
    },
    {
      "epoch": 0.47702083333333334,
      "grad_norm": 0.7685192823410034,
      "learning_rate": 0.00016184748803852996,
      "loss": 3.6939,
      "step": 228970
    },
    {
      "epoch": 0.47704166666666664,
      "grad_norm": 0.749917209148407,
      "learning_rate": 0.00016183766025728265,
      "loss": 3.6672,
      "step": 228980
    },
    {
      "epoch": 0.4770625,
      "grad_norm": 0.9158730506896973,
      "learning_rate": 0.0001618278324249013,
      "loss": 3.8959,
      "step": 228990
    },
    {
      "epoch": 0.47708333333333336,
      "grad_norm": 0.8715074062347412,
      "learning_rate": 0.0001618180045414285,
      "loss": 4.0897,
      "step": 229000
    },
    {
      "epoch": 0.47708333333333336,
      "eval_loss": 4.136749744415283,
      "eval_runtime": 8.8807,
      "eval_samples_per_second": 1.126,
      "eval_steps_per_second": 0.338,
      "step": 229000
    },
    {
      "epoch": 0.47710416666666666,
      "grad_norm": 0.7412958741188049,
      "learning_rate": 0.00016180817660690653,
      "loss": 3.7317,
      "step": 229010
    },
    {
      "epoch": 0.477125,
      "grad_norm": 0.8139125108718872,
      "learning_rate": 0.00016179834862137794,
      "loss": 3.858,
      "step": 229020
    },
    {
      "epoch": 0.4771458333333333,
      "grad_norm": 0.7810802459716797,
      "learning_rate": 0.0001617885205848851,
      "loss": 3.7356,
      "step": 229030
    },
    {
      "epoch": 0.4771666666666667,
      "grad_norm": 0.8357306718826294,
      "learning_rate": 0.00016177869249747056,
      "loss": 3.7756,
      "step": 229040
    },
    {
      "epoch": 0.4771875,
      "grad_norm": 0.7172038555145264,
      "learning_rate": 0.00016176886435917675,
      "loss": 3.87,
      "step": 229050
    },
    {
      "epoch": 0.47720833333333335,
      "grad_norm": 0.8407300710678101,
      "learning_rate": 0.00016175903617004608,
      "loss": 3.6422,
      "step": 229060
    },
    {
      "epoch": 0.47722916666666665,
      "grad_norm": 0.8289372324943542,
      "learning_rate": 0.000161749207930121,
      "loss": 3.8654,
      "step": 229070
    },
    {
      "epoch": 0.47725,
      "grad_norm": 0.912600040435791,
      "learning_rate": 0.00016173937963944403,
      "loss": 3.7989,
      "step": 229080
    },
    {
      "epoch": 0.4772708333333333,
      "grad_norm": 0.7445048093795776,
      "learning_rate": 0.0001617295512980576,
      "loss": 3.7733,
      "step": 229090
    },
    {
      "epoch": 0.47729166666666667,
      "grad_norm": 0.8953526616096497,
      "learning_rate": 0.0001617197229060041,
      "loss": 3.8171,
      "step": 229100
    },
    {
      "epoch": 0.4773125,
      "grad_norm": 0.8351220488548279,
      "learning_rate": 0.00016170989446332609,
      "loss": 3.6334,
      "step": 229110
    },
    {
      "epoch": 0.47733333333333333,
      "grad_norm": 0.7068291306495667,
      "learning_rate": 0.00016170006597006592,
      "loss": 3.8559,
      "step": 229120
    },
    {
      "epoch": 0.4773541666666667,
      "grad_norm": 0.8325375318527222,
      "learning_rate": 0.0001616902374262661,
      "loss": 3.7224,
      "step": 229130
    },
    {
      "epoch": 0.477375,
      "grad_norm": 0.8971415758132935,
      "learning_rate": 0.00016168040883196916,
      "loss": 3.7627,
      "step": 229140
    },
    {
      "epoch": 0.47739583333333335,
      "grad_norm": 0.7571191787719727,
      "learning_rate": 0.00016167058018721738,
      "loss": 3.8077,
      "step": 229150
    },
    {
      "epoch": 0.47741666666666666,
      "grad_norm": 0.7498718500137329,
      "learning_rate": 0.0001616607514920534,
      "loss": 3.7651,
      "step": 229160
    },
    {
      "epoch": 0.4774375,
      "grad_norm": 0.7839042544364929,
      "learning_rate": 0.00016165092274651952,
      "loss": 3.8519,
      "step": 229170
    },
    {
      "epoch": 0.4774583333333333,
      "grad_norm": 0.7997812628746033,
      "learning_rate": 0.0001616410939506583,
      "loss": 4.0118,
      "step": 229180
    },
    {
      "epoch": 0.4774791666666667,
      "grad_norm": 1.050424337387085,
      "learning_rate": 0.00016163126510451215,
      "loss": 3.5762,
      "step": 229190
    },
    {
      "epoch": 0.4775,
      "grad_norm": 0.9303550720214844,
      "learning_rate": 0.00016162143620812353,
      "loss": 3.6301,
      "step": 229200
    },
    {
      "epoch": 0.47752083333333334,
      "grad_norm": 0.9033229947090149,
      "learning_rate": 0.0001616116072615349,
      "loss": 3.8541,
      "step": 229210
    },
    {
      "epoch": 0.47754166666666664,
      "grad_norm": 0.7724407315254211,
      "learning_rate": 0.00016160177826478876,
      "loss": 3.8384,
      "step": 229220
    },
    {
      "epoch": 0.4775625,
      "grad_norm": 0.8436874747276306,
      "learning_rate": 0.0001615919492179275,
      "loss": 3.794,
      "step": 229230
    },
    {
      "epoch": 0.47758333333333336,
      "grad_norm": 0.9067524671554565,
      "learning_rate": 0.0001615821201209936,
      "loss": 3.7202,
      "step": 229240
    },
    {
      "epoch": 0.47760416666666666,
      "grad_norm": 0.795401930809021,
      "learning_rate": 0.00016157229097402956,
      "loss": 3.9054,
      "step": 229250
    },
    {
      "epoch": 0.477625,
      "grad_norm": 0.7843776941299438,
      "learning_rate": 0.00016156246177707778,
      "loss": 3.7608,
      "step": 229260
    },
    {
      "epoch": 0.4776458333333333,
      "grad_norm": 0.8859909176826477,
      "learning_rate": 0.00016155263253018077,
      "loss": 3.5968,
      "step": 229270
    },
    {
      "epoch": 0.4776666666666667,
      "grad_norm": 0.7826337218284607,
      "learning_rate": 0.0001615428032333809,
      "loss": 3.7854,
      "step": 229280
    },
    {
      "epoch": 0.4776875,
      "grad_norm": 0.7602784633636475,
      "learning_rate": 0.00016153297388672074,
      "loss": 3.8355,
      "step": 229290
    },
    {
      "epoch": 0.47770833333333335,
      "grad_norm": 0.8537604808807373,
      "learning_rate": 0.00016152314449024267,
      "loss": 3.7719,
      "step": 229300
    },
    {
      "epoch": 0.47772916666666665,
      "grad_norm": 1.0074741840362549,
      "learning_rate": 0.00016151331504398922,
      "loss": 3.7003,
      "step": 229310
    },
    {
      "epoch": 0.47775,
      "grad_norm": 0.7811405658721924,
      "learning_rate": 0.00016150348554800275,
      "loss": 3.7851,
      "step": 229320
    },
    {
      "epoch": 0.4777708333333333,
      "grad_norm": 0.876108705997467,
      "learning_rate": 0.00016149365600232583,
      "loss": 3.7386,
      "step": 229330
    },
    {
      "epoch": 0.47779166666666667,
      "grad_norm": 0.8036032319068909,
      "learning_rate": 0.00016148382640700083,
      "loss": 3.7465,
      "step": 229340
    },
    {
      "epoch": 0.4778125,
      "grad_norm": 0.8468268513679504,
      "learning_rate": 0.0001614739967620702,
      "loss": 3.7679,
      "step": 229350
    },
    {
      "epoch": 0.47783333333333333,
      "grad_norm": 0.8735573291778564,
      "learning_rate": 0.00016146416706757657,
      "loss": 3.8671,
      "step": 229360
    },
    {
      "epoch": 0.4778541666666667,
      "grad_norm": 1.1495633125305176,
      "learning_rate": 0.0001614543373235622,
      "loss": 3.7239,
      "step": 229370
    },
    {
      "epoch": 0.477875,
      "grad_norm": 0.8866831660270691,
      "learning_rate": 0.00016144450753006963,
      "loss": 3.7324,
      "step": 229380
    },
    {
      "epoch": 0.47789583333333335,
      "grad_norm": 0.8883616924285889,
      "learning_rate": 0.00016143467768714133,
      "loss": 3.8391,
      "step": 229390
    },
    {
      "epoch": 0.47791666666666666,
      "grad_norm": 0.7921784520149231,
      "learning_rate": 0.00016142484779481974,
      "loss": 3.8324,
      "step": 229400
    },
    {
      "epoch": 0.4779375,
      "grad_norm": 0.7288550734519958,
      "learning_rate": 0.00016141501785314733,
      "loss": 3.7835,
      "step": 229410
    },
    {
      "epoch": 0.4779583333333333,
      "grad_norm": 0.7539291977882385,
      "learning_rate": 0.00016140518786216654,
      "loss": 3.7114,
      "step": 229420
    },
    {
      "epoch": 0.4779791666666667,
      "grad_norm": 0.692521333694458,
      "learning_rate": 0.0001613953578219199,
      "loss": 3.7921,
      "step": 229430
    },
    {
      "epoch": 0.478,
      "grad_norm": 0.7478476762771606,
      "learning_rate": 0.00016138552773244978,
      "loss": 4.0096,
      "step": 229440
    },
    {
      "epoch": 0.47802083333333334,
      "grad_norm": 1.101895809173584,
      "learning_rate": 0.0001613756975937987,
      "loss": 3.8044,
      "step": 229450
    },
    {
      "epoch": 0.47804166666666664,
      "grad_norm": 0.8644420504570007,
      "learning_rate": 0.00016136586740600912,
      "loss": 3.6674,
      "step": 229460
    },
    {
      "epoch": 0.4780625,
      "grad_norm": 0.7128804922103882,
      "learning_rate": 0.00016135603716912352,
      "loss": 3.7748,
      "step": 229470
    },
    {
      "epoch": 0.47808333333333336,
      "grad_norm": 0.851717472076416,
      "learning_rate": 0.00016134620688318429,
      "loss": 3.7358,
      "step": 229480
    },
    {
      "epoch": 0.47810416666666666,
      "grad_norm": 0.7810768485069275,
      "learning_rate": 0.0001613363765482339,
      "loss": 3.8888,
      "step": 229490
    },
    {
      "epoch": 0.478125,
      "grad_norm": 0.8537858128547668,
      "learning_rate": 0.00016132654616431494,
      "loss": 3.7089,
      "step": 229500
    },
    {
      "epoch": 0.4781458333333333,
      "grad_norm": 0.7437524795532227,
      "learning_rate": 0.00016131671573146975,
      "loss": 3.8464,
      "step": 229510
    },
    {
      "epoch": 0.4781666666666667,
      "grad_norm": 0.7763436436653137,
      "learning_rate": 0.00016130688524974078,
      "loss": 3.7882,
      "step": 229520
    },
    {
      "epoch": 0.4781875,
      "grad_norm": 0.719814121723175,
      "learning_rate": 0.00016129705471917063,
      "loss": 3.656,
      "step": 229530
    },
    {
      "epoch": 0.47820833333333335,
      "grad_norm": 0.8274809718132019,
      "learning_rate": 0.0001612872241398016,
      "loss": 3.7939,
      "step": 229540
    },
    {
      "epoch": 0.47822916666666665,
      "grad_norm": 1.0051213502883911,
      "learning_rate": 0.00016127739351167627,
      "loss": 3.9278,
      "step": 229550
    },
    {
      "epoch": 0.47825,
      "grad_norm": 0.8052498698234558,
      "learning_rate": 0.00016126756283483702,
      "loss": 3.853,
      "step": 229560
    },
    {
      "epoch": 0.4782708333333333,
      "grad_norm": 0.8251380920410156,
      "learning_rate": 0.0001612577321093264,
      "loss": 3.8158,
      "step": 229570
    },
    {
      "epoch": 0.47829166666666667,
      "grad_norm": 0.8282797336578369,
      "learning_rate": 0.00016124790133518682,
      "loss": 3.6896,
      "step": 229580
    },
    {
      "epoch": 0.4783125,
      "grad_norm": 0.8443139791488647,
      "learning_rate": 0.00016123807051246077,
      "loss": 3.8269,
      "step": 229590
    },
    {
      "epoch": 0.47833333333333333,
      "grad_norm": 0.9949086904525757,
      "learning_rate": 0.0001612282396411907,
      "loss": 3.7313,
      "step": 229600
    },
    {
      "epoch": 0.4783541666666667,
      "grad_norm": 0.9953346848487854,
      "learning_rate": 0.00016121840872141907,
      "loss": 3.6039,
      "step": 229610
    },
    {
      "epoch": 0.478375,
      "grad_norm": 0.7515130043029785,
      "learning_rate": 0.00016120857775318834,
      "loss": 3.9107,
      "step": 229620
    },
    {
      "epoch": 0.47839583333333335,
      "grad_norm": 0.8041589856147766,
      "learning_rate": 0.000161198746736541,
      "loss": 3.8273,
      "step": 229630
    },
    {
      "epoch": 0.47841666666666666,
      "grad_norm": 0.9208921790122986,
      "learning_rate": 0.00016118891567151955,
      "loss": 3.7793,
      "step": 229640
    },
    {
      "epoch": 0.4784375,
      "grad_norm": 0.8542529940605164,
      "learning_rate": 0.00016117908455816636,
      "loss": 3.7476,
      "step": 229650
    },
    {
      "epoch": 0.4784583333333333,
      "grad_norm": 0.8553639054298401,
      "learning_rate": 0.00016116925339652394,
      "loss": 3.7636,
      "step": 229660
    },
    {
      "epoch": 0.4784791666666667,
      "grad_norm": 0.8859511017799377,
      "learning_rate": 0.00016115942218663485,
      "loss": 3.9309,
      "step": 229670
    },
    {
      "epoch": 0.4785,
      "grad_norm": 0.9248995184898376,
      "learning_rate": 0.00016114959092854142,
      "loss": 3.8899,
      "step": 229680
    },
    {
      "epoch": 0.47852083333333334,
      "grad_norm": 0.864948034286499,
      "learning_rate": 0.00016113975962228614,
      "loss": 3.7368,
      "step": 229690
    },
    {
      "epoch": 0.47854166666666664,
      "grad_norm": 0.8504670858383179,
      "learning_rate": 0.00016112992826791155,
      "loss": 3.7346,
      "step": 229700
    },
    {
      "epoch": 0.4785625,
      "grad_norm": 0.870907723903656,
      "learning_rate": 0.00016112009686546005,
      "loss": 3.8325,
      "step": 229710
    },
    {
      "epoch": 0.47858333333333336,
      "grad_norm": 0.7535873055458069,
      "learning_rate": 0.00016111026541497413,
      "loss": 3.7844,
      "step": 229720
    },
    {
      "epoch": 0.47860416666666666,
      "grad_norm": 1.1213343143463135,
      "learning_rate": 0.0001611004339164963,
      "loss": 3.9458,
      "step": 229730
    },
    {
      "epoch": 0.478625,
      "grad_norm": 0.909653902053833,
      "learning_rate": 0.00016109060237006896,
      "loss": 3.6834,
      "step": 229740
    },
    {
      "epoch": 0.4786458333333333,
      "grad_norm": 0.8650821447372437,
      "learning_rate": 0.0001610807707757346,
      "loss": 3.8023,
      "step": 229750
    },
    {
      "epoch": 0.4786666666666667,
      "grad_norm": 0.806545078754425,
      "learning_rate": 0.00016107093913353575,
      "loss": 3.7596,
      "step": 229760
    },
    {
      "epoch": 0.4786875,
      "grad_norm": 0.7686772346496582,
      "learning_rate": 0.00016106110744351475,
      "loss": 3.6901,
      "step": 229770
    },
    {
      "epoch": 0.47870833333333335,
      "grad_norm": 0.7121701240539551,
      "learning_rate": 0.00016105127570571417,
      "loss": 3.6866,
      "step": 229780
    },
    {
      "epoch": 0.47872916666666665,
      "grad_norm": 0.8258238434791565,
      "learning_rate": 0.00016104144392017645,
      "loss": 3.6685,
      "step": 229790
    },
    {
      "epoch": 0.47875,
      "grad_norm": 0.9686705470085144,
      "learning_rate": 0.0001610316120869441,
      "loss": 3.8213,
      "step": 229800
    },
    {
      "epoch": 0.4787708333333333,
      "grad_norm": 0.9980297088623047,
      "learning_rate": 0.00016102178020605958,
      "loss": 3.8537,
      "step": 229810
    },
    {
      "epoch": 0.47879166666666667,
      "grad_norm": 0.8754044771194458,
      "learning_rate": 0.00016101194827756522,
      "loss": 3.58,
      "step": 229820
    },
    {
      "epoch": 0.4788125,
      "grad_norm": 0.8927919864654541,
      "learning_rate": 0.00016100211630150365,
      "loss": 3.845,
      "step": 229830
    },
    {
      "epoch": 0.47883333333333333,
      "grad_norm": 0.7370420694351196,
      "learning_rate": 0.00016099228427791736,
      "loss": 3.6093,
      "step": 229840
    },
    {
      "epoch": 0.4788541666666667,
      "grad_norm": 0.8726911544799805,
      "learning_rate": 0.00016098245220684865,
      "loss": 3.9417,
      "step": 229850
    },
    {
      "epoch": 0.478875,
      "grad_norm": 0.7467332482337952,
      "learning_rate": 0.00016097262008834013,
      "loss": 3.7894,
      "step": 229860
    },
    {
      "epoch": 0.47889583333333335,
      "grad_norm": 0.9066689014434814,
      "learning_rate": 0.00016096278792243428,
      "loss": 3.5643,
      "step": 229870
    },
    {
      "epoch": 0.47891666666666666,
      "grad_norm": 0.8118236064910889,
      "learning_rate": 0.0001609529557091735,
      "loss": 3.6773,
      "step": 229880
    },
    {
      "epoch": 0.4789375,
      "grad_norm": 0.7763184309005737,
      "learning_rate": 0.00016094312344860028,
      "loss": 3.6662,
      "step": 229890
    },
    {
      "epoch": 0.4789583333333333,
      "grad_norm": 0.9999241232872009,
      "learning_rate": 0.0001609332911407571,
      "loss": 3.7956,
      "step": 229900
    },
    {
      "epoch": 0.4789791666666667,
      "grad_norm": 0.7827931046485901,
      "learning_rate": 0.0001609234587856864,
      "loss": 3.6066,
      "step": 229910
    },
    {
      "epoch": 0.479,
      "grad_norm": 0.7081454992294312,
      "learning_rate": 0.00016091362638343072,
      "loss": 3.8829,
      "step": 229920
    },
    {
      "epoch": 0.47902083333333334,
      "grad_norm": 0.7905850410461426,
      "learning_rate": 0.00016090379393403248,
      "loss": 3.8331,
      "step": 229930
    },
    {
      "epoch": 0.47904166666666664,
      "grad_norm": 0.9929302334785461,
      "learning_rate": 0.00016089396143753417,
      "loss": 3.5044,
      "step": 229940
    },
    {
      "epoch": 0.4790625,
      "grad_norm": 0.666082501411438,
      "learning_rate": 0.00016088412889397823,
      "loss": 3.6463,
      "step": 229950
    },
    {
      "epoch": 0.47908333333333336,
      "grad_norm": 0.6689411401748657,
      "learning_rate": 0.00016087429630340722,
      "loss": 3.6316,
      "step": 229960
    },
    {
      "epoch": 0.47910416666666666,
      "grad_norm": 0.790321946144104,
      "learning_rate": 0.00016086446366586353,
      "loss": 3.6876,
      "step": 229970
    },
    {
      "epoch": 0.479125,
      "grad_norm": 0.9304214715957642,
      "learning_rate": 0.00016085463098138966,
      "loss": 3.86,
      "step": 229980
    },
    {
      "epoch": 0.4791458333333333,
      "grad_norm": 1.0352319478988647,
      "learning_rate": 0.00016084479825002803,
      "loss": 3.8386,
      "step": 229990
    },
    {
      "epoch": 0.4791666666666667,
      "grad_norm": 0.9014192223548889,
      "learning_rate": 0.0001608349654718212,
      "loss": 3.7897,
      "step": 230000
    },
    {
      "epoch": 0.4791666666666667,
      "eval_loss": 4.138729095458984,
      "eval_runtime": 8.4709,
      "eval_samples_per_second": 1.181,
      "eval_steps_per_second": 0.354,
      "step": 230000
    },
    {
      "epoch": 0.4791875,
      "grad_norm": 0.7647166848182678,
      "learning_rate": 0.00016082513264681166,
      "loss": 3.8988,
      "step": 230010
    },
    {
      "epoch": 0.47920833333333335,
      "grad_norm": 0.7727860808372498,
      "learning_rate": 0.00016081529977504176,
      "loss": 3.7674,
      "step": 230020
    },
    {
      "epoch": 0.47922916666666665,
      "grad_norm": 0.860102653503418,
      "learning_rate": 0.00016080546685655404,
      "loss": 3.7393,
      "step": 230030
    },
    {
      "epoch": 0.47925,
      "grad_norm": 0.8416416049003601,
      "learning_rate": 0.00016079563389139107,
      "loss": 3.9853,
      "step": 230040
    },
    {
      "epoch": 0.4792708333333333,
      "grad_norm": 0.8311764597892761,
      "learning_rate": 0.00016078580087959519,
      "loss": 3.8764,
      "step": 230050
    },
    {
      "epoch": 0.47929166666666667,
      "grad_norm": 0.6700658202171326,
      "learning_rate": 0.00016077596782120888,
      "loss": 3.6535,
      "step": 230060
    },
    {
      "epoch": 0.4793125,
      "grad_norm": 0.8147128224372864,
      "learning_rate": 0.0001607661347162747,
      "loss": 3.7157,
      "step": 230070
    },
    {
      "epoch": 0.47933333333333333,
      "grad_norm": 0.9356420040130615,
      "learning_rate": 0.00016075630156483505,
      "loss": 3.8676,
      "step": 230080
    },
    {
      "epoch": 0.4793541666666667,
      "grad_norm": 0.7472735643386841,
      "learning_rate": 0.00016074646836693242,
      "loss": 3.875,
      "step": 230090
    },
    {
      "epoch": 0.479375,
      "grad_norm": 0.7957956790924072,
      "learning_rate": 0.00016073663512260932,
      "loss": 3.8339,
      "step": 230100
    },
    {
      "epoch": 0.47939583333333335,
      "grad_norm": 0.7476627826690674,
      "learning_rate": 0.00016072680183190822,
      "loss": 3.6781,
      "step": 230110
    },
    {
      "epoch": 0.47941666666666666,
      "grad_norm": 0.9320403337478638,
      "learning_rate": 0.00016071696849487158,
      "loss": 3.812,
      "step": 230120
    },
    {
      "epoch": 0.4794375,
      "grad_norm": 0.7490317821502686,
      "learning_rate": 0.00016070713511154183,
      "loss": 3.8645,
      "step": 230130
    },
    {
      "epoch": 0.4794583333333333,
      "grad_norm": 0.8749088644981384,
      "learning_rate": 0.00016069730168196157,
      "loss": 3.7823,
      "step": 230140
    },
    {
      "epoch": 0.4794791666666667,
      "grad_norm": 0.9265334010124207,
      "learning_rate": 0.00016068746820617315,
      "loss": 3.7521,
      "step": 230150
    },
    {
      "epoch": 0.4795,
      "grad_norm": 0.9863789081573486,
      "learning_rate": 0.0001606776346842191,
      "loss": 3.8316,
      "step": 230160
    },
    {
      "epoch": 0.47952083333333334,
      "grad_norm": 0.8269882202148438,
      "learning_rate": 0.0001606678011161419,
      "loss": 3.7312,
      "step": 230170
    },
    {
      "epoch": 0.47954166666666664,
      "grad_norm": 0.9786164164543152,
      "learning_rate": 0.00016065796750198408,
      "loss": 3.8258,
      "step": 230180
    },
    {
      "epoch": 0.4795625,
      "grad_norm": 0.8017245531082153,
      "learning_rate": 0.000160648133841788,
      "loss": 3.8342,
      "step": 230190
    },
    {
      "epoch": 0.4795833333333333,
      "grad_norm": 0.7659728527069092,
      "learning_rate": 0.0001606383001355962,
      "loss": 3.6549,
      "step": 230200
    },
    {
      "epoch": 0.47960416666666666,
      "grad_norm": 0.8087178468704224,
      "learning_rate": 0.00016062846638345118,
      "loss": 3.7998,
      "step": 230210
    },
    {
      "epoch": 0.479625,
      "grad_norm": 0.8293896317481995,
      "learning_rate": 0.00016061863258539535,
      "loss": 3.7064,
      "step": 230220
    },
    {
      "epoch": 0.4796458333333333,
      "grad_norm": 0.7700130939483643,
      "learning_rate": 0.00016060879874147126,
      "loss": 3.7661,
      "step": 230230
    },
    {
      "epoch": 0.4796666666666667,
      "grad_norm": 0.8129041194915771,
      "learning_rate": 0.00016059896485172136,
      "loss": 3.7588,
      "step": 230240
    },
    {
      "epoch": 0.4796875,
      "grad_norm": 0.8000212907791138,
      "learning_rate": 0.00016058913091618814,
      "loss": 3.763,
      "step": 230250
    },
    {
      "epoch": 0.47970833333333335,
      "grad_norm": 0.8093359470367432,
      "learning_rate": 0.00016057929693491404,
      "loss": 3.8627,
      "step": 230260
    },
    {
      "epoch": 0.47972916666666665,
      "grad_norm": 0.7540320158004761,
      "learning_rate": 0.00016056946290794155,
      "loss": 3.7265,
      "step": 230270
    },
    {
      "epoch": 0.47975,
      "grad_norm": 0.688214898109436,
      "learning_rate": 0.00016055962883531317,
      "loss": 3.8045,
      "step": 230280
    },
    {
      "epoch": 0.4797708333333333,
      "grad_norm": 0.9257739186286926,
      "learning_rate": 0.0001605497947170714,
      "loss": 3.7347,
      "step": 230290
    },
    {
      "epoch": 0.47979166666666667,
      "grad_norm": 0.795576810836792,
      "learning_rate": 0.0001605399605532587,
      "loss": 3.6877,
      "step": 230300
    },
    {
      "epoch": 0.4798125,
      "grad_norm": 0.7742559909820557,
      "learning_rate": 0.0001605301263439175,
      "loss": 3.5361,
      "step": 230310
    },
    {
      "epoch": 0.47983333333333333,
      "grad_norm": 0.7404083609580994,
      "learning_rate": 0.00016052029208909034,
      "loss": 3.7334,
      "step": 230320
    },
    {
      "epoch": 0.4798541666666667,
      "grad_norm": 0.7845640182495117,
      "learning_rate": 0.00016051045778881968,
      "loss": 3.677,
      "step": 230330
    },
    {
      "epoch": 0.479875,
      "grad_norm": 0.685012936592102,
      "learning_rate": 0.00016050062344314804,
      "loss": 3.9371,
      "step": 230340
    },
    {
      "epoch": 0.47989583333333335,
      "grad_norm": 0.6865050196647644,
      "learning_rate": 0.0001604907890521178,
      "loss": 3.7396,
      "step": 230350
    },
    {
      "epoch": 0.47991666666666666,
      "grad_norm": 0.7416980266571045,
      "learning_rate": 0.00016048095461577153,
      "loss": 3.6197,
      "step": 230360
    },
    {
      "epoch": 0.4799375,
      "grad_norm": 0.8970363736152649,
      "learning_rate": 0.00016047112013415173,
      "loss": 3.7367,
      "step": 230370
    },
    {
      "epoch": 0.4799583333333333,
      "grad_norm": 0.8633859157562256,
      "learning_rate": 0.0001604612856073008,
      "loss": 3.6065,
      "step": 230380
    },
    {
      "epoch": 0.4799791666666667,
      "grad_norm": 0.7904285788536072,
      "learning_rate": 0.0001604514510352612,
      "loss": 3.778,
      "step": 230390
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8044341802597046,
      "learning_rate": 0.00016044161641807556,
      "loss": 3.8618,
      "step": 230400
    },
    {
      "epoch": 0.48002083333333334,
      "grad_norm": 0.8593399524688721,
      "learning_rate": 0.00016043178175578624,
      "loss": 3.8238,
      "step": 230410
    },
    {
      "epoch": 0.48004166666666664,
      "grad_norm": 0.8992785215377808,
      "learning_rate": 0.00016042194704843574,
      "loss": 3.6255,
      "step": 230420
    },
    {
      "epoch": 0.4800625,
      "grad_norm": 0.8145643472671509,
      "learning_rate": 0.00016041211229606656,
      "loss": 3.7719,
      "step": 230430
    },
    {
      "epoch": 0.4800833333333333,
      "grad_norm": 0.7495779395103455,
      "learning_rate": 0.00016040227749872119,
      "loss": 3.9539,
      "step": 230440
    },
    {
      "epoch": 0.48010416666666667,
      "grad_norm": 0.8274098038673401,
      "learning_rate": 0.00016039244265644208,
      "loss": 3.7386,
      "step": 230450
    },
    {
      "epoch": 0.480125,
      "grad_norm": 0.7828303575515747,
      "learning_rate": 0.00016038260776927174,
      "loss": 3.6222,
      "step": 230460
    },
    {
      "epoch": 0.4801458333333333,
      "grad_norm": 0.9180668592453003,
      "learning_rate": 0.00016037277283725262,
      "loss": 3.775,
      "step": 230470
    },
    {
      "epoch": 0.4801666666666667,
      "grad_norm": 0.9560242295265198,
      "learning_rate": 0.00016036293786042728,
      "loss": 3.7544,
      "step": 230480
    },
    {
      "epoch": 0.4801875,
      "grad_norm": 0.9885742664337158,
      "learning_rate": 0.00016035310283883807,
      "loss": 3.7784,
      "step": 230490
    },
    {
      "epoch": 0.48020833333333335,
      "grad_norm": 0.8533060550689697,
      "learning_rate": 0.00016034326777252761,
      "loss": 3.6824,
      "step": 230500
    },
    {
      "epoch": 0.48022916666666665,
      "grad_norm": 0.6806742548942566,
      "learning_rate": 0.00016033343266153838,
      "loss": 3.7744,
      "step": 230510
    },
    {
      "epoch": 0.48025,
      "grad_norm": 1.095869779586792,
      "learning_rate": 0.00016032359750591267,
      "loss": 3.5429,
      "step": 230520
    },
    {
      "epoch": 0.4802708333333333,
      "grad_norm": 0.8272132873535156,
      "learning_rate": 0.00016031376230569321,
      "loss": 3.6401,
      "step": 230530
    },
    {
      "epoch": 0.4802916666666667,
      "grad_norm": 0.9360886812210083,
      "learning_rate": 0.00016030392706092237,
      "loss": 3.8017,
      "step": 230540
    },
    {
      "epoch": 0.4803125,
      "grad_norm": 0.798718273639679,
      "learning_rate": 0.00016029409177164262,
      "loss": 3.8473,
      "step": 230550
    },
    {
      "epoch": 0.48033333333333333,
      "grad_norm": 0.9022340178489685,
      "learning_rate": 0.00016028425643789646,
      "loss": 3.7388,
      "step": 230560
    },
    {
      "epoch": 0.4803541666666667,
      "grad_norm": 0.8365233540534973,
      "learning_rate": 0.00016027442105972644,
      "loss": 3.7731,
      "step": 230570
    },
    {
      "epoch": 0.480375,
      "grad_norm": 0.8202565312385559,
      "learning_rate": 0.00016026458563717493,
      "loss": 3.6287,
      "step": 230580
    },
    {
      "epoch": 0.48039583333333336,
      "grad_norm": 0.6964491009712219,
      "learning_rate": 0.00016025475017028445,
      "loss": 3.8517,
      "step": 230590
    },
    {
      "epoch": 0.48041666666666666,
      "grad_norm": 0.8007192611694336,
      "learning_rate": 0.00016024491465909757,
      "loss": 3.6941,
      "step": 230600
    },
    {
      "epoch": 0.4804375,
      "grad_norm": 0.8734384179115295,
      "learning_rate": 0.0001602350791036567,
      "loss": 3.8995,
      "step": 230610
    },
    {
      "epoch": 0.4804583333333333,
      "grad_norm": 0.7056005597114563,
      "learning_rate": 0.00016022524350400432,
      "loss": 3.8553,
      "step": 230620
    },
    {
      "epoch": 0.4804791666666667,
      "grad_norm": 0.9544219970703125,
      "learning_rate": 0.00016021540786018295,
      "loss": 3.5495,
      "step": 230630
    },
    {
      "epoch": 0.4805,
      "grad_norm": 0.9564304947853088,
      "learning_rate": 0.00016020557217223506,
      "loss": 3.8413,
      "step": 230640
    },
    {
      "epoch": 0.48052083333333334,
      "grad_norm": 0.9167498350143433,
      "learning_rate": 0.00016019573644020314,
      "loss": 3.7634,
      "step": 230650
    },
    {
      "epoch": 0.48054166666666664,
      "grad_norm": 0.9749056696891785,
      "learning_rate": 0.00016018590066412967,
      "loss": 3.6441,
      "step": 230660
    },
    {
      "epoch": 0.4805625,
      "grad_norm": 0.7779585123062134,
      "learning_rate": 0.00016017606484405712,
      "loss": 3.8175,
      "step": 230670
    },
    {
      "epoch": 0.4805833333333333,
      "grad_norm": 0.7108399271965027,
      "learning_rate": 0.00016016622898002808,
      "loss": 3.8174,
      "step": 230680
    },
    {
      "epoch": 0.48060416666666667,
      "grad_norm": 0.9790986776351929,
      "learning_rate": 0.00016015639307208487,
      "loss": 3.7354,
      "step": 230690
    },
    {
      "epoch": 0.480625,
      "grad_norm": 0.9246657490730286,
      "learning_rate": 0.00016014655712027006,
      "loss": 3.8008,
      "step": 230700
    },
    {
      "epoch": 0.4806458333333333,
      "grad_norm": 0.8374412655830383,
      "learning_rate": 0.0001601367211246262,
      "loss": 3.8476,
      "step": 230710
    },
    {
      "epoch": 0.4806666666666667,
      "grad_norm": 0.7306221127510071,
      "learning_rate": 0.00016012688508519564,
      "loss": 3.7977,
      "step": 230720
    },
    {
      "epoch": 0.4806875,
      "grad_norm": 0.909329354763031,
      "learning_rate": 0.00016011704900202099,
      "loss": 3.8453,
      "step": 230730
    },
    {
      "epoch": 0.48070833333333335,
      "grad_norm": 0.8251884579658508,
      "learning_rate": 0.00016010721287514472,
      "loss": 3.7097,
      "step": 230740
    },
    {
      "epoch": 0.48072916666666665,
      "grad_norm": 0.8902865052223206,
      "learning_rate": 0.00016009737670460926,
      "loss": 3.932,
      "step": 230750
    },
    {
      "epoch": 0.48075,
      "grad_norm": 0.8286138772964478,
      "learning_rate": 0.0001600875404904571,
      "loss": 3.7667,
      "step": 230760
    },
    {
      "epoch": 0.4807708333333333,
      "grad_norm": 0.751399576663971,
      "learning_rate": 0.0001600777042327308,
      "loss": 3.8978,
      "step": 230770
    },
    {
      "epoch": 0.4807916666666667,
      "grad_norm": 1.2039084434509277,
      "learning_rate": 0.00016006786793147282,
      "loss": 3.7728,
      "step": 230780
    },
    {
      "epoch": 0.4808125,
      "grad_norm": 0.823885977268219,
      "learning_rate": 0.0001600580315867256,
      "loss": 3.7935,
      "step": 230790
    },
    {
      "epoch": 0.48083333333333333,
      "grad_norm": 0.7569249272346497,
      "learning_rate": 0.0001600481951985317,
      "loss": 3.8657,
      "step": 230800
    },
    {
      "epoch": 0.4808541666666667,
      "grad_norm": 0.7724919319152832,
      "learning_rate": 0.00016003835876693352,
      "loss": 3.7529,
      "step": 230810
    },
    {
      "epoch": 0.480875,
      "grad_norm": 0.8572350144386292,
      "learning_rate": 0.00016002852229197363,
      "loss": 3.7717,
      "step": 230820
    },
    {
      "epoch": 0.48089583333333336,
      "grad_norm": 0.7646005749702454,
      "learning_rate": 0.00016001868577369453,
      "loss": 3.8148,
      "step": 230830
    },
    {
      "epoch": 0.48091666666666666,
      "grad_norm": 0.8245311975479126,
      "learning_rate": 0.0001600088492121386,
      "loss": 3.6375,
      "step": 230840
    },
    {
      "epoch": 0.4809375,
      "grad_norm": 0.8259185552597046,
      "learning_rate": 0.00015999901260734849,
      "loss": 3.927,
      "step": 230850
    },
    {
      "epoch": 0.4809583333333333,
      "grad_norm": 0.8293985724449158,
      "learning_rate": 0.00015998917595936652,
      "loss": 3.8568,
      "step": 230860
    },
    {
      "epoch": 0.4809791666666667,
      "grad_norm": 0.7529256939888,
      "learning_rate": 0.0001599793392682353,
      "loss": 3.8671,
      "step": 230870
    },
    {
      "epoch": 0.481,
      "grad_norm": 0.8596012592315674,
      "learning_rate": 0.00015996950253399734,
      "loss": 3.7864,
      "step": 230880
    },
    {
      "epoch": 0.48102083333333334,
      "grad_norm": 0.7496176958084106,
      "learning_rate": 0.000159959665756695,
      "loss": 3.8291,
      "step": 230890
    },
    {
      "epoch": 0.48104166666666665,
      "grad_norm": 0.8364896774291992,
      "learning_rate": 0.00015994982893637082,
      "loss": 3.8308,
      "step": 230900
    },
    {
      "epoch": 0.4810625,
      "grad_norm": 0.7445839047431946,
      "learning_rate": 0.00015993999207306741,
      "loss": 3.9802,
      "step": 230910
    },
    {
      "epoch": 0.4810833333333333,
      "grad_norm": 0.8514823913574219,
      "learning_rate": 0.00015993015516682714,
      "loss": 3.726,
      "step": 230920
    },
    {
      "epoch": 0.48110416666666667,
      "grad_norm": 0.7067281007766724,
      "learning_rate": 0.00015992031821769249,
      "loss": 3.8002,
      "step": 230930
    },
    {
      "epoch": 0.481125,
      "grad_norm": 0.7392174005508423,
      "learning_rate": 0.00015991048122570604,
      "loss": 3.6609,
      "step": 230940
    },
    {
      "epoch": 0.48114583333333333,
      "grad_norm": 0.7516330480575562,
      "learning_rate": 0.0001599006441909102,
      "loss": 3.7118,
      "step": 230950
    },
    {
      "epoch": 0.4811666666666667,
      "grad_norm": 0.9220281839370728,
      "learning_rate": 0.00015989080711334747,
      "loss": 3.7319,
      "step": 230960
    },
    {
      "epoch": 0.4811875,
      "grad_norm": 0.7853012681007385,
      "learning_rate": 0.00015988096999306045,
      "loss": 3.8043,
      "step": 230970
    },
    {
      "epoch": 0.48120833333333335,
      "grad_norm": 0.8925526142120361,
      "learning_rate": 0.0001598711328300915,
      "loss": 3.7841,
      "step": 230980
    },
    {
      "epoch": 0.48122916666666665,
      "grad_norm": 0.9217575788497925,
      "learning_rate": 0.00015986129562448317,
      "loss": 3.6651,
      "step": 230990
    },
    {
      "epoch": 0.48125,
      "grad_norm": 0.7695468664169312,
      "learning_rate": 0.00015985145837627793,
      "loss": 3.8465,
      "step": 231000
    },
    {
      "epoch": 0.48125,
      "eval_loss": 4.1335248947143555,
      "eval_runtime": 7.8411,
      "eval_samples_per_second": 1.275,
      "eval_steps_per_second": 0.383,
      "step": 231000
    },
    {
      "epoch": 0.4812708333333333,
      "grad_norm": 0.7601321935653687,
      "learning_rate": 0.00015984162108551828,
      "loss": 3.7657,
      "step": 231010
    },
    {
      "epoch": 0.4812916666666667,
      "grad_norm": 0.7396259903907776,
      "learning_rate": 0.00015983178375224679,
      "loss": 3.8526,
      "step": 231020
    },
    {
      "epoch": 0.4813125,
      "grad_norm": 0.7963302135467529,
      "learning_rate": 0.0001598219463765058,
      "loss": 3.7487,
      "step": 231030
    },
    {
      "epoch": 0.48133333333333334,
      "grad_norm": 0.6972326636314392,
      "learning_rate": 0.00015981210895833794,
      "loss": 3.715,
      "step": 231040
    },
    {
      "epoch": 0.4813541666666667,
      "grad_norm": 1.0136817693710327,
      "learning_rate": 0.00015980227149778566,
      "loss": 3.6972,
      "step": 231050
    },
    {
      "epoch": 0.481375,
      "grad_norm": 0.8413583636283875,
      "learning_rate": 0.00015979243399489142,
      "loss": 3.7608,
      "step": 231060
    },
    {
      "epoch": 0.48139583333333336,
      "grad_norm": 0.8979995846748352,
      "learning_rate": 0.0001597825964496978,
      "loss": 3.6652,
      "step": 231070
    },
    {
      "epoch": 0.48141666666666666,
      "grad_norm": 0.7696360349655151,
      "learning_rate": 0.00015977275886224716,
      "loss": 3.5768,
      "step": 231080
    },
    {
      "epoch": 0.4814375,
      "grad_norm": 0.7566185593605042,
      "learning_rate": 0.0001597629212325821,
      "loss": 3.7919,
      "step": 231090
    },
    {
      "epoch": 0.4814583333333333,
      "grad_norm": 0.7795522809028625,
      "learning_rate": 0.00015975308356074507,
      "loss": 3.6978,
      "step": 231100
    },
    {
      "epoch": 0.4814791666666667,
      "grad_norm": 0.7647190690040588,
      "learning_rate": 0.0001597432458467786,
      "loss": 3.5575,
      "step": 231110
    },
    {
      "epoch": 0.4815,
      "grad_norm": 0.8204790353775024,
      "learning_rate": 0.00015973340809072518,
      "loss": 3.8255,
      "step": 231120
    },
    {
      "epoch": 0.48152083333333334,
      "grad_norm": 0.8795076012611389,
      "learning_rate": 0.00015972357029262727,
      "loss": 3.7308,
      "step": 231130
    },
    {
      "epoch": 0.48154166666666665,
      "grad_norm": 0.8648297786712646,
      "learning_rate": 0.00015971373245252736,
      "loss": 3.8453,
      "step": 231140
    },
    {
      "epoch": 0.4815625,
      "grad_norm": 0.7565776109695435,
      "learning_rate": 0.000159703894570468,
      "loss": 3.7533,
      "step": 231150
    },
    {
      "epoch": 0.4815833333333333,
      "grad_norm": 0.8190926909446716,
      "learning_rate": 0.00015969405664649163,
      "loss": 3.7386,
      "step": 231160
    },
    {
      "epoch": 0.48160416666666667,
      "grad_norm": 0.8934994339942932,
      "learning_rate": 0.0001596842186806408,
      "loss": 3.616,
      "step": 231170
    },
    {
      "epoch": 0.481625,
      "grad_norm": 0.7718543410301208,
      "learning_rate": 0.00015967438067295798,
      "loss": 3.6569,
      "step": 231180
    },
    {
      "epoch": 0.48164583333333333,
      "grad_norm": 0.9578626155853271,
      "learning_rate": 0.00015966454262348565,
      "loss": 3.7766,
      "step": 231190
    },
    {
      "epoch": 0.4816666666666667,
      "grad_norm": 0.866264820098877,
      "learning_rate": 0.00015965470453226633,
      "loss": 3.7215,
      "step": 231200
    },
    {
      "epoch": 0.4816875,
      "grad_norm": 0.9085779786109924,
      "learning_rate": 0.00015964486639934248,
      "loss": 3.7483,
      "step": 231210
    },
    {
      "epoch": 0.48170833333333335,
      "grad_norm": 0.9859335422515869,
      "learning_rate": 0.00015963502822475666,
      "loss": 3.7091,
      "step": 231220
    },
    {
      "epoch": 0.48172916666666665,
      "grad_norm": 0.7593054175376892,
      "learning_rate": 0.0001596251900085513,
      "loss": 3.7407,
      "step": 231230
    },
    {
      "epoch": 0.48175,
      "grad_norm": 0.7766897082328796,
      "learning_rate": 0.000159615351750769,
      "loss": 3.9016,
      "step": 231240
    },
    {
      "epoch": 0.4817708333333333,
      "grad_norm": 0.9027536511421204,
      "learning_rate": 0.00015960551345145215,
      "loss": 3.7935,
      "step": 231250
    },
    {
      "epoch": 0.4817916666666667,
      "grad_norm": 0.6740047335624695,
      "learning_rate": 0.00015959567511064323,
      "loss": 3.8764,
      "step": 231260
    },
    {
      "epoch": 0.4818125,
      "grad_norm": 0.8810037970542908,
      "learning_rate": 0.00015958583672838489,
      "loss": 3.8358,
      "step": 231270
    },
    {
      "epoch": 0.48183333333333334,
      "grad_norm": 0.8253446221351624,
      "learning_rate": 0.00015957599830471945,
      "loss": 3.8109,
      "step": 231280
    },
    {
      "epoch": 0.48185416666666664,
      "grad_norm": 0.7994874715805054,
      "learning_rate": 0.00015956615983968948,
      "loss": 3.9029,
      "step": 231290
    },
    {
      "epoch": 0.481875,
      "grad_norm": 0.89557945728302,
      "learning_rate": 0.00015955632133333756,
      "loss": 3.8688,
      "step": 231300
    },
    {
      "epoch": 0.48189583333333336,
      "grad_norm": 2.8194892406463623,
      "learning_rate": 0.00015954648278570605,
      "loss": 3.6386,
      "step": 231310
    },
    {
      "epoch": 0.48191666666666666,
      "grad_norm": 0.8750600814819336,
      "learning_rate": 0.00015953664419683756,
      "loss": 3.7095,
      "step": 231320
    },
    {
      "epoch": 0.4819375,
      "grad_norm": 0.7543886303901672,
      "learning_rate": 0.0001595268055667745,
      "loss": 3.6563,
      "step": 231330
    },
    {
      "epoch": 0.4819583333333333,
      "grad_norm": 0.824982225894928,
      "learning_rate": 0.00015951696689555942,
      "loss": 3.8763,
      "step": 231340
    },
    {
      "epoch": 0.4819791666666667,
      "grad_norm": 0.8146476149559021,
      "learning_rate": 0.0001595071281832348,
      "loss": 3.6562,
      "step": 231350
    },
    {
      "epoch": 0.482,
      "grad_norm": 0.7538268566131592,
      "learning_rate": 0.0001594972894298432,
      "loss": 3.7523,
      "step": 231360
    },
    {
      "epoch": 0.48202083333333334,
      "grad_norm": 0.9126226902008057,
      "learning_rate": 0.00015948745063542702,
      "loss": 3.6618,
      "step": 231370
    },
    {
      "epoch": 0.48204166666666665,
      "grad_norm": 0.8467287421226501,
      "learning_rate": 0.00015947761180002887,
      "loss": 3.9504,
      "step": 231380
    },
    {
      "epoch": 0.4820625,
      "grad_norm": 0.796674907207489,
      "learning_rate": 0.0001594677729236911,
      "loss": 3.8507,
      "step": 231390
    },
    {
      "epoch": 0.4820833333333333,
      "grad_norm": 0.8228402733802795,
      "learning_rate": 0.00015945793400645633,
      "loss": 3.6256,
      "step": 231400
    },
    {
      "epoch": 0.48210416666666667,
      "grad_norm": 0.9298192262649536,
      "learning_rate": 0.00015944809504836707,
      "loss": 3.7353,
      "step": 231410
    },
    {
      "epoch": 0.482125,
      "grad_norm": 0.994321882724762,
      "learning_rate": 0.00015943825604946576,
      "loss": 3.8926,
      "step": 231420
    },
    {
      "epoch": 0.48214583333333333,
      "grad_norm": 1.3097590208053589,
      "learning_rate": 0.00015942841700979487,
      "loss": 3.6451,
      "step": 231430
    },
    {
      "epoch": 0.4821666666666667,
      "grad_norm": 0.8329955339431763,
      "learning_rate": 0.000159418577929397,
      "loss": 3.5774,
      "step": 231440
    },
    {
      "epoch": 0.4821875,
      "grad_norm": 0.7475482821464539,
      "learning_rate": 0.0001594087388083146,
      "loss": 3.7783,
      "step": 231450
    },
    {
      "epoch": 0.48220833333333335,
      "grad_norm": 0.9390319585800171,
      "learning_rate": 0.00015939889964659013,
      "loss": 3.7059,
      "step": 231460
    },
    {
      "epoch": 0.48222916666666665,
      "grad_norm": 0.7545727491378784,
      "learning_rate": 0.0001593890604442662,
      "loss": 3.6817,
      "step": 231470
    },
    {
      "epoch": 0.48225,
      "grad_norm": 0.7534033060073853,
      "learning_rate": 0.00015937922120138522,
      "loss": 3.8007,
      "step": 231480
    },
    {
      "epoch": 0.4822708333333333,
      "grad_norm": 0.873234212398529,
      "learning_rate": 0.00015936938191798972,
      "loss": 3.6967,
      "step": 231490
    },
    {
      "epoch": 0.4822916666666667,
      "grad_norm": 0.8255303502082825,
      "learning_rate": 0.00015935954259412217,
      "loss": 3.7309,
      "step": 231500
    },
    {
      "epoch": 0.4823125,
      "grad_norm": 0.8243657946586609,
      "learning_rate": 0.00015934970322982513,
      "loss": 3.6933,
      "step": 231510
    },
    {
      "epoch": 0.48233333333333334,
      "grad_norm": 0.7437993884086609,
      "learning_rate": 0.00015933986382514104,
      "loss": 3.768,
      "step": 231520
    },
    {
      "epoch": 0.48235416666666664,
      "grad_norm": 1.0088950395584106,
      "learning_rate": 0.00015933002438011247,
      "loss": 3.9672,
      "step": 231530
    },
    {
      "epoch": 0.482375,
      "grad_norm": 0.7760295867919922,
      "learning_rate": 0.00015932018489478187,
      "loss": 3.7119,
      "step": 231540
    },
    {
      "epoch": 0.48239583333333336,
      "grad_norm": 0.7500779032707214,
      "learning_rate": 0.00015931034536919181,
      "loss": 3.79,
      "step": 231550
    },
    {
      "epoch": 0.48241666666666666,
      "grad_norm": 0.8820001482963562,
      "learning_rate": 0.00015930050580338463,
      "loss": 3.6259,
      "step": 231560
    },
    {
      "epoch": 0.4824375,
      "grad_norm": 0.9076307415962219,
      "learning_rate": 0.00015929066619740304,
      "loss": 3.8344,
      "step": 231570
    },
    {
      "epoch": 0.4824583333333333,
      "grad_norm": 0.837989866733551,
      "learning_rate": 0.00015928082655128944,
      "loss": 3.7802,
      "step": 231580
    },
    {
      "epoch": 0.4824791666666667,
      "grad_norm": 0.8746243715286255,
      "learning_rate": 0.00015927098686508632,
      "loss": 3.6522,
      "step": 231590
    },
    {
      "epoch": 0.4825,
      "grad_norm": 0.8373181819915771,
      "learning_rate": 0.0001592611471388362,
      "loss": 3.7401,
      "step": 231600
    },
    {
      "epoch": 0.48252083333333334,
      "grad_norm": 0.7583537697792053,
      "learning_rate": 0.00015925130737258163,
      "loss": 3.8368,
      "step": 231610
    },
    {
      "epoch": 0.48254166666666665,
      "grad_norm": 0.7925186157226562,
      "learning_rate": 0.00015924146756636506,
      "loss": 3.815,
      "step": 231620
    },
    {
      "epoch": 0.4825625,
      "grad_norm": 0.8416827917098999,
      "learning_rate": 0.00015923162772022898,
      "loss": 3.7323,
      "step": 231630
    },
    {
      "epoch": 0.4825833333333333,
      "grad_norm": 0.8766319155693054,
      "learning_rate": 0.00015922178783421594,
      "loss": 3.844,
      "step": 231640
    },
    {
      "epoch": 0.48260416666666667,
      "grad_norm": 1.0779365301132202,
      "learning_rate": 0.00015921194790836845,
      "loss": 3.7812,
      "step": 231650
    },
    {
      "epoch": 0.482625,
      "grad_norm": 0.8669722080230713,
      "learning_rate": 0.00015920210794272894,
      "loss": 3.7228,
      "step": 231660
    },
    {
      "epoch": 0.48264583333333333,
      "grad_norm": 0.8535691499710083,
      "learning_rate": 0.00015919226793734,
      "loss": 3.7824,
      "step": 231670
    },
    {
      "epoch": 0.4826666666666667,
      "grad_norm": 0.9962921142578125,
      "learning_rate": 0.00015918242789224408,
      "loss": 3.8131,
      "step": 231680
    },
    {
      "epoch": 0.4826875,
      "grad_norm": 0.9407018423080444,
      "learning_rate": 0.00015917258780748374,
      "loss": 3.6781,
      "step": 231690
    },
    {
      "epoch": 0.48270833333333335,
      "grad_norm": 0.757737398147583,
      "learning_rate": 0.00015916274768310143,
      "loss": 3.6735,
      "step": 231700
    },
    {
      "epoch": 0.48272916666666665,
      "grad_norm": 0.7147023677825928,
      "learning_rate": 0.00015915290751913967,
      "loss": 3.847,
      "step": 231710
    },
    {
      "epoch": 0.48275,
      "grad_norm": 1.2085455656051636,
      "learning_rate": 0.00015914306731564098,
      "loss": 3.7522,
      "step": 231720
    },
    {
      "epoch": 0.4827708333333333,
      "grad_norm": 0.732002317905426,
      "learning_rate": 0.00015913322707264784,
      "loss": 3.6609,
      "step": 231730
    },
    {
      "epoch": 0.4827916666666667,
      "grad_norm": 0.7186861038208008,
      "learning_rate": 0.0001591233867902028,
      "loss": 3.8343,
      "step": 231740
    },
    {
      "epoch": 0.4828125,
      "grad_norm": 0.7348277568817139,
      "learning_rate": 0.00015911354646834836,
      "loss": 3.7308,
      "step": 231750
    },
    {
      "epoch": 0.48283333333333334,
      "grad_norm": 0.9893692135810852,
      "learning_rate": 0.00015910370610712696,
      "loss": 3.763,
      "step": 231760
    },
    {
      "epoch": 0.48285416666666664,
      "grad_norm": 0.8790050745010376,
      "learning_rate": 0.00015909386570658117,
      "loss": 3.6838,
      "step": 231770
    },
    {
      "epoch": 0.482875,
      "grad_norm": 0.7787964940071106,
      "learning_rate": 0.00015908402526675354,
      "loss": 3.6751,
      "step": 231780
    },
    {
      "epoch": 0.48289583333333336,
      "grad_norm": 0.7615320682525635,
      "learning_rate": 0.0001590741847876864,
      "loss": 3.6426,
      "step": 231790
    },
    {
      "epoch": 0.48291666666666666,
      "grad_norm": 0.7380886673927307,
      "learning_rate": 0.00015906434426942245,
      "loss": 3.8003,
      "step": 231800
    },
    {
      "epoch": 0.4829375,
      "grad_norm": 0.7264410853385925,
      "learning_rate": 0.00015905450371200413,
      "loss": 3.6466,
      "step": 231810
    },
    {
      "epoch": 0.4829583333333333,
      "grad_norm": 0.8507899641990662,
      "learning_rate": 0.0001590446631154739,
      "loss": 3.8016,
      "step": 231820
    },
    {
      "epoch": 0.4829791666666667,
      "grad_norm": 0.8420919179916382,
      "learning_rate": 0.00015903482247987434,
      "loss": 3.687,
      "step": 231830
    },
    {
      "epoch": 0.483,
      "grad_norm": 0.9035532474517822,
      "learning_rate": 0.00015902498180524787,
      "loss": 3.7586,
      "step": 231840
    },
    {
      "epoch": 0.48302083333333334,
      "grad_norm": 0.7619498372077942,
      "learning_rate": 0.0001590151410916371,
      "loss": 3.817,
      "step": 231850
    },
    {
      "epoch": 0.48304166666666665,
      "grad_norm": 0.8201980590820312,
      "learning_rate": 0.00015900530033908445,
      "loss": 3.7285,
      "step": 231860
    },
    {
      "epoch": 0.4830625,
      "grad_norm": 0.786008358001709,
      "learning_rate": 0.0001589954595476325,
      "loss": 3.8179,
      "step": 231870
    },
    {
      "epoch": 0.4830833333333333,
      "grad_norm": 0.8454810380935669,
      "learning_rate": 0.0001589856187173237,
      "loss": 3.8628,
      "step": 231880
    },
    {
      "epoch": 0.48310416666666667,
      "grad_norm": 0.8904035687446594,
      "learning_rate": 0.00015897577784820062,
      "loss": 3.702,
      "step": 231890
    },
    {
      "epoch": 0.483125,
      "grad_norm": 0.8001649975776672,
      "learning_rate": 0.0001589659369403057,
      "loss": 3.9081,
      "step": 231900
    },
    {
      "epoch": 0.48314583333333333,
      "grad_norm": 0.7375778555870056,
      "learning_rate": 0.00015895609599368148,
      "loss": 3.7265,
      "step": 231910
    },
    {
      "epoch": 0.4831666666666667,
      "grad_norm": 0.904308021068573,
      "learning_rate": 0.00015894625500837052,
      "loss": 3.7865,
      "step": 231920
    },
    {
      "epoch": 0.4831875,
      "grad_norm": 0.817367672920227,
      "learning_rate": 0.0001589364139844152,
      "loss": 3.7048,
      "step": 231930
    },
    {
      "epoch": 0.48320833333333335,
      "grad_norm": 0.7515365481376648,
      "learning_rate": 0.00015892657292185816,
      "loss": 3.8943,
      "step": 231940
    },
    {
      "epoch": 0.48322916666666665,
      "grad_norm": 0.91302490234375,
      "learning_rate": 0.00015891673182074189,
      "loss": 3.8225,
      "step": 231950
    },
    {
      "epoch": 0.48325,
      "grad_norm": 0.738050639629364,
      "learning_rate": 0.00015890689068110878,
      "loss": 3.6157,
      "step": 231960
    },
    {
      "epoch": 0.4832708333333333,
      "grad_norm": 0.7314541339874268,
      "learning_rate": 0.00015889704950300152,
      "loss": 3.8501,
      "step": 231970
    },
    {
      "epoch": 0.4832916666666667,
      "grad_norm": 0.8015196323394775,
      "learning_rate": 0.00015888720828646246,
      "loss": 3.5624,
      "step": 231980
    },
    {
      "epoch": 0.4833125,
      "grad_norm": 0.8287873864173889,
      "learning_rate": 0.0001588773670315342,
      "loss": 3.8525,
      "step": 231990
    },
    {
      "epoch": 0.48333333333333334,
      "grad_norm": 0.7610555291175842,
      "learning_rate": 0.00015886752573825922,
      "loss": 3.7556,
      "step": 232000
    },
    {
      "epoch": 0.48333333333333334,
      "eval_loss": 4.138880729675293,
      "eval_runtime": 8.7326,
      "eval_samples_per_second": 1.145,
      "eval_steps_per_second": 0.344,
      "step": 232000
    },
    {
      "epoch": 0.48335416666666664,
      "grad_norm": 0.8765048384666443,
      "learning_rate": 0.00015885768440668005,
      "loss": 3.8162,
      "step": 232010
    },
    {
      "epoch": 0.483375,
      "grad_norm": 0.7538217902183533,
      "learning_rate": 0.0001588478430368392,
      "loss": 3.7826,
      "step": 232020
    },
    {
      "epoch": 0.48339583333333336,
      "grad_norm": 1.037157416343689,
      "learning_rate": 0.00015883800162877916,
      "loss": 3.7079,
      "step": 232030
    },
    {
      "epoch": 0.48341666666666666,
      "grad_norm": 0.8796883225440979,
      "learning_rate": 0.00015882816018254243,
      "loss": 3.7719,
      "step": 232040
    },
    {
      "epoch": 0.4834375,
      "grad_norm": 0.9142357110977173,
      "learning_rate": 0.00015881831869817155,
      "loss": 3.7627,
      "step": 232050
    },
    {
      "epoch": 0.4834583333333333,
      "grad_norm": 0.7659239172935486,
      "learning_rate": 0.00015880847717570905,
      "loss": 3.8538,
      "step": 232060
    },
    {
      "epoch": 0.4834791666666667,
      "grad_norm": 0.7478051781654358,
      "learning_rate": 0.00015879863561519742,
      "loss": 3.7544,
      "step": 232070
    },
    {
      "epoch": 0.4835,
      "grad_norm": 0.9247142672538757,
      "learning_rate": 0.0001587887940166791,
      "loss": 3.8043,
      "step": 232080
    },
    {
      "epoch": 0.48352083333333334,
      "grad_norm": 0.9348586797714233,
      "learning_rate": 0.00015877895238019675,
      "loss": 3.8881,
      "step": 232090
    },
    {
      "epoch": 0.48354166666666665,
      "grad_norm": 0.8180157542228699,
      "learning_rate": 0.00015876911070579274,
      "loss": 3.9621,
      "step": 232100
    },
    {
      "epoch": 0.4835625,
      "grad_norm": 0.8172170519828796,
      "learning_rate": 0.00015875926899350972,
      "loss": 3.7451,
      "step": 232110
    },
    {
      "epoch": 0.4835833333333333,
      "grad_norm": 0.8073016405105591,
      "learning_rate": 0.00015874942724339005,
      "loss": 3.7576,
      "step": 232120
    },
    {
      "epoch": 0.48360416666666667,
      "grad_norm": 0.8993164300918579,
      "learning_rate": 0.0001587395854554763,
      "loss": 3.9539,
      "step": 232130
    },
    {
      "epoch": 0.483625,
      "grad_norm": 0.8052517771720886,
      "learning_rate": 0.00015872974362981108,
      "loss": 3.8399,
      "step": 232140
    },
    {
      "epoch": 0.48364583333333333,
      "grad_norm": 0.7859756350517273,
      "learning_rate": 0.00015871990176643681,
      "loss": 3.7987,
      "step": 232150
    },
    {
      "epoch": 0.4836666666666667,
      "grad_norm": 0.7334598898887634,
      "learning_rate": 0.00015871005986539593,
      "loss": 3.8562,
      "step": 232160
    },
    {
      "epoch": 0.4836875,
      "grad_norm": 0.7204068899154663,
      "learning_rate": 0.00015870021792673117,
      "loss": 3.8258,
      "step": 232170
    },
    {
      "epoch": 0.48370833333333335,
      "grad_norm": 0.7401258945465088,
      "learning_rate": 0.00015869037595048481,
      "loss": 3.69,
      "step": 232180
    },
    {
      "epoch": 0.48372916666666665,
      "grad_norm": 0.7552419304847717,
      "learning_rate": 0.0001586805339366995,
      "loss": 3.7539,
      "step": 232190
    },
    {
      "epoch": 0.48375,
      "grad_norm": 0.797454833984375,
      "learning_rate": 0.00015867069188541772,
      "loss": 3.6951,
      "step": 232200
    },
    {
      "epoch": 0.4837708333333333,
      "grad_norm": 0.7920878529548645,
      "learning_rate": 0.000158660849796682,
      "loss": 3.8151,
      "step": 232210
    },
    {
      "epoch": 0.4837916666666667,
      "grad_norm": 0.8161654472351074,
      "learning_rate": 0.00015865100767053478,
      "loss": 3.8398,
      "step": 232220
    },
    {
      "epoch": 0.4838125,
      "grad_norm": 0.7897419333457947,
      "learning_rate": 0.00015864116550701865,
      "loss": 3.8164,
      "step": 232230
    },
    {
      "epoch": 0.48383333333333334,
      "grad_norm": 0.7918409109115601,
      "learning_rate": 0.00015863132330617614,
      "loss": 3.6715,
      "step": 232240
    },
    {
      "epoch": 0.48385416666666664,
      "grad_norm": 0.8775952458381653,
      "learning_rate": 0.00015862148106804977,
      "loss": 3.7763,
      "step": 232250
    },
    {
      "epoch": 0.483875,
      "grad_norm": 0.8328529000282288,
      "learning_rate": 0.00015861163879268193,
      "loss": 3.9385,
      "step": 232260
    },
    {
      "epoch": 0.48389583333333336,
      "grad_norm": 0.746001124382019,
      "learning_rate": 0.00015860179648011523,
      "loss": 4.0005,
      "step": 232270
    },
    {
      "epoch": 0.48391666666666666,
      "grad_norm": 0.7574998140335083,
      "learning_rate": 0.0001585919541303922,
      "loss": 3.8194,
      "step": 232280
    },
    {
      "epoch": 0.4839375,
      "grad_norm": 0.8907180428504944,
      "learning_rate": 0.0001585821117435553,
      "loss": 3.7761,
      "step": 232290
    },
    {
      "epoch": 0.4839583333333333,
      "grad_norm": 0.7886906266212463,
      "learning_rate": 0.0001585722693196471,
      "loss": 3.9731,
      "step": 232300
    },
    {
      "epoch": 0.4839791666666667,
      "grad_norm": 0.7879371643066406,
      "learning_rate": 0.0001585624268587101,
      "loss": 3.8564,
      "step": 232310
    },
    {
      "epoch": 0.484,
      "grad_norm": 0.7424598932266235,
      "learning_rate": 0.00015855258436078682,
      "loss": 3.7106,
      "step": 232320
    },
    {
      "epoch": 0.48402083333333334,
      "grad_norm": 0.7808362245559692,
      "learning_rate": 0.0001585427418259197,
      "loss": 3.7829,
      "step": 232330
    },
    {
      "epoch": 0.48404166666666665,
      "grad_norm": 0.8030410408973694,
      "learning_rate": 0.00015853289925415136,
      "loss": 3.7696,
      "step": 232340
    },
    {
      "epoch": 0.4840625,
      "grad_norm": 0.8723728656768799,
      "learning_rate": 0.00015852305664552428,
      "loss": 3.7405,
      "step": 232350
    },
    {
      "epoch": 0.4840833333333333,
      "grad_norm": 0.7180720567703247,
      "learning_rate": 0.00015851321400008089,
      "loss": 3.7682,
      "step": 232360
    },
    {
      "epoch": 0.48410416666666667,
      "grad_norm": 0.770520806312561,
      "learning_rate": 0.0001585033713178639,
      "loss": 3.932,
      "step": 232370
    },
    {
      "epoch": 0.484125,
      "grad_norm": 0.7587515711784363,
      "learning_rate": 0.00015849352859891564,
      "loss": 3.8743,
      "step": 232380
    },
    {
      "epoch": 0.48414583333333333,
      "grad_norm": 0.7825639247894287,
      "learning_rate": 0.00015848368584327872,
      "loss": 3.858,
      "step": 232390
    },
    {
      "epoch": 0.4841666666666667,
      "grad_norm": 0.8302168846130371,
      "learning_rate": 0.00015847384305099562,
      "loss": 3.6722,
      "step": 232400
    },
    {
      "epoch": 0.4841875,
      "grad_norm": 0.9146000146865845,
      "learning_rate": 0.00015846400022210888,
      "loss": 3.7623,
      "step": 232410
    },
    {
      "epoch": 0.48420833333333335,
      "grad_norm": 0.8112497329711914,
      "learning_rate": 0.00015845415735666105,
      "loss": 3.7612,
      "step": 232420
    },
    {
      "epoch": 0.48422916666666665,
      "grad_norm": 0.8091453313827515,
      "learning_rate": 0.00015844431445469453,
      "loss": 3.7935,
      "step": 232430
    },
    {
      "epoch": 0.48425,
      "grad_norm": 0.7504743933677673,
      "learning_rate": 0.00015843447151625195,
      "loss": 3.8914,
      "step": 232440
    },
    {
      "epoch": 0.4842708333333333,
      "grad_norm": 0.8124918341636658,
      "learning_rate": 0.00015842462854137582,
      "loss": 3.9117,
      "step": 232450
    },
    {
      "epoch": 0.4842916666666667,
      "grad_norm": 0.9992333650588989,
      "learning_rate": 0.00015841478553010858,
      "loss": 3.7295,
      "step": 232460
    },
    {
      "epoch": 0.4843125,
      "grad_norm": 0.7567240595817566,
      "learning_rate": 0.0001584049424824928,
      "loss": 3.9476,
      "step": 232470
    },
    {
      "epoch": 0.48433333333333334,
      "grad_norm": 0.8164116740226746,
      "learning_rate": 0.00015839509939857106,
      "loss": 3.8472,
      "step": 232480
    },
    {
      "epoch": 0.48435416666666664,
      "grad_norm": 0.8366726636886597,
      "learning_rate": 0.00015838525627838578,
      "loss": 3.723,
      "step": 232490
    },
    {
      "epoch": 0.484375,
      "grad_norm": 0.8934683203697205,
      "learning_rate": 0.00015837541312197946,
      "loss": 3.7678,
      "step": 232500
    },
    {
      "epoch": 0.48439583333333336,
      "grad_norm": 0.7525472044944763,
      "learning_rate": 0.00015836556992939474,
      "loss": 3.8181,
      "step": 232510
    },
    {
      "epoch": 0.48441666666666666,
      "grad_norm": 0.8558514714241028,
      "learning_rate": 0.00015835572670067403,
      "loss": 3.8784,
      "step": 232520
    },
    {
      "epoch": 0.4844375,
      "grad_norm": 0.9100266098976135,
      "learning_rate": 0.00015834588343585987,
      "loss": 3.9713,
      "step": 232530
    },
    {
      "epoch": 0.4844583333333333,
      "grad_norm": 0.7529352307319641,
      "learning_rate": 0.00015833604013499488,
      "loss": 3.6905,
      "step": 232540
    },
    {
      "epoch": 0.4844791666666667,
      "grad_norm": 1.1195701360702515,
      "learning_rate": 0.00015832619679812142,
      "loss": 3.9124,
      "step": 232550
    },
    {
      "epoch": 0.4845,
      "grad_norm": 0.7439576387405396,
      "learning_rate": 0.00015831635342528213,
      "loss": 3.7625,
      "step": 232560
    },
    {
      "epoch": 0.48452083333333335,
      "grad_norm": 0.7193692326545715,
      "learning_rate": 0.00015830651001651943,
      "loss": 3.7895,
      "step": 232570
    },
    {
      "epoch": 0.48454166666666665,
      "grad_norm": 1.004589557647705,
      "learning_rate": 0.00015829666657187595,
      "loss": 3.8474,
      "step": 232580
    },
    {
      "epoch": 0.4845625,
      "grad_norm": 0.7684257626533508,
      "learning_rate": 0.0001582868230913941,
      "loss": 3.6969,
      "step": 232590
    },
    {
      "epoch": 0.4845833333333333,
      "grad_norm": 0.7774927616119385,
      "learning_rate": 0.0001582769795751165,
      "loss": 3.9128,
      "step": 232600
    },
    {
      "epoch": 0.48460416666666667,
      "grad_norm": 0.7564842700958252,
      "learning_rate": 0.0001582671360230856,
      "loss": 3.925,
      "step": 232610
    },
    {
      "epoch": 0.484625,
      "grad_norm": 0.8405055999755859,
      "learning_rate": 0.000158257292435344,
      "loss": 3.7794,
      "step": 232620
    },
    {
      "epoch": 0.48464583333333333,
      "grad_norm": 0.8224589824676514,
      "learning_rate": 0.00015824744881193407,
      "loss": 3.747,
      "step": 232630
    },
    {
      "epoch": 0.4846666666666667,
      "grad_norm": 0.7579730749130249,
      "learning_rate": 0.00015823760515289848,
      "loss": 3.7163,
      "step": 232640
    },
    {
      "epoch": 0.4846875,
      "grad_norm": 0.9374364614486694,
      "learning_rate": 0.00015822776145827972,
      "loss": 3.6882,
      "step": 232650
    },
    {
      "epoch": 0.48470833333333335,
      "grad_norm": 0.8515654802322388,
      "learning_rate": 0.00015821791772812022,
      "loss": 3.7885,
      "step": 232660
    },
    {
      "epoch": 0.48472916666666666,
      "grad_norm": 0.8199179768562317,
      "learning_rate": 0.00015820807396246263,
      "loss": 3.797,
      "step": 232670
    },
    {
      "epoch": 0.48475,
      "grad_norm": 1.1160411834716797,
      "learning_rate": 0.00015819823016134942,
      "loss": 3.8103,
      "step": 232680
    },
    {
      "epoch": 0.4847708333333333,
      "grad_norm": 0.8478168845176697,
      "learning_rate": 0.00015818838632482307,
      "loss": 3.9377,
      "step": 232690
    },
    {
      "epoch": 0.4847916666666667,
      "grad_norm": 0.9293464422225952,
      "learning_rate": 0.0001581785424529261,
      "loss": 3.7781,
      "step": 232700
    },
    {
      "epoch": 0.4848125,
      "grad_norm": 0.7811062932014465,
      "learning_rate": 0.00015816869854570114,
      "loss": 3.6317,
      "step": 232710
    },
    {
      "epoch": 0.48483333333333334,
      "grad_norm": 0.847146213054657,
      "learning_rate": 0.00015815885460319055,
      "loss": 3.8127,
      "step": 232720
    },
    {
      "epoch": 0.48485416666666664,
      "grad_norm": 0.746802568435669,
      "learning_rate": 0.000158149010625437,
      "loss": 3.7748,
      "step": 232730
    },
    {
      "epoch": 0.484875,
      "grad_norm": 0.8267939686775208,
      "learning_rate": 0.00015813916661248294,
      "loss": 3.7632,
      "step": 232740
    },
    {
      "epoch": 0.48489583333333336,
      "grad_norm": 0.7639265060424805,
      "learning_rate": 0.00015812932256437087,
      "loss": 3.8362,
      "step": 232750
    },
    {
      "epoch": 0.48491666666666666,
      "grad_norm": 0.9292352199554443,
      "learning_rate": 0.00015811947848114335,
      "loss": 3.8691,
      "step": 232760
    },
    {
      "epoch": 0.4849375,
      "grad_norm": 0.9181098937988281,
      "learning_rate": 0.00015810963436284294,
      "loss": 3.6715,
      "step": 232770
    },
    {
      "epoch": 0.4849583333333333,
      "grad_norm": 0.8704537749290466,
      "learning_rate": 0.0001580997902095121,
      "loss": 3.7909,
      "step": 232780
    },
    {
      "epoch": 0.4849791666666667,
      "grad_norm": 1.0314306020736694,
      "learning_rate": 0.00015808994602119333,
      "loss": 3.9516,
      "step": 232790
    },
    {
      "epoch": 0.485,
      "grad_norm": 0.9932656288146973,
      "learning_rate": 0.00015808010179792925,
      "loss": 3.7374,
      "step": 232800
    },
    {
      "epoch": 0.48502083333333335,
      "grad_norm": 0.8658761978149414,
      "learning_rate": 0.00015807025753976229,
      "loss": 4.0545,
      "step": 232810
    },
    {
      "epoch": 0.48504166666666665,
      "grad_norm": 0.9794010519981384,
      "learning_rate": 0.00015806041324673505,
      "loss": 3.8967,
      "step": 232820
    },
    {
      "epoch": 0.4850625,
      "grad_norm": 0.8249161839485168,
      "learning_rate": 0.00015805056891888996,
      "loss": 3.6619,
      "step": 232830
    },
    {
      "epoch": 0.4850833333333333,
      "grad_norm": 1.151687741279602,
      "learning_rate": 0.0001580407245562697,
      "loss": 3.8392,
      "step": 232840
    },
    {
      "epoch": 0.48510416666666667,
      "grad_norm": 0.8900823593139648,
      "learning_rate": 0.0001580308801589166,
      "loss": 3.9175,
      "step": 232850
    },
    {
      "epoch": 0.485125,
      "grad_norm": 0.8145301342010498,
      "learning_rate": 0.00015802103572687328,
      "loss": 3.7068,
      "step": 232860
    },
    {
      "epoch": 0.48514583333333333,
      "grad_norm": 0.7661280035972595,
      "learning_rate": 0.0001580111912601823,
      "loss": 3.8521,
      "step": 232870
    },
    {
      "epoch": 0.4851666666666667,
      "grad_norm": 0.8157902359962463,
      "learning_rate": 0.00015800134675888613,
      "loss": 3.6605,
      "step": 232880
    },
    {
      "epoch": 0.4851875,
      "grad_norm": 0.8128459453582764,
      "learning_rate": 0.0001579915022230273,
      "loss": 3.8311,
      "step": 232890
    },
    {
      "epoch": 0.48520833333333335,
      "grad_norm": 0.9269819855690002,
      "learning_rate": 0.00015798165765264834,
      "loss": 3.9192,
      "step": 232900
    },
    {
      "epoch": 0.48522916666666666,
      "grad_norm": 0.8096192479133606,
      "learning_rate": 0.0001579718130477918,
      "loss": 3.8303,
      "step": 232910
    },
    {
      "epoch": 0.48525,
      "grad_norm": 0.8991670608520508,
      "learning_rate": 0.00015796196840850017,
      "loss": 3.8538,
      "step": 232920
    },
    {
      "epoch": 0.4852708333333333,
      "grad_norm": 0.8774327039718628,
      "learning_rate": 0.00015795212373481598,
      "loss": 3.7753,
      "step": 232930
    },
    {
      "epoch": 0.4852916666666667,
      "grad_norm": 0.7879409193992615,
      "learning_rate": 0.00015794227902678177,
      "loss": 3.7346,
      "step": 232940
    },
    {
      "epoch": 0.4853125,
      "grad_norm": 0.8142565488815308,
      "learning_rate": 0.00015793243428444007,
      "loss": 3.7369,
      "step": 232950
    },
    {
      "epoch": 0.48533333333333334,
      "grad_norm": 0.7004496455192566,
      "learning_rate": 0.00015792258950783337,
      "loss": 3.7796,
      "step": 232960
    },
    {
      "epoch": 0.48535416666666664,
      "grad_norm": 0.817136824131012,
      "learning_rate": 0.00015791274469700425,
      "loss": 3.7472,
      "step": 232970
    },
    {
      "epoch": 0.485375,
      "grad_norm": 0.8153223395347595,
      "learning_rate": 0.0001579028998519952,
      "loss": 3.6881,
      "step": 232980
    },
    {
      "epoch": 0.48539583333333336,
      "grad_norm": 0.9653376340866089,
      "learning_rate": 0.00015789305497284877,
      "loss": 3.7326,
      "step": 232990
    },
    {
      "epoch": 0.48541666666666666,
      "grad_norm": 0.9751014709472656,
      "learning_rate": 0.00015788321005960737,
      "loss": 3.7213,
      "step": 233000
    },
    {
      "epoch": 0.48541666666666666,
      "eval_loss": 4.140509128570557,
      "eval_runtime": 7.9812,
      "eval_samples_per_second": 1.253,
      "eval_steps_per_second": 0.376,
      "step": 233000
    },
    {
      "epoch": 0.4854375,
      "grad_norm": 0.9185992479324341,
      "learning_rate": 0.00015787336511231375,
      "loss": 3.7753,
      "step": 233010
    },
    {
      "epoch": 0.4854583333333333,
      "grad_norm": 0.8205281496047974,
      "learning_rate": 0.00015786352013101023,
      "loss": 3.9091,
      "step": 233020
    },
    {
      "epoch": 0.4854791666666667,
      "grad_norm": 0.7302684187889099,
      "learning_rate": 0.00015785367511573942,
      "loss": 3.729,
      "step": 233030
    },
    {
      "epoch": 0.4855,
      "grad_norm": 0.8853422999382019,
      "learning_rate": 0.0001578438300665439,
      "loss": 3.9535,
      "step": 233040
    },
    {
      "epoch": 0.48552083333333335,
      "grad_norm": 0.8499074578285217,
      "learning_rate": 0.00015783398498346607,
      "loss": 3.9262,
      "step": 233050
    },
    {
      "epoch": 0.48554166666666665,
      "grad_norm": 0.8926004767417908,
      "learning_rate": 0.00015782413986654856,
      "loss": 3.823,
      "step": 233060
    },
    {
      "epoch": 0.4855625,
      "grad_norm": 0.7761168479919434,
      "learning_rate": 0.00015781429471583387,
      "loss": 3.7715,
      "step": 233070
    },
    {
      "epoch": 0.4855833333333333,
      "grad_norm": 0.89554363489151,
      "learning_rate": 0.0001578044495313645,
      "loss": 3.9441,
      "step": 233080
    },
    {
      "epoch": 0.48560416666666667,
      "grad_norm": 1.569985032081604,
      "learning_rate": 0.000157794604313183,
      "loss": 3.7381,
      "step": 233090
    },
    {
      "epoch": 0.485625,
      "grad_norm": 0.8921452164649963,
      "learning_rate": 0.0001577847590613319,
      "loss": 3.7334,
      "step": 233100
    },
    {
      "epoch": 0.48564583333333333,
      "grad_norm": 0.8977653384208679,
      "learning_rate": 0.00015777491377585371,
      "loss": 3.7369,
      "step": 233110
    },
    {
      "epoch": 0.4856666666666667,
      "grad_norm": 0.9199796915054321,
      "learning_rate": 0.00015776506845679097,
      "loss": 3.797,
      "step": 233120
    },
    {
      "epoch": 0.4856875,
      "grad_norm": 1.051110029220581,
      "learning_rate": 0.00015775522310418623,
      "loss": 3.8367,
      "step": 233130
    },
    {
      "epoch": 0.48570833333333335,
      "grad_norm": 0.7949117422103882,
      "learning_rate": 0.00015774537771808198,
      "loss": 3.6011,
      "step": 233140
    },
    {
      "epoch": 0.48572916666666666,
      "grad_norm": 0.7739816308021545,
      "learning_rate": 0.0001577355322985208,
      "loss": 3.8068,
      "step": 233150
    },
    {
      "epoch": 0.48575,
      "grad_norm": 0.8573943376541138,
      "learning_rate": 0.00015772568684554512,
      "loss": 3.8237,
      "step": 233160
    },
    {
      "epoch": 0.4857708333333333,
      "grad_norm": 1.0813746452331543,
      "learning_rate": 0.00015771584135919754,
      "loss": 3.8533,
      "step": 233170
    },
    {
      "epoch": 0.4857916666666667,
      "grad_norm": 0.6879247426986694,
      "learning_rate": 0.0001577059958395206,
      "loss": 3.929,
      "step": 233180
    },
    {
      "epoch": 0.4858125,
      "grad_norm": 0.928537130355835,
      "learning_rate": 0.00015769615028655686,
      "loss": 3.9312,
      "step": 233190
    },
    {
      "epoch": 0.48583333333333334,
      "grad_norm": 0.9973296523094177,
      "learning_rate": 0.0001576863047003487,
      "loss": 3.7273,
      "step": 233200
    },
    {
      "epoch": 0.48585416666666664,
      "grad_norm": 0.7801927924156189,
      "learning_rate": 0.0001576764590809388,
      "loss": 3.69,
      "step": 233210
    },
    {
      "epoch": 0.485875,
      "grad_norm": 0.7164983153343201,
      "learning_rate": 0.00015766661342836964,
      "loss": 3.747,
      "step": 233220
    },
    {
      "epoch": 0.48589583333333336,
      "grad_norm": 0.8273382186889648,
      "learning_rate": 0.0001576567677426837,
      "loss": 4.0186,
      "step": 233230
    },
    {
      "epoch": 0.48591666666666666,
      "grad_norm": 0.8067287802696228,
      "learning_rate": 0.0001576469220239236,
      "loss": 3.6433,
      "step": 233240
    },
    {
      "epoch": 0.4859375,
      "grad_norm": 0.841361939907074,
      "learning_rate": 0.0001576370762721318,
      "loss": 3.8522,
      "step": 233250
    },
    {
      "epoch": 0.4859583333333333,
      "grad_norm": 0.8031044006347656,
      "learning_rate": 0.00015762723048735086,
      "loss": 3.6795,
      "step": 233260
    },
    {
      "epoch": 0.4859791666666667,
      "grad_norm": 0.8702734708786011,
      "learning_rate": 0.0001576173846696233,
      "loss": 3.7732,
      "step": 233270
    },
    {
      "epoch": 0.486,
      "grad_norm": 0.7283257842063904,
      "learning_rate": 0.0001576075388189917,
      "loss": 3.7594,
      "step": 233280
    },
    {
      "epoch": 0.48602083333333335,
      "grad_norm": 0.7969305515289307,
      "learning_rate": 0.00015759769293549847,
      "loss": 3.8115,
      "step": 233290
    },
    {
      "epoch": 0.48604166666666665,
      "grad_norm": 0.8505333065986633,
      "learning_rate": 0.00015758784701918626,
      "loss": 3.8819,
      "step": 233300
    },
    {
      "epoch": 0.4860625,
      "grad_norm": 0.7839276194572449,
      "learning_rate": 0.00015757800107009756,
      "loss": 3.7598,
      "step": 233310
    },
    {
      "epoch": 0.4860833333333333,
      "grad_norm": 0.7212319374084473,
      "learning_rate": 0.0001575681550882749,
      "loss": 3.659,
      "step": 233320
    },
    {
      "epoch": 0.48610416666666667,
      "grad_norm": 0.8628067374229431,
      "learning_rate": 0.00015755830907376072,
      "loss": 3.8937,
      "step": 233330
    },
    {
      "epoch": 0.486125,
      "grad_norm": 0.9562207460403442,
      "learning_rate": 0.0001575484630265977,
      "loss": 3.8125,
      "step": 233340
    },
    {
      "epoch": 0.48614583333333333,
      "grad_norm": 0.7121869325637817,
      "learning_rate": 0.00015753861694682832,
      "loss": 3.5617,
      "step": 233350
    },
    {
      "epoch": 0.4861666666666667,
      "grad_norm": 0.8954808712005615,
      "learning_rate": 0.0001575287708344951,
      "loss": 3.7317,
      "step": 233360
    },
    {
      "epoch": 0.4861875,
      "grad_norm": 1.089167594909668,
      "learning_rate": 0.00015751892468964052,
      "loss": 3.8251,
      "step": 233370
    },
    {
      "epoch": 0.48620833333333335,
      "grad_norm": 0.762148380279541,
      "learning_rate": 0.00015750907851230724,
      "loss": 3.7618,
      "step": 233380
    },
    {
      "epoch": 0.48622916666666666,
      "grad_norm": 0.778984546661377,
      "learning_rate": 0.00015749923230253766,
      "loss": 3.836,
      "step": 233390
    },
    {
      "epoch": 0.48625,
      "grad_norm": 0.8027585744857788,
      "learning_rate": 0.00015748938606037437,
      "loss": 3.7592,
      "step": 233400
    },
    {
      "epoch": 0.4862708333333333,
      "grad_norm": 0.8196234703063965,
      "learning_rate": 0.0001574795397858599,
      "loss": 3.7079,
      "step": 233410
    },
    {
      "epoch": 0.4862916666666667,
      "grad_norm": 0.7884858250617981,
      "learning_rate": 0.0001574696934790368,
      "loss": 3.9791,
      "step": 233420
    },
    {
      "epoch": 0.4863125,
      "grad_norm": 0.741572380065918,
      "learning_rate": 0.00015745984713994756,
      "loss": 3.7365,
      "step": 233430
    },
    {
      "epoch": 0.48633333333333334,
      "grad_norm": 0.8236186504364014,
      "learning_rate": 0.00015745000076863473,
      "loss": 3.7965,
      "step": 233440
    },
    {
      "epoch": 0.48635416666666664,
      "grad_norm": 0.9954376220703125,
      "learning_rate": 0.00015744015436514082,
      "loss": 3.6565,
      "step": 233450
    },
    {
      "epoch": 0.486375,
      "grad_norm": 0.7586520910263062,
      "learning_rate": 0.00015743030792950843,
      "loss": 3.582,
      "step": 233460
    },
    {
      "epoch": 0.48639583333333336,
      "grad_norm": 0.8646568059921265,
      "learning_rate": 0.00015742046146178005,
      "loss": 3.7514,
      "step": 233470
    },
    {
      "epoch": 0.48641666666666666,
      "grad_norm": 0.8158363103866577,
      "learning_rate": 0.0001574106149619982,
      "loss": 3.8761,
      "step": 233480
    },
    {
      "epoch": 0.4864375,
      "grad_norm": 1.0972819328308105,
      "learning_rate": 0.00015740076843020543,
      "loss": 3.7738,
      "step": 233490
    },
    {
      "epoch": 0.4864583333333333,
      "grad_norm": 0.8053805232048035,
      "learning_rate": 0.00015739092186644425,
      "loss": 3.7663,
      "step": 233500
    },
    {
      "epoch": 0.4864791666666667,
      "grad_norm": 0.8950564861297607,
      "learning_rate": 0.00015738107527075724,
      "loss": 3.6816,
      "step": 233510
    },
    {
      "epoch": 0.4865,
      "grad_norm": 0.7443966865539551,
      "learning_rate": 0.00015737122864318694,
      "loss": 3.8225,
      "step": 233520
    },
    {
      "epoch": 0.48652083333333335,
      "grad_norm": 1.022658109664917,
      "learning_rate": 0.00015736138198377576,
      "loss": 3.6839,
      "step": 233530
    },
    {
      "epoch": 0.48654166666666665,
      "grad_norm": 0.9549194574356079,
      "learning_rate": 0.00015735153529256637,
      "loss": 3.868,
      "step": 233540
    },
    {
      "epoch": 0.4865625,
      "grad_norm": 0.73094242811203,
      "learning_rate": 0.0001573416885696013,
      "loss": 3.8383,
      "step": 233550
    },
    {
      "epoch": 0.4865833333333333,
      "grad_norm": 0.9215630292892456,
      "learning_rate": 0.00015733184181492297,
      "loss": 3.8668,
      "step": 233560
    },
    {
      "epoch": 0.48660416666666667,
      "grad_norm": 0.7202052474021912,
      "learning_rate": 0.00015732199502857403,
      "loss": 3.7465,
      "step": 233570
    },
    {
      "epoch": 0.486625,
      "grad_norm": 0.947358250617981,
      "learning_rate": 0.00015731214821059695,
      "loss": 3.8075,
      "step": 233580
    },
    {
      "epoch": 0.48664583333333333,
      "grad_norm": 0.7884178757667542,
      "learning_rate": 0.00015730230136103428,
      "loss": 3.7225,
      "step": 233590
    },
    {
      "epoch": 0.4866666666666667,
      "grad_norm": 0.7337406277656555,
      "learning_rate": 0.00015729245447992858,
      "loss": 3.8043,
      "step": 233600
    },
    {
      "epoch": 0.4866875,
      "grad_norm": 0.7780635952949524,
      "learning_rate": 0.00015728260756732234,
      "loss": 3.7127,
      "step": 233610
    },
    {
      "epoch": 0.48670833333333335,
      "grad_norm": 0.8112357258796692,
      "learning_rate": 0.00015727276062325814,
      "loss": 3.8408,
      "step": 233620
    },
    {
      "epoch": 0.48672916666666666,
      "grad_norm": 0.7268564105033875,
      "learning_rate": 0.0001572629136477785,
      "loss": 3.7843,
      "step": 233630
    },
    {
      "epoch": 0.48675,
      "grad_norm": 0.7389615178108215,
      "learning_rate": 0.00015725306664092593,
      "loss": 3.8345,
      "step": 233640
    },
    {
      "epoch": 0.4867708333333333,
      "grad_norm": 0.763015627861023,
      "learning_rate": 0.00015724321960274297,
      "loss": 3.8153,
      "step": 233650
    },
    {
      "epoch": 0.4867916666666667,
      "grad_norm": 0.8169787526130676,
      "learning_rate": 0.00015723337253327217,
      "loss": 3.7725,
      "step": 233660
    },
    {
      "epoch": 0.4868125,
      "grad_norm": 0.7747707962989807,
      "learning_rate": 0.00015722352543255606,
      "loss": 3.8234,
      "step": 233670
    },
    {
      "epoch": 0.48683333333333334,
      "grad_norm": 0.8617216944694519,
      "learning_rate": 0.0001572136783006372,
      "loss": 3.609,
      "step": 233680
    },
    {
      "epoch": 0.48685416666666664,
      "grad_norm": 0.6871325969696045,
      "learning_rate": 0.00015720383113755816,
      "loss": 3.7183,
      "step": 233690
    },
    {
      "epoch": 0.486875,
      "grad_norm": 0.8592485785484314,
      "learning_rate": 0.0001571939839433613,
      "loss": 3.8471,
      "step": 233700
    },
    {
      "epoch": 0.48689583333333336,
      "grad_norm": 0.8100702166557312,
      "learning_rate": 0.00015718413671808934,
      "loss": 3.7234,
      "step": 233710
    },
    {
      "epoch": 0.48691666666666666,
      "grad_norm": 0.8925784230232239,
      "learning_rate": 0.0001571742894617848,
      "loss": 3.7452,
      "step": 233720
    },
    {
      "epoch": 0.4869375,
      "grad_norm": 0.8158692121505737,
      "learning_rate": 0.00015716444217449009,
      "loss": 3.804,
      "step": 233730
    },
    {
      "epoch": 0.4869583333333333,
      "grad_norm": 0.785118043422699,
      "learning_rate": 0.00015715459485624787,
      "loss": 4.0074,
      "step": 233740
    },
    {
      "epoch": 0.4869791666666667,
      "grad_norm": 0.8050677180290222,
      "learning_rate": 0.0001571447475071006,
      "loss": 3.7286,
      "step": 233750
    },
    {
      "epoch": 0.487,
      "grad_norm": 0.9164366126060486,
      "learning_rate": 0.00015713490012709088,
      "loss": 3.9502,
      "step": 233760
    },
    {
      "epoch": 0.48702083333333335,
      "grad_norm": 0.8125970363616943,
      "learning_rate": 0.00015712505271626122,
      "loss": 3.6788,
      "step": 233770
    },
    {
      "epoch": 0.48704166666666665,
      "grad_norm": 0.8609405755996704,
      "learning_rate": 0.00015711520527465412,
      "loss": 3.8311,
      "step": 233780
    },
    {
      "epoch": 0.4870625,
      "grad_norm": 0.7399790287017822,
      "learning_rate": 0.0001571053578023122,
      "loss": 3.6422,
      "step": 233790
    },
    {
      "epoch": 0.4870833333333333,
      "grad_norm": 0.8042760491371155,
      "learning_rate": 0.00015709551029927788,
      "loss": 3.8387,
      "step": 233800
    },
    {
      "epoch": 0.48710416666666667,
      "grad_norm": 0.8555907607078552,
      "learning_rate": 0.00015708566276559382,
      "loss": 3.7898,
      "step": 233810
    },
    {
      "epoch": 0.487125,
      "grad_norm": 0.8043708801269531,
      "learning_rate": 0.00015707581520130244,
      "loss": 3.7632,
      "step": 233820
    },
    {
      "epoch": 0.48714583333333333,
      "grad_norm": 0.7736895680427551,
      "learning_rate": 0.00015706596760644637,
      "loss": 3.7606,
      "step": 233830
    },
    {
      "epoch": 0.4871666666666667,
      "grad_norm": 0.7746614217758179,
      "learning_rate": 0.00015705611998106814,
      "loss": 3.7679,
      "step": 233840
    },
    {
      "epoch": 0.4871875,
      "grad_norm": 0.7753486633300781,
      "learning_rate": 0.00015704627232521022,
      "loss": 3.7208,
      "step": 233850
    },
    {
      "epoch": 0.48720833333333335,
      "grad_norm": 0.7727866172790527,
      "learning_rate": 0.00015703642463891528,
      "loss": 3.7304,
      "step": 233860
    },
    {
      "epoch": 0.48722916666666666,
      "grad_norm": 0.8254439234733582,
      "learning_rate": 0.00015702657692222567,
      "loss": 3.6131,
      "step": 233870
    },
    {
      "epoch": 0.48725,
      "grad_norm": 0.8006172776222229,
      "learning_rate": 0.00015701672917518413,
      "loss": 3.7508,
      "step": 233880
    },
    {
      "epoch": 0.4872708333333333,
      "grad_norm": 0.8244531750679016,
      "learning_rate": 0.000157006881397833,
      "loss": 3.9011,
      "step": 233890
    },
    {
      "epoch": 0.4872916666666667,
      "grad_norm": 0.8339743614196777,
      "learning_rate": 0.00015699703359021495,
      "loss": 3.7458,
      "step": 233900
    },
    {
      "epoch": 0.4873125,
      "grad_norm": 0.7914035320281982,
      "learning_rate": 0.0001569871857523725,
      "loss": 3.7415,
      "step": 233910
    },
    {
      "epoch": 0.48733333333333334,
      "grad_norm": 1.0062429904937744,
      "learning_rate": 0.00015697733788434817,
      "loss": 3.8088,
      "step": 233920
    },
    {
      "epoch": 0.48735416666666664,
      "grad_norm": 0.9344354271888733,
      "learning_rate": 0.00015696748998618448,
      "loss": 3.773,
      "step": 233930
    },
    {
      "epoch": 0.487375,
      "grad_norm": 0.803929328918457,
      "learning_rate": 0.00015695764205792402,
      "loss": 3.7635,
      "step": 233940
    },
    {
      "epoch": 0.4873958333333333,
      "grad_norm": 0.8017346262931824,
      "learning_rate": 0.00015694779409960926,
      "loss": 3.8651,
      "step": 233950
    },
    {
      "epoch": 0.48741666666666666,
      "grad_norm": 0.7604084610939026,
      "learning_rate": 0.00015693794611128283,
      "loss": 3.7735,
      "step": 233960
    },
    {
      "epoch": 0.4874375,
      "grad_norm": 0.8014808297157288,
      "learning_rate": 0.00015692809809298718,
      "loss": 3.6933,
      "step": 233970
    },
    {
      "epoch": 0.4874583333333333,
      "grad_norm": 0.7734764814376831,
      "learning_rate": 0.0001569182500447649,
      "loss": 3.9053,
      "step": 233980
    },
    {
      "epoch": 0.4874791666666667,
      "grad_norm": 1.048708200454712,
      "learning_rate": 0.00015690840196665854,
      "loss": 3.7103,
      "step": 233990
    },
    {
      "epoch": 0.4875,
      "grad_norm": 0.8947287201881409,
      "learning_rate": 0.00015689855385871056,
      "loss": 3.8532,
      "step": 234000
    },
    {
      "epoch": 0.4875,
      "eval_loss": 4.1431779861450195,
      "eval_runtime": 8.961,
      "eval_samples_per_second": 1.116,
      "eval_steps_per_second": 0.335,
      "step": 234000
    },
    {
      "epoch": 0.48752083333333335,
      "grad_norm": 0.7267764806747437,
      "learning_rate": 0.00015688870572096362,
      "loss": 3.6719,
      "step": 234010
    },
    {
      "epoch": 0.48754166666666665,
      "grad_norm": 0.8094949126243591,
      "learning_rate": 0.00015687885755346018,
      "loss": 3.829,
      "step": 234020
    },
    {
      "epoch": 0.4875625,
      "grad_norm": 0.964349091053009,
      "learning_rate": 0.00015686900935624277,
      "loss": 3.8367,
      "step": 234030
    },
    {
      "epoch": 0.4875833333333333,
      "grad_norm": 0.7671712040901184,
      "learning_rate": 0.00015685916112935397,
      "loss": 4.0012,
      "step": 234040
    },
    {
      "epoch": 0.48760416666666667,
      "grad_norm": 0.8575470447540283,
      "learning_rate": 0.00015684931287283636,
      "loss": 3.8753,
      "step": 234050
    },
    {
      "epoch": 0.487625,
      "grad_norm": 0.853304922580719,
      "learning_rate": 0.0001568394645867324,
      "loss": 3.7975,
      "step": 234060
    },
    {
      "epoch": 0.48764583333333333,
      "grad_norm": 0.7782702445983887,
      "learning_rate": 0.00015682961627108463,
      "loss": 3.7612,
      "step": 234070
    },
    {
      "epoch": 0.4876666666666667,
      "grad_norm": 0.7197964191436768,
      "learning_rate": 0.00015681976792593567,
      "loss": 3.7833,
      "step": 234080
    },
    {
      "epoch": 0.4876875,
      "grad_norm": 1.0738098621368408,
      "learning_rate": 0.00015680991955132798,
      "loss": 3.6517,
      "step": 234090
    },
    {
      "epoch": 0.48770833333333335,
      "grad_norm": 1.0373574495315552,
      "learning_rate": 0.00015680007114730408,
      "loss": 3.8711,
      "step": 234100
    },
    {
      "epoch": 0.48772916666666666,
      "grad_norm": 0.8987431526184082,
      "learning_rate": 0.00015679022271390666,
      "loss": 3.8115,
      "step": 234110
    },
    {
      "epoch": 0.48775,
      "grad_norm": 0.8732088208198547,
      "learning_rate": 0.00015678037425117812,
      "loss": 3.7837,
      "step": 234120
    },
    {
      "epoch": 0.4877708333333333,
      "grad_norm": 1.062021255493164,
      "learning_rate": 0.0001567705257591611,
      "loss": 3.7666,
      "step": 234130
    },
    {
      "epoch": 0.4877916666666667,
      "grad_norm": 0.8396286368370056,
      "learning_rate": 0.00015676067723789801,
      "loss": 3.8552,
      "step": 234140
    },
    {
      "epoch": 0.4878125,
      "grad_norm": 0.7662497758865356,
      "learning_rate": 0.0001567508286874315,
      "loss": 3.8415,
      "step": 234150
    },
    {
      "epoch": 0.48783333333333334,
      "grad_norm": 0.7268974184989929,
      "learning_rate": 0.0001567409801078041,
      "loss": 3.7152,
      "step": 234160
    },
    {
      "epoch": 0.48785416666666664,
      "grad_norm": 0.7574536800384521,
      "learning_rate": 0.0001567311314990583,
      "loss": 3.9117,
      "step": 234170
    },
    {
      "epoch": 0.487875,
      "grad_norm": 0.7276398539543152,
      "learning_rate": 0.00015672128286123668,
      "loss": 3.7282,
      "step": 234180
    },
    {
      "epoch": 0.4878958333333333,
      "grad_norm": 0.8671106100082397,
      "learning_rate": 0.00015671143419438184,
      "loss": 3.6105,
      "step": 234190
    },
    {
      "epoch": 0.48791666666666667,
      "grad_norm": 0.7931151390075684,
      "learning_rate": 0.00015670158549853619,
      "loss": 3.924,
      "step": 234200
    },
    {
      "epoch": 0.4879375,
      "grad_norm": 0.9335227012634277,
      "learning_rate": 0.00015669173677374234,
      "loss": 3.4491,
      "step": 234210
    },
    {
      "epoch": 0.4879583333333333,
      "grad_norm": 0.8483383059501648,
      "learning_rate": 0.00015668188802004293,
      "loss": 3.76,
      "step": 234220
    },
    {
      "epoch": 0.4879791666666667,
      "grad_norm": 0.8600758910179138,
      "learning_rate": 0.0001566720392374803,
      "loss": 3.9874,
      "step": 234230
    },
    {
      "epoch": 0.488,
      "grad_norm": 0.8911506533622742,
      "learning_rate": 0.00015666219042609713,
      "loss": 3.7986,
      "step": 234240
    },
    {
      "epoch": 0.48802083333333335,
      "grad_norm": 0.7856730222702026,
      "learning_rate": 0.00015665234158593596,
      "loss": 3.6583,
      "step": 234250
    },
    {
      "epoch": 0.48804166666666665,
      "grad_norm": 0.9131378531455994,
      "learning_rate": 0.0001566424927170393,
      "loss": 3.9599,
      "step": 234260
    },
    {
      "epoch": 0.4880625,
      "grad_norm": 1.0933918952941895,
      "learning_rate": 0.00015663264381944968,
      "loss": 3.6522,
      "step": 234270
    },
    {
      "epoch": 0.4880833333333333,
      "grad_norm": 1.110974907875061,
      "learning_rate": 0.00015662279489320972,
      "loss": 3.8695,
      "step": 234280
    },
    {
      "epoch": 0.4881041666666667,
      "grad_norm": 0.79066401720047,
      "learning_rate": 0.00015661294593836183,
      "loss": 3.8385,
      "step": 234290
    },
    {
      "epoch": 0.488125,
      "grad_norm": 0.7356096506118774,
      "learning_rate": 0.00015660309695494866,
      "loss": 3.8845,
      "step": 234300
    },
    {
      "epoch": 0.48814583333333333,
      "grad_norm": 0.8209971189498901,
      "learning_rate": 0.00015659324794301276,
      "loss": 3.8009,
      "step": 234310
    },
    {
      "epoch": 0.4881666666666667,
      "grad_norm": 0.7803584933280945,
      "learning_rate": 0.00015658339890259662,
      "loss": 3.7912,
      "step": 234320
    },
    {
      "epoch": 0.4881875,
      "grad_norm": 0.8586584329605103,
      "learning_rate": 0.0001565735498337428,
      "loss": 3.8797,
      "step": 234330
    },
    {
      "epoch": 0.48820833333333336,
      "grad_norm": 0.8271716237068176,
      "learning_rate": 0.00015656370073649384,
      "loss": 3.8413,
      "step": 234340
    },
    {
      "epoch": 0.48822916666666666,
      "grad_norm": 0.7561136484146118,
      "learning_rate": 0.0001565538516108923,
      "loss": 3.6589,
      "step": 234350
    },
    {
      "epoch": 0.48825,
      "grad_norm": 0.8421869277954102,
      "learning_rate": 0.00015654400245698074,
      "loss": 3.8975,
      "step": 234360
    },
    {
      "epoch": 0.4882708333333333,
      "grad_norm": 0.7502440214157104,
      "learning_rate": 0.0001565341532748016,
      "loss": 3.9107,
      "step": 234370
    },
    {
      "epoch": 0.4882916666666667,
      "grad_norm": 0.8475939631462097,
      "learning_rate": 0.00015652430406439756,
      "loss": 3.7942,
      "step": 234380
    },
    {
      "epoch": 0.4883125,
      "grad_norm": 0.7767123579978943,
      "learning_rate": 0.00015651445482581114,
      "loss": 3.7003,
      "step": 234390
    },
    {
      "epoch": 0.48833333333333334,
      "grad_norm": 0.7110844850540161,
      "learning_rate": 0.00015650460555908477,
      "loss": 4.0305,
      "step": 234400
    },
    {
      "epoch": 0.48835416666666664,
      "grad_norm": 0.6668801307678223,
      "learning_rate": 0.00015649475626426112,
      "loss": 3.7077,
      "step": 234410
    },
    {
      "epoch": 0.488375,
      "grad_norm": 0.9449234008789062,
      "learning_rate": 0.00015648490694138273,
      "loss": 3.7773,
      "step": 234420
    },
    {
      "epoch": 0.4883958333333333,
      "grad_norm": 0.8078508973121643,
      "learning_rate": 0.00015647505759049208,
      "loss": 3.7256,
      "step": 234430
    },
    {
      "epoch": 0.48841666666666667,
      "grad_norm": 0.8367059826850891,
      "learning_rate": 0.00015646520821163172,
      "loss": 3.9207,
      "step": 234440
    },
    {
      "epoch": 0.4884375,
      "grad_norm": 0.8635444045066833,
      "learning_rate": 0.00015645535880484424,
      "loss": 3.7762,
      "step": 234450
    },
    {
      "epoch": 0.4884583333333333,
      "grad_norm": 0.9248596429824829,
      "learning_rate": 0.0001564455093701722,
      "loss": 3.8806,
      "step": 234460
    },
    {
      "epoch": 0.4884791666666667,
      "grad_norm": 0.7921488881111145,
      "learning_rate": 0.00015643565990765808,
      "loss": 3.7278,
      "step": 234470
    },
    {
      "epoch": 0.4885,
      "grad_norm": 0.9967122077941895,
      "learning_rate": 0.00015642581041734442,
      "loss": 3.9265,
      "step": 234480
    },
    {
      "epoch": 0.48852083333333335,
      "grad_norm": 0.7645508646965027,
      "learning_rate": 0.00015641596089927383,
      "loss": 3.873,
      "step": 234490
    },
    {
      "epoch": 0.48854166666666665,
      "grad_norm": 0.7507169246673584,
      "learning_rate": 0.00015640611135348884,
      "loss": 3.641,
      "step": 234500
    },
    {
      "epoch": 0.4885625,
      "grad_norm": 0.8479170799255371,
      "learning_rate": 0.00015639626178003198,
      "loss": 3.6145,
      "step": 234510
    },
    {
      "epoch": 0.4885833333333333,
      "grad_norm": 0.7859818935394287,
      "learning_rate": 0.0001563864121789458,
      "loss": 3.8531,
      "step": 234520
    },
    {
      "epoch": 0.4886041666666667,
      "grad_norm": 0.8327131867408752,
      "learning_rate": 0.00015637656255027287,
      "loss": 3.5858,
      "step": 234530
    },
    {
      "epoch": 0.488625,
      "grad_norm": 1.163349986076355,
      "learning_rate": 0.00015636671289405565,
      "loss": 3.8638,
      "step": 234540
    },
    {
      "epoch": 0.48864583333333333,
      "grad_norm": 0.7795119881629944,
      "learning_rate": 0.0001563568632103368,
      "loss": 3.6322,
      "step": 234550
    },
    {
      "epoch": 0.4886666666666667,
      "grad_norm": 0.8927139639854431,
      "learning_rate": 0.00015634701349915883,
      "loss": 3.7187,
      "step": 234560
    },
    {
      "epoch": 0.4886875,
      "grad_norm": 0.9084980487823486,
      "learning_rate": 0.0001563371637605642,
      "loss": 3.7555,
      "step": 234570
    },
    {
      "epoch": 0.48870833333333336,
      "grad_norm": 0.8625483512878418,
      "learning_rate": 0.0001563273139945956,
      "loss": 3.9138,
      "step": 234580
    },
    {
      "epoch": 0.48872916666666666,
      "grad_norm": 0.9556338787078857,
      "learning_rate": 0.00015631746420129554,
      "loss": 3.6247,
      "step": 234590
    },
    {
      "epoch": 0.48875,
      "grad_norm": 0.8514543771743774,
      "learning_rate": 0.00015630761438070644,
      "loss": 3.7615,
      "step": 234600
    },
    {
      "epoch": 0.4887708333333333,
      "grad_norm": 0.9989446997642517,
      "learning_rate": 0.00015629776453287102,
      "loss": 3.8992,
      "step": 234610
    },
    {
      "epoch": 0.4887916666666667,
      "grad_norm": 0.8335566520690918,
      "learning_rate": 0.00015628791465783172,
      "loss": 3.8174,
      "step": 234620
    },
    {
      "epoch": 0.4888125,
      "grad_norm": 0.8226330876350403,
      "learning_rate": 0.0001562780647556311,
      "loss": 3.9713,
      "step": 234630
    },
    {
      "epoch": 0.48883333333333334,
      "grad_norm": 0.7368574142456055,
      "learning_rate": 0.00015626821482631176,
      "loss": 3.7323,
      "step": 234640
    },
    {
      "epoch": 0.48885416666666665,
      "grad_norm": 0.8921124935150146,
      "learning_rate": 0.0001562583648699162,
      "loss": 3.6214,
      "step": 234650
    },
    {
      "epoch": 0.488875,
      "grad_norm": 0.7873488068580627,
      "learning_rate": 0.00015624851488648696,
      "loss": 3.8128,
      "step": 234660
    },
    {
      "epoch": 0.4888958333333333,
      "grad_norm": 0.9670159220695496,
      "learning_rate": 0.00015623866487606661,
      "loss": 3.8291,
      "step": 234670
    },
    {
      "epoch": 0.48891666666666667,
      "grad_norm": 0.7937772274017334,
      "learning_rate": 0.00015622881483869775,
      "loss": 3.938,
      "step": 234680
    },
    {
      "epoch": 0.4889375,
      "grad_norm": 0.8624200224876404,
      "learning_rate": 0.0001562189647744228,
      "loss": 3.7691,
      "step": 234690
    },
    {
      "epoch": 0.48895833333333333,
      "grad_norm": 0.8187088966369629,
      "learning_rate": 0.00015620911468328444,
      "loss": 3.6978,
      "step": 234700
    },
    {
      "epoch": 0.4889791666666667,
      "grad_norm": 0.8128949999809265,
      "learning_rate": 0.00015619926456532515,
      "loss": 3.7161,
      "step": 234710
    },
    {
      "epoch": 0.489,
      "grad_norm": 0.7830237746238708,
      "learning_rate": 0.00015618941442058746,
      "loss": 3.764,
      "step": 234720
    },
    {
      "epoch": 0.48902083333333335,
      "grad_norm": 0.9077374339103699,
      "learning_rate": 0.000156179564249114,
      "loss": 3.8685,
      "step": 234730
    },
    {
      "epoch": 0.48904166666666665,
      "grad_norm": 0.762794017791748,
      "learning_rate": 0.00015616971405094722,
      "loss": 3.7211,
      "step": 234740
    },
    {
      "epoch": 0.4890625,
      "grad_norm": 1.089318871498108,
      "learning_rate": 0.0001561598638261298,
      "loss": 3.8472,
      "step": 234750
    },
    {
      "epoch": 0.4890833333333333,
      "grad_norm": 0.9800418615341187,
      "learning_rate": 0.00015615001357470413,
      "loss": 3.8336,
      "step": 234760
    },
    {
      "epoch": 0.4891041666666667,
      "grad_norm": 0.7784766554832458,
      "learning_rate": 0.00015614016329671283,
      "loss": 3.6501,
      "step": 234770
    },
    {
      "epoch": 0.489125,
      "grad_norm": 0.7276133894920349,
      "learning_rate": 0.0001561303129921985,
      "loss": 3.8288,
      "step": 234780
    },
    {
      "epoch": 0.48914583333333334,
      "grad_norm": 0.894197940826416,
      "learning_rate": 0.00015612046266120364,
      "loss": 3.7672,
      "step": 234790
    },
    {
      "epoch": 0.4891666666666667,
      "grad_norm": 0.8361311554908752,
      "learning_rate": 0.00015611061230377072,
      "loss": 3.6075,
      "step": 234800
    },
    {
      "epoch": 0.4891875,
      "grad_norm": 0.7737029790878296,
      "learning_rate": 0.00015610076191994248,
      "loss": 3.8751,
      "step": 234810
    },
    {
      "epoch": 0.48920833333333336,
      "grad_norm": 0.861587643623352,
      "learning_rate": 0.0001560909115097613,
      "loss": 3.7083,
      "step": 234820
    },
    {
      "epoch": 0.48922916666666666,
      "grad_norm": 0.8532484769821167,
      "learning_rate": 0.00015608106107326984,
      "loss": 3.7209,
      "step": 234830
    },
    {
      "epoch": 0.48925,
      "grad_norm": 0.9481427669525146,
      "learning_rate": 0.00015607121061051056,
      "loss": 3.7871,
      "step": 234840
    },
    {
      "epoch": 0.4892708333333333,
      "grad_norm": 0.842890202999115,
      "learning_rate": 0.0001560613601215261,
      "loss": 3.8072,
      "step": 234850
    },
    {
      "epoch": 0.4892916666666667,
      "grad_norm": 0.7595095038414001,
      "learning_rate": 0.00015605150960635892,
      "loss": 3.9196,
      "step": 234860
    },
    {
      "epoch": 0.4893125,
      "grad_norm": 0.8914121389389038,
      "learning_rate": 0.00015604165906505163,
      "loss": 3.7525,
      "step": 234870
    },
    {
      "epoch": 0.48933333333333334,
      "grad_norm": 1.0095785856246948,
      "learning_rate": 0.00015603180849764676,
      "loss": 3.7696,
      "step": 234880
    },
    {
      "epoch": 0.48935416666666665,
      "grad_norm": 0.8854213356971741,
      "learning_rate": 0.00015602195790418685,
      "loss": 3.8181,
      "step": 234890
    },
    {
      "epoch": 0.489375,
      "grad_norm": 0.7968577742576599,
      "learning_rate": 0.00015601210728471453,
      "loss": 3.8169,
      "step": 234900
    },
    {
      "epoch": 0.4893958333333333,
      "grad_norm": 0.9125415086746216,
      "learning_rate": 0.0001560022566392722,
      "loss": 3.9109,
      "step": 234910
    },
    {
      "epoch": 0.48941666666666667,
      "grad_norm": 1.0441473722457886,
      "learning_rate": 0.00015599240596790256,
      "loss": 3.646,
      "step": 234920
    },
    {
      "epoch": 0.4894375,
      "grad_norm": 0.9129378199577332,
      "learning_rate": 0.0001559825552706481,
      "loss": 3.8854,
      "step": 234930
    },
    {
      "epoch": 0.48945833333333333,
      "grad_norm": 0.7904179096221924,
      "learning_rate": 0.0001559727045475513,
      "loss": 3.8705,
      "step": 234940
    },
    {
      "epoch": 0.4894791666666667,
      "grad_norm": 0.8748157024383545,
      "learning_rate": 0.00015596285379865485,
      "loss": 3.788,
      "step": 234950
    },
    {
      "epoch": 0.4895,
      "grad_norm": 0.7865133881568909,
      "learning_rate": 0.00015595300302400123,
      "loss": 3.8095,
      "step": 234960
    },
    {
      "epoch": 0.48952083333333335,
      "grad_norm": 0.8103500604629517,
      "learning_rate": 0.00015594315222363292,
      "loss": 3.6753,
      "step": 234970
    },
    {
      "epoch": 0.48954166666666665,
      "grad_norm": 1.2567400932312012,
      "learning_rate": 0.00015593330139759265,
      "loss": 3.7984,
      "step": 234980
    },
    {
      "epoch": 0.4895625,
      "grad_norm": 0.8089079260826111,
      "learning_rate": 0.00015592345054592279,
      "loss": 3.8666,
      "step": 234990
    },
    {
      "epoch": 0.4895833333333333,
      "grad_norm": 1.000014066696167,
      "learning_rate": 0.00015591359966866602,
      "loss": 3.8223,
      "step": 235000
    },
    {
      "epoch": 0.4895833333333333,
      "eval_loss": 4.132588863372803,
      "eval_runtime": 8.3358,
      "eval_samples_per_second": 1.2,
      "eval_steps_per_second": 0.36,
      "step": 235000
    },
    {
      "epoch": 0.4896041666666667,
      "grad_norm": 0.7661005854606628,
      "learning_rate": 0.0001559037487658648,
      "loss": 3.6834,
      "step": 235010
    },
    {
      "epoch": 0.489625,
      "grad_norm": 0.7644543051719666,
      "learning_rate": 0.00015589389783756172,
      "loss": 3.9397,
      "step": 235020
    },
    {
      "epoch": 0.48964583333333334,
      "grad_norm": 0.7473607659339905,
      "learning_rate": 0.00015588404688379935,
      "loss": 3.7671,
      "step": 235030
    },
    {
      "epoch": 0.48966666666666664,
      "grad_norm": 0.9157393574714661,
      "learning_rate": 0.00015587419590462024,
      "loss": 3.9115,
      "step": 235040
    },
    {
      "epoch": 0.4896875,
      "grad_norm": 0.9544522762298584,
      "learning_rate": 0.00015586434490006692,
      "loss": 3.817,
      "step": 235050
    },
    {
      "epoch": 0.48970833333333336,
      "grad_norm": 0.7560673952102661,
      "learning_rate": 0.00015585449387018195,
      "loss": 3.7806,
      "step": 235060
    },
    {
      "epoch": 0.48972916666666666,
      "grad_norm": 0.9179753065109253,
      "learning_rate": 0.00015584464281500783,
      "loss": 3.9336,
      "step": 235070
    },
    {
      "epoch": 0.48975,
      "grad_norm": 0.7273985743522644,
      "learning_rate": 0.00015583479173458722,
      "loss": 4.0164,
      "step": 235080
    },
    {
      "epoch": 0.4897708333333333,
      "grad_norm": 0.8069899678230286,
      "learning_rate": 0.00015582494062896265,
      "loss": 4.0096,
      "step": 235090
    },
    {
      "epoch": 0.4897916666666667,
      "grad_norm": 0.7777063250541687,
      "learning_rate": 0.0001558150894981766,
      "loss": 3.7048,
      "step": 235100
    },
    {
      "epoch": 0.4898125,
      "grad_norm": 0.816526472568512,
      "learning_rate": 0.00015580523834227164,
      "loss": 3.9061,
      "step": 235110
    },
    {
      "epoch": 0.48983333333333334,
      "grad_norm": 0.708540141582489,
      "learning_rate": 0.0001557953871612904,
      "loss": 3.6399,
      "step": 235120
    },
    {
      "epoch": 0.48985416666666665,
      "grad_norm": 0.7511759996414185,
      "learning_rate": 0.00015578553595527539,
      "loss": 3.7474,
      "step": 235130
    },
    {
      "epoch": 0.489875,
      "grad_norm": 0.7000854015350342,
      "learning_rate": 0.00015577568472426907,
      "loss": 3.6295,
      "step": 235140
    },
    {
      "epoch": 0.4898958333333333,
      "grad_norm": 0.849092960357666,
      "learning_rate": 0.00015576583346831418,
      "loss": 3.7986,
      "step": 235150
    },
    {
      "epoch": 0.48991666666666667,
      "grad_norm": 0.8782861828804016,
      "learning_rate": 0.00015575598218745313,
      "loss": 3.7554,
      "step": 235160
    },
    {
      "epoch": 0.4899375,
      "grad_norm": 0.7549872994422913,
      "learning_rate": 0.00015574613088172845,
      "loss": 3.8492,
      "step": 235170
    },
    {
      "epoch": 0.48995833333333333,
      "grad_norm": 0.7794297933578491,
      "learning_rate": 0.00015573627955118286,
      "loss": 3.8478,
      "step": 235180
    },
    {
      "epoch": 0.4899791666666667,
      "grad_norm": 0.7048370242118835,
      "learning_rate": 0.00015572642819585875,
      "loss": 3.8118,
      "step": 235190
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.7972383499145508,
      "learning_rate": 0.0001557165768157988,
      "loss": 3.7909,
      "step": 235200
    },
    {
      "epoch": 0.49002083333333335,
      "grad_norm": 1.0368807315826416,
      "learning_rate": 0.00015570672541104542,
      "loss": 3.9302,
      "step": 235210
    },
    {
      "epoch": 0.49004166666666665,
      "grad_norm": 0.8818864822387695,
      "learning_rate": 0.0001556968739816413,
      "loss": 3.8257,
      "step": 235220
    },
    {
      "epoch": 0.4900625,
      "grad_norm": 0.7991200685501099,
      "learning_rate": 0.00015568702252762893,
      "loss": 3.6529,
      "step": 235230
    },
    {
      "epoch": 0.4900833333333333,
      "grad_norm": 0.922165036201477,
      "learning_rate": 0.00015567717104905085,
      "loss": 3.9297,
      "step": 235240
    },
    {
      "epoch": 0.4901041666666667,
      "grad_norm": 0.8176373243331909,
      "learning_rate": 0.00015566731954594966,
      "loss": 3.8017,
      "step": 235250
    },
    {
      "epoch": 0.490125,
      "grad_norm": 0.8866477012634277,
      "learning_rate": 0.00015565746801836795,
      "loss": 3.8319,
      "step": 235260
    },
    {
      "epoch": 0.49014583333333334,
      "grad_norm": 0.8223537802696228,
      "learning_rate": 0.00015564761646634813,
      "loss": 3.7419,
      "step": 235270
    },
    {
      "epoch": 0.49016666666666664,
      "grad_norm": 0.9898844361305237,
      "learning_rate": 0.00015563776488993283,
      "loss": 3.6452,
      "step": 235280
    },
    {
      "epoch": 0.4901875,
      "grad_norm": 0.8475813865661621,
      "learning_rate": 0.0001556279132891647,
      "loss": 3.9041,
      "step": 235290
    },
    {
      "epoch": 0.49020833333333336,
      "grad_norm": 0.7791380882263184,
      "learning_rate": 0.00015561806166408614,
      "loss": 3.6228,
      "step": 235300
    },
    {
      "epoch": 0.49022916666666666,
      "grad_norm": 0.8530002236366272,
      "learning_rate": 0.00015560821001473982,
      "loss": 3.6751,
      "step": 235310
    },
    {
      "epoch": 0.49025,
      "grad_norm": 0.6849559545516968,
      "learning_rate": 0.00015559835834116827,
      "loss": 3.7262,
      "step": 235320
    },
    {
      "epoch": 0.4902708333333333,
      "grad_norm": 0.7576618194580078,
      "learning_rate": 0.00015558850664341398,
      "loss": 3.8205,
      "step": 235330
    },
    {
      "epoch": 0.4902916666666667,
      "grad_norm": 0.8947238922119141,
      "learning_rate": 0.00015557865492151957,
      "loss": 3.7719,
      "step": 235340
    },
    {
      "epoch": 0.4903125,
      "grad_norm": 1.250637412071228,
      "learning_rate": 0.00015556880317552758,
      "loss": 3.8607,
      "step": 235350
    },
    {
      "epoch": 0.49033333333333334,
      "grad_norm": 0.8480871915817261,
      "learning_rate": 0.00015555895140548055,
      "loss": 3.8392,
      "step": 235360
    },
    {
      "epoch": 0.49035416666666665,
      "grad_norm": 0.8989595174789429,
      "learning_rate": 0.00015554909961142108,
      "loss": 3.8498,
      "step": 235370
    },
    {
      "epoch": 0.490375,
      "grad_norm": 0.8222594857215881,
      "learning_rate": 0.00015553924779339168,
      "loss": 3.8975,
      "step": 235380
    },
    {
      "epoch": 0.4903958333333333,
      "grad_norm": 0.7262818813323975,
      "learning_rate": 0.00015552939595143492,
      "loss": 3.8377,
      "step": 235390
    },
    {
      "epoch": 0.49041666666666667,
      "grad_norm": 0.9339576363563538,
      "learning_rate": 0.00015551954408559335,
      "loss": 3.681,
      "step": 235400
    },
    {
      "epoch": 0.4904375,
      "grad_norm": 0.8609625697135925,
      "learning_rate": 0.00015550969219590955,
      "loss": 3.777,
      "step": 235410
    },
    {
      "epoch": 0.49045833333333333,
      "grad_norm": 0.8449187278747559,
      "learning_rate": 0.00015549984028242605,
      "loss": 3.7422,
      "step": 235420
    },
    {
      "epoch": 0.4904791666666667,
      "grad_norm": 0.8163049221038818,
      "learning_rate": 0.00015548998834518548,
      "loss": 3.9409,
      "step": 235430
    },
    {
      "epoch": 0.4905,
      "grad_norm": 0.8034218549728394,
      "learning_rate": 0.0001554801363842302,
      "loss": 3.8346,
      "step": 235440
    },
    {
      "epoch": 0.49052083333333335,
      "grad_norm": 0.803770899772644,
      "learning_rate": 0.000155470284399603,
      "loss": 3.5741,
      "step": 235450
    },
    {
      "epoch": 0.49054166666666665,
      "grad_norm": 0.8329446911811829,
      "learning_rate": 0.00015546043239134634,
      "loss": 3.9823,
      "step": 235460
    },
    {
      "epoch": 0.4905625,
      "grad_norm": 1.0219292640686035,
      "learning_rate": 0.0001554505803595027,
      "loss": 3.777,
      "step": 235470
    },
    {
      "epoch": 0.4905833333333333,
      "grad_norm": 0.7494893074035645,
      "learning_rate": 0.00015544072830411476,
      "loss": 3.8687,
      "step": 235480
    },
    {
      "epoch": 0.4906041666666667,
      "grad_norm": 0.7036474943161011,
      "learning_rate": 0.00015543087622522508,
      "loss": 3.7374,
      "step": 235490
    },
    {
      "epoch": 0.490625,
      "grad_norm": 1.0189059972763062,
      "learning_rate": 0.0001554210241228761,
      "loss": 3.7023,
      "step": 235500
    },
    {
      "epoch": 0.49064583333333334,
      "grad_norm": 0.7755102515220642,
      "learning_rate": 0.00015541117199711045,
      "loss": 3.8908,
      "step": 235510
    },
    {
      "epoch": 0.49066666666666664,
      "grad_norm": 0.7291206121444702,
      "learning_rate": 0.00015540131984797067,
      "loss": 3.7577,
      "step": 235520
    },
    {
      "epoch": 0.4906875,
      "grad_norm": 0.7362620830535889,
      "learning_rate": 0.00015539146767549932,
      "loss": 3.7942,
      "step": 235530
    },
    {
      "epoch": 0.49070833333333336,
      "grad_norm": 0.7746559977531433,
      "learning_rate": 0.00015538161547973901,
      "loss": 3.6881,
      "step": 235540
    },
    {
      "epoch": 0.49072916666666666,
      "grad_norm": 1.0306458473205566,
      "learning_rate": 0.00015537176326073222,
      "loss": 4.0593,
      "step": 235550
    },
    {
      "epoch": 0.49075,
      "grad_norm": 0.7855677008628845,
      "learning_rate": 0.00015536191101852152,
      "loss": 3.6171,
      "step": 235560
    },
    {
      "epoch": 0.4907708333333333,
      "grad_norm": 0.7502385973930359,
      "learning_rate": 0.0001553520587531495,
      "loss": 3.7606,
      "step": 235570
    },
    {
      "epoch": 0.4907916666666667,
      "grad_norm": 0.9229145050048828,
      "learning_rate": 0.0001553422064646587,
      "loss": 3.8217,
      "step": 235580
    },
    {
      "epoch": 0.4908125,
      "grad_norm": 0.8047158122062683,
      "learning_rate": 0.0001553323541530917,
      "loss": 3.7537,
      "step": 235590
    },
    {
      "epoch": 0.49083333333333334,
      "grad_norm": 0.8098453879356384,
      "learning_rate": 0.00015532250181849103,
      "loss": 3.7111,
      "step": 235600
    },
    {
      "epoch": 0.49085416666666665,
      "grad_norm": 0.8412448167800903,
      "learning_rate": 0.00015531264946089926,
      "loss": 3.8625,
      "step": 235610
    },
    {
      "epoch": 0.490875,
      "grad_norm": 0.7830023169517517,
      "learning_rate": 0.00015530279708035898,
      "loss": 3.6211,
      "step": 235620
    },
    {
      "epoch": 0.4908958333333333,
      "grad_norm": 0.7969603538513184,
      "learning_rate": 0.00015529294467691272,
      "loss": 3.7684,
      "step": 235630
    },
    {
      "epoch": 0.49091666666666667,
      "grad_norm": 0.845738410949707,
      "learning_rate": 0.00015528309225060295,
      "loss": 3.7991,
      "step": 235640
    },
    {
      "epoch": 0.4909375,
      "grad_norm": 0.7127753496170044,
      "learning_rate": 0.0001552732398014724,
      "loss": 3.6763,
      "step": 235650
    },
    {
      "epoch": 0.49095833333333333,
      "grad_norm": 0.9150704741477966,
      "learning_rate": 0.0001552633873295635,
      "loss": 3.9633,
      "step": 235660
    },
    {
      "epoch": 0.4909791666666667,
      "grad_norm": 0.8059213161468506,
      "learning_rate": 0.0001552535348349188,
      "loss": 3.798,
      "step": 235670
    },
    {
      "epoch": 0.491,
      "grad_norm": 0.812235951423645,
      "learning_rate": 0.000155243682317581,
      "loss": 3.9555,
      "step": 235680
    },
    {
      "epoch": 0.49102083333333335,
      "grad_norm": 0.7578210234642029,
      "learning_rate": 0.00015523382977759254,
      "loss": 3.7871,
      "step": 235690
    },
    {
      "epoch": 0.49104166666666665,
      "grad_norm": 0.7473713159561157,
      "learning_rate": 0.00015522397721499598,
      "loss": 3.7112,
      "step": 235700
    },
    {
      "epoch": 0.4910625,
      "grad_norm": 0.8470622897148132,
      "learning_rate": 0.00015521412462983391,
      "loss": 3.7857,
      "step": 235710
    },
    {
      "epoch": 0.4910833333333333,
      "grad_norm": 0.7807363867759705,
      "learning_rate": 0.0001552042720221489,
      "loss": 3.978,
      "step": 235720
    },
    {
      "epoch": 0.4911041666666667,
      "grad_norm": 0.9525055885314941,
      "learning_rate": 0.0001551944193919835,
      "loss": 3.73,
      "step": 235730
    },
    {
      "epoch": 0.491125,
      "grad_norm": 0.6710153222084045,
      "learning_rate": 0.00015518456673938028,
      "loss": 3.7109,
      "step": 235740
    },
    {
      "epoch": 0.49114583333333334,
      "grad_norm": 0.8636115193367004,
      "learning_rate": 0.00015517471406438176,
      "loss": 3.933,
      "step": 235750
    },
    {
      "epoch": 0.49116666666666664,
      "grad_norm": 0.7706542611122131,
      "learning_rate": 0.00015516486136703053,
      "loss": 3.891,
      "step": 235760
    },
    {
      "epoch": 0.4911875,
      "grad_norm": 0.8140743970870972,
      "learning_rate": 0.00015515500864736914,
      "loss": 3.7946,
      "step": 235770
    },
    {
      "epoch": 0.49120833333333336,
      "grad_norm": 0.8991857767105103,
      "learning_rate": 0.00015514515590544015,
      "loss": 3.707,
      "step": 235780
    },
    {
      "epoch": 0.49122916666666666,
      "grad_norm": 1.1070747375488281,
      "learning_rate": 0.00015513530314128617,
      "loss": 3.7758,
      "step": 235790
    },
    {
      "epoch": 0.49125,
      "grad_norm": 0.797847330570221,
      "learning_rate": 0.0001551254503549496,
      "loss": 3.5395,
      "step": 235800
    },
    {
      "epoch": 0.4912708333333333,
      "grad_norm": 0.794064462184906,
      "learning_rate": 0.00015511559754647318,
      "loss": 3.7462,
      "step": 235810
    },
    {
      "epoch": 0.4912916666666667,
      "grad_norm": 1.0096166133880615,
      "learning_rate": 0.00015510574471589946,
      "loss": 3.8854,
      "step": 235820
    },
    {
      "epoch": 0.4913125,
      "grad_norm": 0.7636401057243347,
      "learning_rate": 0.0001550958918632709,
      "loss": 3.7711,
      "step": 235830
    },
    {
      "epoch": 0.49133333333333334,
      "grad_norm": 0.7472187876701355,
      "learning_rate": 0.00015508603898863006,
      "loss": 3.7738,
      "step": 235840
    },
    {
      "epoch": 0.49135416666666665,
      "grad_norm": 0.915117084980011,
      "learning_rate": 0.0001550761860920196,
      "loss": 3.6777,
      "step": 235850
    },
    {
      "epoch": 0.491375,
      "grad_norm": 0.8288442492485046,
      "learning_rate": 0.000155066333173482,
      "loss": 3.7969,
      "step": 235860
    },
    {
      "epoch": 0.4913958333333333,
      "grad_norm": 0.7804641723632812,
      "learning_rate": 0.00015505648023305985,
      "loss": 3.857,
      "step": 235870
    },
    {
      "epoch": 0.49141666666666667,
      "grad_norm": 0.856688380241394,
      "learning_rate": 0.0001550466272707957,
      "loss": 3.6188,
      "step": 235880
    },
    {
      "epoch": 0.4914375,
      "grad_norm": 1.0065535306930542,
      "learning_rate": 0.00015503677428673214,
      "loss": 3.708,
      "step": 235890
    },
    {
      "epoch": 0.49145833333333333,
      "grad_norm": 0.8356528878211975,
      "learning_rate": 0.00015502692128091167,
      "loss": 4.0212,
      "step": 235900
    },
    {
      "epoch": 0.4914791666666667,
      "grad_norm": 0.8367645740509033,
      "learning_rate": 0.00015501706825337693,
      "loss": 3.7231,
      "step": 235910
    },
    {
      "epoch": 0.4915,
      "grad_norm": 0.8494184613227844,
      "learning_rate": 0.0001550072152041704,
      "loss": 3.7696,
      "step": 235920
    },
    {
      "epoch": 0.49152083333333335,
      "grad_norm": 1.0102367401123047,
      "learning_rate": 0.00015499736213333477,
      "loss": 3.8969,
      "step": 235930
    },
    {
      "epoch": 0.49154166666666665,
      "grad_norm": 0.6732763051986694,
      "learning_rate": 0.0001549875090409124,
      "loss": 3.6222,
      "step": 235940
    },
    {
      "epoch": 0.4915625,
      "grad_norm": 0.7388251423835754,
      "learning_rate": 0.00015497765592694602,
      "loss": 3.593,
      "step": 235950
    },
    {
      "epoch": 0.4915833333333333,
      "grad_norm": 0.9044736623764038,
      "learning_rate": 0.00015496780279147815,
      "loss": 3.7235,
      "step": 235960
    },
    {
      "epoch": 0.4916041666666667,
      "grad_norm": 0.7089267373085022,
      "learning_rate": 0.00015495794963455128,
      "loss": 3.655,
      "step": 235970
    },
    {
      "epoch": 0.491625,
      "grad_norm": 0.7649139761924744,
      "learning_rate": 0.0001549480964562081,
      "loss": 3.8649,
      "step": 235980
    },
    {
      "epoch": 0.49164583333333334,
      "grad_norm": 0.7881776094436646,
      "learning_rate": 0.00015493824325649107,
      "loss": 3.6949,
      "step": 235990
    },
    {
      "epoch": 0.49166666666666664,
      "grad_norm": 0.8524801135063171,
      "learning_rate": 0.0001549283900354428,
      "loss": 3.7056,
      "step": 236000
    },
    {
      "epoch": 0.49166666666666664,
      "eval_loss": 4.1450042724609375,
      "eval_runtime": 8.6895,
      "eval_samples_per_second": 1.151,
      "eval_steps_per_second": 0.345,
      "step": 236000
    },
    {
      "epoch": 0.4916875,
      "grad_norm": 0.7755500674247742,
      "learning_rate": 0.0001549185367931058,
      "loss": 3.8169,
      "step": 236010
    },
    {
      "epoch": 0.49170833333333336,
      "grad_norm": 0.8328870534896851,
      "learning_rate": 0.0001549086835295227,
      "loss": 3.9114,
      "step": 236020
    },
    {
      "epoch": 0.49172916666666666,
      "grad_norm": 0.9095317721366882,
      "learning_rate": 0.00015489883024473602,
      "loss": 3.674,
      "step": 236030
    },
    {
      "epoch": 0.49175,
      "grad_norm": 1.119794249534607,
      "learning_rate": 0.0001548889769387883,
      "loss": 3.6487,
      "step": 236040
    },
    {
      "epoch": 0.4917708333333333,
      "grad_norm": 0.8793802857398987,
      "learning_rate": 0.0001548791236117222,
      "loss": 3.689,
      "step": 236050
    },
    {
      "epoch": 0.4917916666666667,
      "grad_norm": 0.7747487425804138,
      "learning_rate": 0.0001548692702635802,
      "loss": 3.6623,
      "step": 236060
    },
    {
      "epoch": 0.4918125,
      "grad_norm": 0.8905462026596069,
      "learning_rate": 0.00015485941689440485,
      "loss": 3.7501,
      "step": 236070
    },
    {
      "epoch": 0.49183333333333334,
      "grad_norm": 1.0157231092453003,
      "learning_rate": 0.00015484956350423875,
      "loss": 3.878,
      "step": 236080
    },
    {
      "epoch": 0.49185416666666665,
      "grad_norm": 0.7810513377189636,
      "learning_rate": 0.00015483971009312448,
      "loss": 3.729,
      "step": 236090
    },
    {
      "epoch": 0.491875,
      "grad_norm": 0.8292986750602722,
      "learning_rate": 0.00015482985666110457,
      "loss": 3.8541,
      "step": 236100
    },
    {
      "epoch": 0.4918958333333333,
      "grad_norm": 0.8530462384223938,
      "learning_rate": 0.00015482000320822157,
      "loss": 3.909,
      "step": 236110
    },
    {
      "epoch": 0.49191666666666667,
      "grad_norm": 0.765103816986084,
      "learning_rate": 0.00015481014973451807,
      "loss": 3.7472,
      "step": 236120
    },
    {
      "epoch": 0.4919375,
      "grad_norm": 0.6936365962028503,
      "learning_rate": 0.00015480029624003665,
      "loss": 3.7832,
      "step": 236130
    },
    {
      "epoch": 0.49195833333333333,
      "grad_norm": 0.7278750538825989,
      "learning_rate": 0.0001547904427248198,
      "loss": 3.6953,
      "step": 236140
    },
    {
      "epoch": 0.4919791666666667,
      "grad_norm": 0.8188028931617737,
      "learning_rate": 0.00015478058918891018,
      "loss": 3.8541,
      "step": 236150
    },
    {
      "epoch": 0.492,
      "grad_norm": 0.7340289354324341,
      "learning_rate": 0.00015477073563235032,
      "loss": 3.8332,
      "step": 236160
    },
    {
      "epoch": 0.49202083333333335,
      "grad_norm": 1.0005484819412231,
      "learning_rate": 0.00015476088205518273,
      "loss": 3.7475,
      "step": 236170
    },
    {
      "epoch": 0.49204166666666665,
      "grad_norm": 0.7849753499031067,
      "learning_rate": 0.00015475102845745,
      "loss": 3.8718,
      "step": 236180
    },
    {
      "epoch": 0.4920625,
      "grad_norm": 0.877032995223999,
      "learning_rate": 0.00015474117483919479,
      "loss": 3.6983,
      "step": 236190
    },
    {
      "epoch": 0.4920833333333333,
      "grad_norm": 0.7774151563644409,
      "learning_rate": 0.0001547313212004595,
      "loss": 3.8307,
      "step": 236200
    },
    {
      "epoch": 0.4921041666666667,
      "grad_norm": 0.6696451306343079,
      "learning_rate": 0.0001547214675412868,
      "loss": 3.6881,
      "step": 236210
    },
    {
      "epoch": 0.492125,
      "grad_norm": 0.8640580773353577,
      "learning_rate": 0.00015471161386171922,
      "loss": 3.7836,
      "step": 236220
    },
    {
      "epoch": 0.49214583333333334,
      "grad_norm": 0.927125096321106,
      "learning_rate": 0.00015470176016179937,
      "loss": 3.637,
      "step": 236230
    },
    {
      "epoch": 0.49216666666666664,
      "grad_norm": 0.7499215006828308,
      "learning_rate": 0.00015469190644156974,
      "loss": 3.6658,
      "step": 236240
    },
    {
      "epoch": 0.4921875,
      "grad_norm": 0.8928934931755066,
      "learning_rate": 0.00015468205270107295,
      "loss": 3.5515,
      "step": 236250
    },
    {
      "epoch": 0.49220833333333336,
      "grad_norm": 0.8649415373802185,
      "learning_rate": 0.00015467219894035154,
      "loss": 3.5385,
      "step": 236260
    },
    {
      "epoch": 0.49222916666666666,
      "grad_norm": 0.7257828712463379,
      "learning_rate": 0.00015466234515944808,
      "loss": 3.7036,
      "step": 236270
    },
    {
      "epoch": 0.49225,
      "grad_norm": 0.7735306620597839,
      "learning_rate": 0.0001546524913584051,
      "loss": 3.8457,
      "step": 236280
    },
    {
      "epoch": 0.4922708333333333,
      "grad_norm": 0.9629421830177307,
      "learning_rate": 0.00015464263753726528,
      "loss": 3.7186,
      "step": 236290
    },
    {
      "epoch": 0.4922916666666667,
      "grad_norm": 0.7416477203369141,
      "learning_rate": 0.00015463278369607107,
      "loss": 3.9232,
      "step": 236300
    },
    {
      "epoch": 0.4923125,
      "grad_norm": 0.8733921051025391,
      "learning_rate": 0.00015462292983486504,
      "loss": 3.7586,
      "step": 236310
    },
    {
      "epoch": 0.49233333333333335,
      "grad_norm": 0.9895066022872925,
      "learning_rate": 0.00015461307595368977,
      "loss": 3.7554,
      "step": 236320
    },
    {
      "epoch": 0.49235416666666665,
      "grad_norm": 0.7014324069023132,
      "learning_rate": 0.0001546032220525879,
      "loss": 3.6899,
      "step": 236330
    },
    {
      "epoch": 0.492375,
      "grad_norm": 0.6560409069061279,
      "learning_rate": 0.00015459336813160188,
      "loss": 3.829,
      "step": 236340
    },
    {
      "epoch": 0.4923958333333333,
      "grad_norm": 0.7457616329193115,
      "learning_rate": 0.00015458351419077432,
      "loss": 3.6298,
      "step": 236350
    },
    {
      "epoch": 0.49241666666666667,
      "grad_norm": 0.8717552423477173,
      "learning_rate": 0.00015457366023014787,
      "loss": 3.7624,
      "step": 236360
    },
    {
      "epoch": 0.4924375,
      "grad_norm": 0.9576324820518494,
      "learning_rate": 0.00015456380624976495,
      "loss": 3.7616,
      "step": 236370
    },
    {
      "epoch": 0.49245833333333333,
      "grad_norm": 0.8243177533149719,
      "learning_rate": 0.00015455395224966823,
      "loss": 3.6837,
      "step": 236380
    },
    {
      "epoch": 0.4924791666666667,
      "grad_norm": 0.8536901473999023,
      "learning_rate": 0.00015454409822990018,
      "loss": 3.6875,
      "step": 236390
    },
    {
      "epoch": 0.4925,
      "grad_norm": 0.7731333374977112,
      "learning_rate": 0.00015453424419050347,
      "loss": 3.747,
      "step": 236400
    },
    {
      "epoch": 0.49252083333333335,
      "grad_norm": 0.7655118703842163,
      "learning_rate": 0.00015452439013152064,
      "loss": 3.759,
      "step": 236410
    },
    {
      "epoch": 0.49254166666666666,
      "grad_norm": 0.8325716257095337,
      "learning_rate": 0.00015451453605299417,
      "loss": 4.0062,
      "step": 236420
    },
    {
      "epoch": 0.4925625,
      "grad_norm": 0.7252935171127319,
      "learning_rate": 0.00015450468195496675,
      "loss": 3.7816,
      "step": 236430
    },
    {
      "epoch": 0.4925833333333333,
      "grad_norm": 0.8509171605110168,
      "learning_rate": 0.00015449482783748086,
      "loss": 3.6504,
      "step": 236440
    },
    {
      "epoch": 0.4926041666666667,
      "grad_norm": 0.9558171033859253,
      "learning_rate": 0.00015448497370057913,
      "loss": 3.7725,
      "step": 236450
    },
    {
      "epoch": 0.492625,
      "grad_norm": 0.9359307289123535,
      "learning_rate": 0.000154475119544304,
      "loss": 3.7173,
      "step": 236460
    },
    {
      "epoch": 0.49264583333333334,
      "grad_norm": 0.9915424585342407,
      "learning_rate": 0.0001544652653686982,
      "loss": 3.7494,
      "step": 236470
    },
    {
      "epoch": 0.49266666666666664,
      "grad_norm": 0.8903259038925171,
      "learning_rate": 0.0001544554111738042,
      "loss": 3.7616,
      "step": 236480
    },
    {
      "epoch": 0.4926875,
      "grad_norm": 0.8383105397224426,
      "learning_rate": 0.00015444555695966463,
      "loss": 3.6803,
      "step": 236490
    },
    {
      "epoch": 0.49270833333333336,
      "grad_norm": 0.8285077214241028,
      "learning_rate": 0.000154435702726322,
      "loss": 3.6033,
      "step": 236500
    },
    {
      "epoch": 0.49272916666666666,
      "grad_norm": 0.8966432213783264,
      "learning_rate": 0.0001544258484738188,
      "loss": 3.8525,
      "step": 236510
    },
    {
      "epoch": 0.49275,
      "grad_norm": 0.897567868232727,
      "learning_rate": 0.00015441599420219781,
      "loss": 3.848,
      "step": 236520
    },
    {
      "epoch": 0.4927708333333333,
      "grad_norm": 0.7597256302833557,
      "learning_rate": 0.00015440613991150138,
      "loss": 3.8934,
      "step": 236530
    },
    {
      "epoch": 0.4927916666666667,
      "grad_norm": 0.7917814254760742,
      "learning_rate": 0.00015439628560177222,
      "loss": 3.8221,
      "step": 236540
    },
    {
      "epoch": 0.4928125,
      "grad_norm": 0.8523826599121094,
      "learning_rate": 0.00015438643127305284,
      "loss": 3.749,
      "step": 236550
    },
    {
      "epoch": 0.49283333333333335,
      "grad_norm": 0.753792941570282,
      "learning_rate": 0.00015437657692538582,
      "loss": 3.6623,
      "step": 236560
    },
    {
      "epoch": 0.49285416666666665,
      "grad_norm": 0.7358757257461548,
      "learning_rate": 0.0001543667225588137,
      "loss": 3.7067,
      "step": 236570
    },
    {
      "epoch": 0.492875,
      "grad_norm": 0.9973975419998169,
      "learning_rate": 0.00015435686817337908,
      "loss": 3.8837,
      "step": 236580
    },
    {
      "epoch": 0.4928958333333333,
      "grad_norm": 0.7935978174209595,
      "learning_rate": 0.00015434701376912445,
      "loss": 3.7688,
      "step": 236590
    },
    {
      "epoch": 0.49291666666666667,
      "grad_norm": 0.8455824851989746,
      "learning_rate": 0.0001543371593460925,
      "loss": 3.6503,
      "step": 236600
    },
    {
      "epoch": 0.4929375,
      "grad_norm": 1.0410131216049194,
      "learning_rate": 0.00015432730490432575,
      "loss": 3.7588,
      "step": 236610
    },
    {
      "epoch": 0.49295833333333333,
      "grad_norm": 0.9217324256896973,
      "learning_rate": 0.00015431745044386673,
      "loss": 3.7576,
      "step": 236620
    },
    {
      "epoch": 0.4929791666666667,
      "grad_norm": 0.7305070757865906,
      "learning_rate": 0.00015430759596475808,
      "loss": 3.7333,
      "step": 236630
    },
    {
      "epoch": 0.493,
      "grad_norm": 0.7737119197845459,
      "learning_rate": 0.00015429774146704227,
      "loss": 3.6589,
      "step": 236640
    },
    {
      "epoch": 0.49302083333333335,
      "grad_norm": 0.7745954990386963,
      "learning_rate": 0.00015428788695076194,
      "loss": 3.731,
      "step": 236650
    },
    {
      "epoch": 0.49304166666666666,
      "grad_norm": 0.8564416170120239,
      "learning_rate": 0.00015427803241595966,
      "loss": 3.6838,
      "step": 236660
    },
    {
      "epoch": 0.4930625,
      "grad_norm": 0.8005573749542236,
      "learning_rate": 0.0001542681778626779,
      "loss": 3.7328,
      "step": 236670
    },
    {
      "epoch": 0.4930833333333333,
      "grad_norm": 0.9100181460380554,
      "learning_rate": 0.00015425832329095935,
      "loss": 3.724,
      "step": 236680
    },
    {
      "epoch": 0.4931041666666667,
      "grad_norm": 0.7759115695953369,
      "learning_rate": 0.00015424846870084653,
      "loss": 3.6992,
      "step": 236690
    },
    {
      "epoch": 0.493125,
      "grad_norm": 0.8707696795463562,
      "learning_rate": 0.000154238614092382,
      "loss": 3.5751,
      "step": 236700
    },
    {
      "epoch": 0.49314583333333334,
      "grad_norm": 0.8834092020988464,
      "learning_rate": 0.0001542287594656083,
      "loss": 3.8138,
      "step": 236710
    },
    {
      "epoch": 0.49316666666666664,
      "grad_norm": 0.8223856091499329,
      "learning_rate": 0.0001542189048205681,
      "loss": 3.6439,
      "step": 236720
    },
    {
      "epoch": 0.4931875,
      "grad_norm": 0.7340774536132812,
      "learning_rate": 0.00015420905015730386,
      "loss": 3.7794,
      "step": 236730
    },
    {
      "epoch": 0.49320833333333336,
      "grad_norm": 1.0857256650924683,
      "learning_rate": 0.00015419919547585815,
      "loss": 3.7853,
      "step": 236740
    },
    {
      "epoch": 0.49322916666666666,
      "grad_norm": 0.7525103688240051,
      "learning_rate": 0.00015418934077627368,
      "loss": 3.7982,
      "step": 236750
    },
    {
      "epoch": 0.49325,
      "grad_norm": 0.8160809874534607,
      "learning_rate": 0.00015417948605859287,
      "loss": 3.7208,
      "step": 236760
    },
    {
      "epoch": 0.4932708333333333,
      "grad_norm": 0.7059813737869263,
      "learning_rate": 0.0001541696313228583,
      "loss": 3.9709,
      "step": 236770
    },
    {
      "epoch": 0.4932916666666667,
      "grad_norm": 0.7481761574745178,
      "learning_rate": 0.0001541597765691126,
      "loss": 3.8605,
      "step": 236780
    },
    {
      "epoch": 0.4933125,
      "grad_norm": 0.7558107972145081,
      "learning_rate": 0.0001541499217973983,
      "loss": 3.7732,
      "step": 236790
    },
    {
      "epoch": 0.49333333333333335,
      "grad_norm": 0.8465986251831055,
      "learning_rate": 0.000154140067007758,
      "loss": 3.9258,
      "step": 236800
    },
    {
      "epoch": 0.49335416666666665,
      "grad_norm": 0.9274717569351196,
      "learning_rate": 0.00015413021220023426,
      "loss": 3.881,
      "step": 236810
    },
    {
      "epoch": 0.493375,
      "grad_norm": 0.8094309568405151,
      "learning_rate": 0.0001541203573748696,
      "loss": 3.6811,
      "step": 236820
    },
    {
      "epoch": 0.4933958333333333,
      "grad_norm": 0.8114022612571716,
      "learning_rate": 0.00015411050253170668,
      "loss": 3.5991,
      "step": 236830
    },
    {
      "epoch": 0.49341666666666667,
      "grad_norm": 0.8615202903747559,
      "learning_rate": 0.00015410064767078794,
      "loss": 3.7142,
      "step": 236840
    },
    {
      "epoch": 0.4934375,
      "grad_norm": 0.8161909580230713,
      "learning_rate": 0.00015409079279215607,
      "loss": 3.685,
      "step": 236850
    },
    {
      "epoch": 0.49345833333333333,
      "grad_norm": 0.7387424111366272,
      "learning_rate": 0.0001540809378958536,
      "loss": 3.7135,
      "step": 236860
    },
    {
      "epoch": 0.4934791666666667,
      "grad_norm": 0.8688302636146545,
      "learning_rate": 0.0001540710829819231,
      "loss": 3.8329,
      "step": 236870
    },
    {
      "epoch": 0.4935,
      "grad_norm": 0.8326995968818665,
      "learning_rate": 0.00015406122805040708,
      "loss": 3.6477,
      "step": 236880
    },
    {
      "epoch": 0.49352083333333335,
      "grad_norm": 0.8748881220817566,
      "learning_rate": 0.00015405137310134823,
      "loss": 3.7464,
      "step": 236890
    },
    {
      "epoch": 0.49354166666666666,
      "grad_norm": 0.796298086643219,
      "learning_rate": 0.00015404151813478903,
      "loss": 3.8389,
      "step": 236900
    },
    {
      "epoch": 0.4935625,
      "grad_norm": 0.6826839447021484,
      "learning_rate": 0.000154031663150772,
      "loss": 3.8467,
      "step": 236910
    },
    {
      "epoch": 0.4935833333333333,
      "grad_norm": 0.910941481590271,
      "learning_rate": 0.0001540218081493399,
      "loss": 3.8537,
      "step": 236920
    },
    {
      "epoch": 0.4936041666666667,
      "grad_norm": 1.1965008974075317,
      "learning_rate": 0.00015401195313053512,
      "loss": 3.8461,
      "step": 236930
    },
    {
      "epoch": 0.493625,
      "grad_norm": 0.7460291981697083,
      "learning_rate": 0.00015400209809440029,
      "loss": 3.907,
      "step": 236940
    },
    {
      "epoch": 0.49364583333333334,
      "grad_norm": 0.8585749864578247,
      "learning_rate": 0.00015399224304097798,
      "loss": 3.8084,
      "step": 236950
    },
    {
      "epoch": 0.49366666666666664,
      "grad_norm": 0.832073450088501,
      "learning_rate": 0.00015398238797031076,
      "loss": 3.8332,
      "step": 236960
    },
    {
      "epoch": 0.4936875,
      "grad_norm": 0.7869353890419006,
      "learning_rate": 0.0001539725328824412,
      "loss": 3.6027,
      "step": 236970
    },
    {
      "epoch": 0.49370833333333336,
      "grad_norm": 0.8285220265388489,
      "learning_rate": 0.0001539626777774119,
      "loss": 3.7469,
      "step": 236980
    },
    {
      "epoch": 0.49372916666666666,
      "grad_norm": 0.7577793002128601,
      "learning_rate": 0.00015395282265526537,
      "loss": 3.6798,
      "step": 236990
    },
    {
      "epoch": 0.49375,
      "grad_norm": 0.7302167415618896,
      "learning_rate": 0.00015394296751604423,
      "loss": 3.8021,
      "step": 237000
    },
    {
      "epoch": 0.49375,
      "eval_loss": 4.143740653991699,
      "eval_runtime": 8.4554,
      "eval_samples_per_second": 1.183,
      "eval_steps_per_second": 0.355,
      "step": 237000
    },
    {
      "epoch": 0.4937708333333333,
      "grad_norm": 0.7408103346824646,
      "learning_rate": 0.00015393311235979102,
      "loss": 3.803,
      "step": 237010
    },
    {
      "epoch": 0.4937916666666667,
      "grad_norm": 0.8002423048019409,
      "learning_rate": 0.0001539232571865483,
      "loss": 3.8289,
      "step": 237020
    },
    {
      "epoch": 0.4938125,
      "grad_norm": 0.74864661693573,
      "learning_rate": 0.00015391340199635872,
      "loss": 3.5696,
      "step": 237030
    },
    {
      "epoch": 0.49383333333333335,
      "grad_norm": 0.7922130227088928,
      "learning_rate": 0.0001539035467892647,
      "loss": 3.8901,
      "step": 237040
    },
    {
      "epoch": 0.49385416666666665,
      "grad_norm": 0.8571851253509521,
      "learning_rate": 0.00015389369156530895,
      "loss": 3.86,
      "step": 237050
    },
    {
      "epoch": 0.493875,
      "grad_norm": 0.7841837406158447,
      "learning_rate": 0.00015388383632453404,
      "loss": 3.7292,
      "step": 237060
    },
    {
      "epoch": 0.4938958333333333,
      "grad_norm": 1.1801837682724,
      "learning_rate": 0.00015387398106698246,
      "loss": 3.7747,
      "step": 237070
    },
    {
      "epoch": 0.49391666666666667,
      "grad_norm": 0.8239372968673706,
      "learning_rate": 0.0001538641257926968,
      "loss": 3.6872,
      "step": 237080
    },
    {
      "epoch": 0.4939375,
      "grad_norm": 0.7386560440063477,
      "learning_rate": 0.0001538542705017197,
      "loss": 3.8233,
      "step": 237090
    },
    {
      "epoch": 0.49395833333333333,
      "grad_norm": 1.040082335472107,
      "learning_rate": 0.00015384441519409358,
      "loss": 3.9668,
      "step": 237100
    },
    {
      "epoch": 0.4939791666666667,
      "grad_norm": 0.8851200938224792,
      "learning_rate": 0.00015383455986986118,
      "loss": 3.7802,
      "step": 237110
    },
    {
      "epoch": 0.494,
      "grad_norm": 0.7459439039230347,
      "learning_rate": 0.00015382470452906497,
      "loss": 3.8328,
      "step": 237120
    },
    {
      "epoch": 0.49402083333333335,
      "grad_norm": 0.8341724872589111,
      "learning_rate": 0.00015381484917174757,
      "loss": 3.7654,
      "step": 237130
    },
    {
      "epoch": 0.49404166666666666,
      "grad_norm": 1.0533506870269775,
      "learning_rate": 0.00015380499379795152,
      "loss": 3.7144,
      "step": 237140
    },
    {
      "epoch": 0.4940625,
      "grad_norm": 0.7694838643074036,
      "learning_rate": 0.00015379513840771942,
      "loss": 3.925,
      "step": 237150
    },
    {
      "epoch": 0.4940833333333333,
      "grad_norm": 0.8850077390670776,
      "learning_rate": 0.00015378528300109378,
      "loss": 3.7468,
      "step": 237160
    },
    {
      "epoch": 0.4941041666666667,
      "grad_norm": 0.8771915435791016,
      "learning_rate": 0.00015377542757811724,
      "loss": 3.7373,
      "step": 237170
    },
    {
      "epoch": 0.494125,
      "grad_norm": 0.9936367273330688,
      "learning_rate": 0.0001537655721388324,
      "loss": 3.7426,
      "step": 237180
    },
    {
      "epoch": 0.49414583333333334,
      "grad_norm": 0.8455718159675598,
      "learning_rate": 0.0001537557166832817,
      "loss": 3.7959,
      "step": 237190
    },
    {
      "epoch": 0.49416666666666664,
      "grad_norm": 0.9855799078941345,
      "learning_rate": 0.00015374586121150784,
      "loss": 4.039,
      "step": 237200
    },
    {
      "epoch": 0.4941875,
      "grad_norm": 0.7514578104019165,
      "learning_rate": 0.00015373600572355332,
      "loss": 3.8126,
      "step": 237210
    },
    {
      "epoch": 0.49420833333333336,
      "grad_norm": 0.7301512956619263,
      "learning_rate": 0.00015372615021946073,
      "loss": 3.8312,
      "step": 237220
    },
    {
      "epoch": 0.49422916666666666,
      "grad_norm": 0.849463701248169,
      "learning_rate": 0.0001537162946992727,
      "loss": 3.8147,
      "step": 237230
    },
    {
      "epoch": 0.49425,
      "grad_norm": 0.7926545143127441,
      "learning_rate": 0.00015370643916303166,
      "loss": 3.8385,
      "step": 237240
    },
    {
      "epoch": 0.4942708333333333,
      "grad_norm": 0.8066469430923462,
      "learning_rate": 0.00015369658361078035,
      "loss": 3.7023,
      "step": 237250
    },
    {
      "epoch": 0.4942916666666667,
      "grad_norm": 1.610530972480774,
      "learning_rate": 0.00015368672804256123,
      "loss": 3.811,
      "step": 237260
    },
    {
      "epoch": 0.4943125,
      "grad_norm": 0.8504158854484558,
      "learning_rate": 0.00015367687245841687,
      "loss": 3.9823,
      "step": 237270
    },
    {
      "epoch": 0.49433333333333335,
      "grad_norm": 0.7309313416481018,
      "learning_rate": 0.00015366701685838992,
      "loss": 3.6932,
      "step": 237280
    },
    {
      "epoch": 0.49435416666666665,
      "grad_norm": 0.869163453578949,
      "learning_rate": 0.0001536571612425229,
      "loss": 3.8335,
      "step": 237290
    },
    {
      "epoch": 0.494375,
      "grad_norm": 0.8276923298835754,
      "learning_rate": 0.00015364730561085837,
      "loss": 3.7681,
      "step": 237300
    },
    {
      "epoch": 0.4943958333333333,
      "grad_norm": 0.8588859438896179,
      "learning_rate": 0.00015363744996343894,
      "loss": 3.9334,
      "step": 237310
    },
    {
      "epoch": 0.49441666666666667,
      "grad_norm": 0.9168160557746887,
      "learning_rate": 0.00015362759430030717,
      "loss": 3.8569,
      "step": 237320
    },
    {
      "epoch": 0.4944375,
      "grad_norm": 1.1416724920272827,
      "learning_rate": 0.00015361773862150564,
      "loss": 3.7115,
      "step": 237330
    },
    {
      "epoch": 0.49445833333333333,
      "grad_norm": 0.8389923572540283,
      "learning_rate": 0.00015360788292707688,
      "loss": 3.9375,
      "step": 237340
    },
    {
      "epoch": 0.4944791666666667,
      "grad_norm": 0.6308863759040833,
      "learning_rate": 0.00015359802721706353,
      "loss": 3.5999,
      "step": 237350
    },
    {
      "epoch": 0.4945,
      "grad_norm": 0.7549574375152588,
      "learning_rate": 0.00015358817149150808,
      "loss": 3.6272,
      "step": 237360
    },
    {
      "epoch": 0.49452083333333335,
      "grad_norm": 0.9043022394180298,
      "learning_rate": 0.0001535783157504532,
      "loss": 3.7082,
      "step": 237370
    },
    {
      "epoch": 0.49454166666666666,
      "grad_norm": 0.9322233200073242,
      "learning_rate": 0.00015356845999394135,
      "loss": 3.7658,
      "step": 237380
    },
    {
      "epoch": 0.4945625,
      "grad_norm": 1.0539401769638062,
      "learning_rate": 0.0001535586042220152,
      "loss": 3.9039,
      "step": 237390
    },
    {
      "epoch": 0.4945833333333333,
      "grad_norm": 0.7042367458343506,
      "learning_rate": 0.00015354874843471732,
      "loss": 3.8086,
      "step": 237400
    },
    {
      "epoch": 0.4946041666666667,
      "grad_norm": 0.8298624157905579,
      "learning_rate": 0.0001535388926320902,
      "loss": 3.8271,
      "step": 237410
    },
    {
      "epoch": 0.494625,
      "grad_norm": 1.0226212739944458,
      "learning_rate": 0.0001535290368141765,
      "loss": 3.8812,
      "step": 237420
    },
    {
      "epoch": 0.49464583333333334,
      "grad_norm": 0.9711266756057739,
      "learning_rate": 0.00015351918098101876,
      "loss": 3.7052,
      "step": 237430
    },
    {
      "epoch": 0.49466666666666664,
      "grad_norm": 0.826080322265625,
      "learning_rate": 0.00015350932513265953,
      "loss": 3.7779,
      "step": 237440
    },
    {
      "epoch": 0.4946875,
      "grad_norm": 0.8664819598197937,
      "learning_rate": 0.0001534994692691414,
      "loss": 3.8166,
      "step": 237450
    },
    {
      "epoch": 0.49470833333333336,
      "grad_norm": 0.9297009706497192,
      "learning_rate": 0.00015348961339050696,
      "loss": 3.8415,
      "step": 237460
    },
    {
      "epoch": 0.49472916666666666,
      "grad_norm": 0.9680590629577637,
      "learning_rate": 0.00015347975749679878,
      "loss": 3.6752,
      "step": 237470
    },
    {
      "epoch": 0.49475,
      "grad_norm": 0.9130398035049438,
      "learning_rate": 0.0001534699015880594,
      "loss": 3.7989,
      "step": 237480
    },
    {
      "epoch": 0.4947708333333333,
      "grad_norm": 0.8203428387641907,
      "learning_rate": 0.00015346004566433143,
      "loss": 3.7676,
      "step": 237490
    },
    {
      "epoch": 0.4947916666666667,
      "grad_norm": 0.8196139931678772,
      "learning_rate": 0.00015345018972565743,
      "loss": 3.7994,
      "step": 237500
    },
    {
      "epoch": 0.4948125,
      "grad_norm": 0.8329639434814453,
      "learning_rate": 0.00015344033377207998,
      "loss": 3.6536,
      "step": 237510
    },
    {
      "epoch": 0.49483333333333335,
      "grad_norm": 0.8766422271728516,
      "learning_rate": 0.00015343047780364165,
      "loss": 3.9279,
      "step": 237520
    },
    {
      "epoch": 0.49485416666666665,
      "grad_norm": 0.8216445446014404,
      "learning_rate": 0.00015342062182038504,
      "loss": 3.7704,
      "step": 237530
    },
    {
      "epoch": 0.494875,
      "grad_norm": 1.0199394226074219,
      "learning_rate": 0.00015341076582235265,
      "loss": 3.8395,
      "step": 237540
    },
    {
      "epoch": 0.4948958333333333,
      "grad_norm": 0.9036005735397339,
      "learning_rate": 0.0001534009098095871,
      "loss": 3.8282,
      "step": 237550
    },
    {
      "epoch": 0.49491666666666667,
      "grad_norm": 0.8424267172813416,
      "learning_rate": 0.00015339105378213105,
      "loss": 3.8703,
      "step": 237560
    },
    {
      "epoch": 0.4949375,
      "grad_norm": 1.0036940574645996,
      "learning_rate": 0.00015338119774002695,
      "loss": 3.5282,
      "step": 237570
    },
    {
      "epoch": 0.49495833333333333,
      "grad_norm": 0.7361514568328857,
      "learning_rate": 0.00015337134168331732,
      "loss": 3.6634,
      "step": 237580
    },
    {
      "epoch": 0.4949791666666667,
      "grad_norm": 0.8247551918029785,
      "learning_rate": 0.00015336148561204496,
      "loss": 3.7606,
      "step": 237590
    },
    {
      "epoch": 0.495,
      "grad_norm": 0.7477384805679321,
      "learning_rate": 0.00015335162952625226,
      "loss": 3.8084,
      "step": 237600
    },
    {
      "epoch": 0.49502083333333335,
      "grad_norm": 0.8133105635643005,
      "learning_rate": 0.0001533417734259818,
      "loss": 3.7372,
      "step": 237610
    },
    {
      "epoch": 0.49504166666666666,
      "grad_norm": 0.7914823889732361,
      "learning_rate": 0.00015333191731127627,
      "loss": 3.9055,
      "step": 237620
    },
    {
      "epoch": 0.4950625,
      "grad_norm": 0.8277153372764587,
      "learning_rate": 0.00015332206118217815,
      "loss": 3.8207,
      "step": 237630
    },
    {
      "epoch": 0.4950833333333333,
      "grad_norm": 0.6751575469970703,
      "learning_rate": 0.00015331220503873004,
      "loss": 3.6561,
      "step": 237640
    },
    {
      "epoch": 0.4951041666666667,
      "grad_norm": 0.752768874168396,
      "learning_rate": 0.0001533023488809745,
      "loss": 3.7922,
      "step": 237650
    },
    {
      "epoch": 0.495125,
      "grad_norm": 0.9314393401145935,
      "learning_rate": 0.00015329249270895414,
      "loss": 3.6407,
      "step": 237660
    },
    {
      "epoch": 0.49514583333333334,
      "grad_norm": 0.7909165620803833,
      "learning_rate": 0.00015328263652271152,
      "loss": 3.8166,
      "step": 237670
    },
    {
      "epoch": 0.49516666666666664,
      "grad_norm": 0.7422119975090027,
      "learning_rate": 0.00015327278032228918,
      "loss": 3.5926,
      "step": 237680
    },
    {
      "epoch": 0.4951875,
      "grad_norm": 0.8067912459373474,
      "learning_rate": 0.00015326292410772975,
      "loss": 3.8076,
      "step": 237690
    },
    {
      "epoch": 0.4952083333333333,
      "grad_norm": 0.7497854828834534,
      "learning_rate": 0.00015325306787907582,
      "loss": 3.6887,
      "step": 237700
    },
    {
      "epoch": 0.49522916666666666,
      "grad_norm": 0.8297907710075378,
      "learning_rate": 0.00015324321163636984,
      "loss": 3.7447,
      "step": 237710
    },
    {
      "epoch": 0.49525,
      "grad_norm": 0.8359936475753784,
      "learning_rate": 0.0001532333553796545,
      "loss": 3.7763,
      "step": 237720
    },
    {
      "epoch": 0.4952708333333333,
      "grad_norm": 0.8241927027702332,
      "learning_rate": 0.0001532234991089724,
      "loss": 3.7246,
      "step": 237730
    },
    {
      "epoch": 0.4952916666666667,
      "grad_norm": 0.8751989603042603,
      "learning_rate": 0.00015321364282436595,
      "loss": 3.8346,
      "step": 237740
    },
    {
      "epoch": 0.4953125,
      "grad_norm": 0.8410475254058838,
      "learning_rate": 0.0001532037865258779,
      "loss": 3.9287,
      "step": 237750
    },
    {
      "epoch": 0.49533333333333335,
      "grad_norm": 0.7771235704421997,
      "learning_rate": 0.0001531939302135508,
      "loss": 3.7751,
      "step": 237760
    },
    {
      "epoch": 0.49535416666666665,
      "grad_norm": 1.0475361347198486,
      "learning_rate": 0.00015318407388742713,
      "loss": 3.6192,
      "step": 237770
    },
    {
      "epoch": 0.495375,
      "grad_norm": 0.9133773446083069,
      "learning_rate": 0.0001531742175475495,
      "loss": 3.7782,
      "step": 237780
    },
    {
      "epoch": 0.4953958333333333,
      "grad_norm": 0.9450029730796814,
      "learning_rate": 0.0001531643611939606,
      "loss": 3.7412,
      "step": 237790
    },
    {
      "epoch": 0.49541666666666667,
      "grad_norm": 0.8831245303153992,
      "learning_rate": 0.00015315450482670284,
      "loss": 3.7445,
      "step": 237800
    },
    {
      "epoch": 0.4954375,
      "grad_norm": 0.7825669646263123,
      "learning_rate": 0.00015314464844581887,
      "loss": 3.7837,
      "step": 237810
    },
    {
      "epoch": 0.49545833333333333,
      "grad_norm": 1.101222276687622,
      "learning_rate": 0.00015313479205135127,
      "loss": 3.7725,
      "step": 237820
    },
    {
      "epoch": 0.4954791666666667,
      "grad_norm": 0.764979362487793,
      "learning_rate": 0.00015312493564334265,
      "loss": 3.7392,
      "step": 237830
    },
    {
      "epoch": 0.4955,
      "grad_norm": 1.066288948059082,
      "learning_rate": 0.0001531150792218355,
      "loss": 3.8072,
      "step": 237840
    },
    {
      "epoch": 0.49552083333333335,
      "grad_norm": 0.7381714582443237,
      "learning_rate": 0.00015310522278687242,
      "loss": 3.6822,
      "step": 237850
    },
    {
      "epoch": 0.49554166666666666,
      "grad_norm": 1.0502980947494507,
      "learning_rate": 0.00015309536633849606,
      "loss": 3.6424,
      "step": 237860
    },
    {
      "epoch": 0.4955625,
      "grad_norm": 0.8648732304573059,
      "learning_rate": 0.00015308550987674894,
      "loss": 3.8306,
      "step": 237870
    },
    {
      "epoch": 0.4955833333333333,
      "grad_norm": 0.9311817288398743,
      "learning_rate": 0.00015307565340167358,
      "loss": 3.8352,
      "step": 237880
    },
    {
      "epoch": 0.4956041666666667,
      "grad_norm": 0.8496232032775879,
      "learning_rate": 0.00015306579691331266,
      "loss": 3.5791,
      "step": 237890
    },
    {
      "epoch": 0.495625,
      "grad_norm": 0.7807260155677795,
      "learning_rate": 0.00015305594041170871,
      "loss": 3.9763,
      "step": 237900
    },
    {
      "epoch": 0.49564583333333334,
      "grad_norm": 0.7292104363441467,
      "learning_rate": 0.0001530460838969043,
      "loss": 3.695,
      "step": 237910
    },
    {
      "epoch": 0.49566666666666664,
      "grad_norm": 0.8002505302429199,
      "learning_rate": 0.000153036227368942,
      "loss": 3.8198,
      "step": 237920
    },
    {
      "epoch": 0.4956875,
      "grad_norm": 0.8068302273750305,
      "learning_rate": 0.00015302637082786444,
      "loss": 3.7225,
      "step": 237930
    },
    {
      "epoch": 0.4957083333333333,
      "grad_norm": 0.9712274074554443,
      "learning_rate": 0.00015301651427371415,
      "loss": 3.7552,
      "step": 237940
    },
    {
      "epoch": 0.49572916666666667,
      "grad_norm": 0.9948316812515259,
      "learning_rate": 0.00015300665770653362,
      "loss": 3.7797,
      "step": 237950
    },
    {
      "epoch": 0.49575,
      "grad_norm": 0.8264886140823364,
      "learning_rate": 0.00015299680112636566,
      "loss": 3.7417,
      "step": 237960
    },
    {
      "epoch": 0.4957708333333333,
      "grad_norm": 0.8058579564094543,
      "learning_rate": 0.0001529869445332526,
      "loss": 3.8851,
      "step": 237970
    },
    {
      "epoch": 0.4957916666666667,
      "grad_norm": 0.9172646403312683,
      "learning_rate": 0.00015297708792723713,
      "loss": 3.944,
      "step": 237980
    },
    {
      "epoch": 0.4958125,
      "grad_norm": 0.831325888633728,
      "learning_rate": 0.0001529672313083619,
      "loss": 3.8181,
      "step": 237990
    },
    {
      "epoch": 0.49583333333333335,
      "grad_norm": 0.7609788775444031,
      "learning_rate": 0.00015295737467666934,
      "loss": 3.6611,
      "step": 238000
    },
    {
      "epoch": 0.49583333333333335,
      "eval_loss": 4.155806064605713,
      "eval_runtime": 8.3448,
      "eval_samples_per_second": 1.198,
      "eval_steps_per_second": 0.36,
      "step": 238000
    },
    {
      "epoch": 0.49585416666666665,
      "grad_norm": 0.8108037114143372,
      "learning_rate": 0.0001529475180322021,
      "loss": 3.8033,
      "step": 238010
    },
    {
      "epoch": 0.495875,
      "grad_norm": 0.7369520664215088,
      "learning_rate": 0.00015293766137500274,
      "loss": 3.8168,
      "step": 238020
    },
    {
      "epoch": 0.4958958333333333,
      "grad_norm": 0.9571312069892883,
      "learning_rate": 0.0001529278047051139,
      "loss": 3.6862,
      "step": 238030
    },
    {
      "epoch": 0.4959166666666667,
      "grad_norm": 0.9254497289657593,
      "learning_rate": 0.00015291794802257803,
      "loss": 3.8465,
      "step": 238040
    },
    {
      "epoch": 0.4959375,
      "grad_norm": 0.9158450961112976,
      "learning_rate": 0.0001529080913274378,
      "loss": 3.8473,
      "step": 238050
    },
    {
      "epoch": 0.49595833333333333,
      "grad_norm": 0.9315266013145447,
      "learning_rate": 0.0001528982346197358,
      "loss": 3.8071,
      "step": 238060
    },
    {
      "epoch": 0.4959791666666667,
      "grad_norm": 0.8689801096916199,
      "learning_rate": 0.00015288837789951458,
      "loss": 3.7535,
      "step": 238070
    },
    {
      "epoch": 0.496,
      "grad_norm": 0.9040848016738892,
      "learning_rate": 0.00015287852116681663,
      "loss": 3.7922,
      "step": 238080
    },
    {
      "epoch": 0.49602083333333336,
      "grad_norm": 1.0894392728805542,
      "learning_rate": 0.00015286866442168465,
      "loss": 3.7399,
      "step": 238090
    },
    {
      "epoch": 0.49604166666666666,
      "grad_norm": 0.8801304697990417,
      "learning_rate": 0.00015285880766416124,
      "loss": 3.7428,
      "step": 238100
    },
    {
      "epoch": 0.4960625,
      "grad_norm": 0.7942971587181091,
      "learning_rate": 0.0001528489508942888,
      "loss": 3.7539,
      "step": 238110
    },
    {
      "epoch": 0.4960833333333333,
      "grad_norm": 0.8300926685333252,
      "learning_rate": 0.0001528390941121101,
      "loss": 3.8607,
      "step": 238120
    },
    {
      "epoch": 0.4961041666666667,
      "grad_norm": 0.8699906468391418,
      "learning_rate": 0.00015282923731766763,
      "loss": 3.8738,
      "step": 238130
    },
    {
      "epoch": 0.496125,
      "grad_norm": 1.0748505592346191,
      "learning_rate": 0.00015281938051100397,
      "loss": 3.8781,
      "step": 238140
    },
    {
      "epoch": 0.49614583333333334,
      "grad_norm": 0.6888543963432312,
      "learning_rate": 0.00015280952369216166,
      "loss": 3.7044,
      "step": 238150
    },
    {
      "epoch": 0.49616666666666664,
      "grad_norm": 0.7874281406402588,
      "learning_rate": 0.0001527996668611834,
      "loss": 3.9398,
      "step": 238160
    },
    {
      "epoch": 0.4961875,
      "grad_norm": 0.7963303327560425,
      "learning_rate": 0.0001527898100181116,
      "loss": 3.8649,
      "step": 238170
    },
    {
      "epoch": 0.4962083333333333,
      "grad_norm": 0.9953107833862305,
      "learning_rate": 0.000152779953162989,
      "loss": 3.6346,
      "step": 238180
    },
    {
      "epoch": 0.49622916666666667,
      "grad_norm": 0.7824012637138367,
      "learning_rate": 0.00015277009629585802,
      "loss": 3.8876,
      "step": 238190
    },
    {
      "epoch": 0.49625,
      "grad_norm": 0.9978765845298767,
      "learning_rate": 0.00015276023941676137,
      "loss": 3.9484,
      "step": 238200
    },
    {
      "epoch": 0.4962708333333333,
      "grad_norm": 0.8142049312591553,
      "learning_rate": 0.00015275038252574158,
      "loss": 3.7469,
      "step": 238210
    },
    {
      "epoch": 0.4962916666666667,
      "grad_norm": 0.7752083539962769,
      "learning_rate": 0.00015274052562284124,
      "loss": 3.848,
      "step": 238220
    },
    {
      "epoch": 0.4963125,
      "grad_norm": 0.7748519778251648,
      "learning_rate": 0.00015273066870810287,
      "loss": 3.8051,
      "step": 238230
    },
    {
      "epoch": 0.49633333333333335,
      "grad_norm": 0.839647650718689,
      "learning_rate": 0.00015272081178156912,
      "loss": 3.6935,
      "step": 238240
    },
    {
      "epoch": 0.49635416666666665,
      "grad_norm": 0.7262501120567322,
      "learning_rate": 0.00015271095484328253,
      "loss": 3.7516,
      "step": 238250
    },
    {
      "epoch": 0.496375,
      "grad_norm": 0.8296782374382019,
      "learning_rate": 0.0001527010978932857,
      "loss": 3.8243,
      "step": 238260
    },
    {
      "epoch": 0.4963958333333333,
      "grad_norm": 0.8057076930999756,
      "learning_rate": 0.00015269124093162122,
      "loss": 3.7479,
      "step": 238270
    },
    {
      "epoch": 0.4964166666666667,
      "grad_norm": 0.9878356456756592,
      "learning_rate": 0.0001526813839583316,
      "loss": 3.7034,
      "step": 238280
    },
    {
      "epoch": 0.4964375,
      "grad_norm": 0.7143793106079102,
      "learning_rate": 0.0001526715269734595,
      "loss": 3.8151,
      "step": 238290
    },
    {
      "epoch": 0.49645833333333333,
      "grad_norm": 0.746464729309082,
      "learning_rate": 0.00015266166997704745,
      "loss": 3.7134,
      "step": 238300
    },
    {
      "epoch": 0.4964791666666667,
      "grad_norm": 0.9462725520133972,
      "learning_rate": 0.000152651812969138,
      "loss": 3.7848,
      "step": 238310
    },
    {
      "epoch": 0.4965,
      "grad_norm": 0.7447453737258911,
      "learning_rate": 0.0001526419559497738,
      "loss": 3.553,
      "step": 238320
    },
    {
      "epoch": 0.49652083333333336,
      "grad_norm": 0.7907960414886475,
      "learning_rate": 0.0001526320989189974,
      "loss": 3.5698,
      "step": 238330
    },
    {
      "epoch": 0.49654166666666666,
      "grad_norm": 0.8712995052337646,
      "learning_rate": 0.00015262224187685136,
      "loss": 3.8866,
      "step": 238340
    },
    {
      "epoch": 0.4965625,
      "grad_norm": 0.8131948113441467,
      "learning_rate": 0.00015261238482337826,
      "loss": 3.6549,
      "step": 238350
    },
    {
      "epoch": 0.4965833333333333,
      "grad_norm": 0.7747756242752075,
      "learning_rate": 0.00015260252775862071,
      "loss": 3.6974,
      "step": 238360
    },
    {
      "epoch": 0.4966041666666667,
      "grad_norm": 0.759663999080658,
      "learning_rate": 0.0001525926706826213,
      "loss": 3.9235,
      "step": 238370
    },
    {
      "epoch": 0.496625,
      "grad_norm": 0.9170782566070557,
      "learning_rate": 0.00015258281359542254,
      "loss": 3.6546,
      "step": 238380
    },
    {
      "epoch": 0.49664583333333334,
      "grad_norm": 0.73310387134552,
      "learning_rate": 0.00015257295649706706,
      "loss": 3.7631,
      "step": 238390
    },
    {
      "epoch": 0.49666666666666665,
      "grad_norm": 0.8416591882705688,
      "learning_rate": 0.00015256309938759742,
      "loss": 3.8256,
      "step": 238400
    },
    {
      "epoch": 0.4966875,
      "grad_norm": 0.7448116540908813,
      "learning_rate": 0.0001525532422670562,
      "loss": 3.966,
      "step": 238410
    },
    {
      "epoch": 0.4967083333333333,
      "grad_norm": 0.8109632134437561,
      "learning_rate": 0.000152543385135486,
      "loss": 3.7558,
      "step": 238420
    },
    {
      "epoch": 0.49672916666666667,
      "grad_norm": 0.8552186489105225,
      "learning_rate": 0.0001525335279929294,
      "loss": 3.6582,
      "step": 238430
    },
    {
      "epoch": 0.49675,
      "grad_norm": 0.778872013092041,
      "learning_rate": 0.00015252367083942893,
      "loss": 3.7031,
      "step": 238440
    },
    {
      "epoch": 0.49677083333333333,
      "grad_norm": 0.8674865961074829,
      "learning_rate": 0.00015251381367502719,
      "loss": 3.7399,
      "step": 238450
    },
    {
      "epoch": 0.4967916666666667,
      "grad_norm": 0.9742767214775085,
      "learning_rate": 0.00015250395649976683,
      "loss": 3.619,
      "step": 238460
    },
    {
      "epoch": 0.4968125,
      "grad_norm": 1.0509605407714844,
      "learning_rate": 0.0001524940993136903,
      "loss": 3.8839,
      "step": 238470
    },
    {
      "epoch": 0.49683333333333335,
      "grad_norm": 0.8976224660873413,
      "learning_rate": 0.00015248424211684026,
      "loss": 3.7168,
      "step": 238480
    },
    {
      "epoch": 0.49685416666666665,
      "grad_norm": 0.7967678904533386,
      "learning_rate": 0.00015247438490925935,
      "loss": 3.7087,
      "step": 238490
    },
    {
      "epoch": 0.496875,
      "grad_norm": 0.8413745164871216,
      "learning_rate": 0.00015246452769098997,
      "loss": 3.8586,
      "step": 238500
    },
    {
      "epoch": 0.4968958333333333,
      "grad_norm": 0.7718377709388733,
      "learning_rate": 0.00015245467046207486,
      "loss": 3.6083,
      "step": 238510
    },
    {
      "epoch": 0.4969166666666667,
      "grad_norm": 0.834112286567688,
      "learning_rate": 0.00015244481322255658,
      "loss": 3.8169,
      "step": 238520
    },
    {
      "epoch": 0.4969375,
      "grad_norm": 0.790282666683197,
      "learning_rate": 0.00015243495597247762,
      "loss": 3.9532,
      "step": 238530
    },
    {
      "epoch": 0.49695833333333334,
      "grad_norm": 0.9547596573829651,
      "learning_rate": 0.00015242509871188063,
      "loss": 3.6593,
      "step": 238540
    },
    {
      "epoch": 0.4969791666666667,
      "grad_norm": 0.7458985447883606,
      "learning_rate": 0.00015241524144080817,
      "loss": 3.769,
      "step": 238550
    },
    {
      "epoch": 0.497,
      "grad_norm": 0.7601897120475769,
      "learning_rate": 0.00015240538415930283,
      "loss": 3.7957,
      "step": 238560
    },
    {
      "epoch": 0.49702083333333336,
      "grad_norm": 0.9263256192207336,
      "learning_rate": 0.00015239552686740714,
      "loss": 3.8592,
      "step": 238570
    },
    {
      "epoch": 0.49704166666666666,
      "grad_norm": 0.8630890846252441,
      "learning_rate": 0.0001523856695651638,
      "loss": 3.7705,
      "step": 238580
    },
    {
      "epoch": 0.4970625,
      "grad_norm": 0.909251868724823,
      "learning_rate": 0.00015237581225261527,
      "loss": 3.6066,
      "step": 238590
    },
    {
      "epoch": 0.4970833333333333,
      "grad_norm": 0.8027347922325134,
      "learning_rate": 0.00015236595492980419,
      "loss": 3.7521,
      "step": 238600
    },
    {
      "epoch": 0.4971041666666667,
      "grad_norm": 0.7997465133666992,
      "learning_rate": 0.0001523560975967731,
      "loss": 3.8688,
      "step": 238610
    },
    {
      "epoch": 0.497125,
      "grad_norm": 0.8014475107192993,
      "learning_rate": 0.00015234624025356458,
      "loss": 3.669,
      "step": 238620
    },
    {
      "epoch": 0.49714583333333334,
      "grad_norm": 0.7371170520782471,
      "learning_rate": 0.0001523363829002213,
      "loss": 3.7453,
      "step": 238630
    },
    {
      "epoch": 0.49716666666666665,
      "grad_norm": 0.9031545519828796,
      "learning_rate": 0.00015232652553678574,
      "loss": 3.6956,
      "step": 238640
    },
    {
      "epoch": 0.4971875,
      "grad_norm": 0.8414963483810425,
      "learning_rate": 0.00015231666816330045,
      "loss": 3.7064,
      "step": 238650
    },
    {
      "epoch": 0.4972083333333333,
      "grad_norm": 0.8090062737464905,
      "learning_rate": 0.00015230681077980817,
      "loss": 3.7414,
      "step": 238660
    },
    {
      "epoch": 0.49722916666666667,
      "grad_norm": 0.7631310820579529,
      "learning_rate": 0.00015229695338635132,
      "loss": 3.7286,
      "step": 238670
    },
    {
      "epoch": 0.49725,
      "grad_norm": 0.7565110921859741,
      "learning_rate": 0.00015228709598297252,
      "loss": 3.7396,
      "step": 238680
    },
    {
      "epoch": 0.49727083333333333,
      "grad_norm": 0.9667887091636658,
      "learning_rate": 0.00015227723856971445,
      "loss": 3.8197,
      "step": 238690
    },
    {
      "epoch": 0.4972916666666667,
      "grad_norm": 0.7574161887168884,
      "learning_rate": 0.00015226738114661954,
      "loss": 3.8353,
      "step": 238700
    },
    {
      "epoch": 0.4973125,
      "grad_norm": 0.8070891499519348,
      "learning_rate": 0.00015225752371373047,
      "loss": 3.8846,
      "step": 238710
    },
    {
      "epoch": 0.49733333333333335,
      "grad_norm": 0.8178917169570923,
      "learning_rate": 0.00015224766627108975,
      "loss": 3.8164,
      "step": 238720
    },
    {
      "epoch": 0.49735416666666665,
      "grad_norm": 0.7368025779724121,
      "learning_rate": 0.00015223780881874004,
      "loss": 3.5828,
      "step": 238730
    },
    {
      "epoch": 0.497375,
      "grad_norm": 0.8160830736160278,
      "learning_rate": 0.0001522279513567239,
      "loss": 3.7525,
      "step": 238740
    },
    {
      "epoch": 0.4973958333333333,
      "grad_norm": 0.9155523180961609,
      "learning_rate": 0.00015221809388508387,
      "loss": 3.8171,
      "step": 238750
    },
    {
      "epoch": 0.4974166666666667,
      "grad_norm": 0.9887881875038147,
      "learning_rate": 0.00015220823640386255,
      "loss": 3.7051,
      "step": 238760
    },
    {
      "epoch": 0.4974375,
      "grad_norm": 0.7529125213623047,
      "learning_rate": 0.00015219837891310256,
      "loss": 3.8254,
      "step": 238770
    },
    {
      "epoch": 0.49745833333333334,
      "grad_norm": 0.8878410458564758,
      "learning_rate": 0.00015218852141284637,
      "loss": 3.7936,
      "step": 238780
    },
    {
      "epoch": 0.49747916666666664,
      "grad_norm": 0.7816945314407349,
      "learning_rate": 0.00015217866390313667,
      "loss": 3.879,
      "step": 238790
    },
    {
      "epoch": 0.4975,
      "grad_norm": 0.8448981642723083,
      "learning_rate": 0.00015216880638401604,
      "loss": 3.6064,
      "step": 238800
    },
    {
      "epoch": 0.49752083333333336,
      "grad_norm": 0.9420046806335449,
      "learning_rate": 0.00015215894885552698,
      "loss": 3.9328,
      "step": 238810
    },
    {
      "epoch": 0.49754166666666666,
      "grad_norm": 0.7901927828788757,
      "learning_rate": 0.0001521490913177121,
      "loss": 3.835,
      "step": 238820
    },
    {
      "epoch": 0.4975625,
      "grad_norm": 0.7768189907073975,
      "learning_rate": 0.00015213923377061403,
      "loss": 3.8009,
      "step": 238830
    },
    {
      "epoch": 0.4975833333333333,
      "grad_norm": 0.8564926981925964,
      "learning_rate": 0.00015212937621427532,
      "loss": 3.7806,
      "step": 238840
    },
    {
      "epoch": 0.4976041666666667,
      "grad_norm": 0.8137028217315674,
      "learning_rate": 0.0001521195186487385,
      "loss": 3.8945,
      "step": 238850
    },
    {
      "epoch": 0.497625,
      "grad_norm": 0.7727660536766052,
      "learning_rate": 0.0001521096610740463,
      "loss": 3.7318,
      "step": 238860
    },
    {
      "epoch": 0.49764583333333334,
      "grad_norm": 0.8196861147880554,
      "learning_rate": 0.00015209980349024108,
      "loss": 3.6783,
      "step": 238870
    },
    {
      "epoch": 0.49766666666666665,
      "grad_norm": 0.9164650440216064,
      "learning_rate": 0.00015208994589736562,
      "loss": 3.6447,
      "step": 238880
    },
    {
      "epoch": 0.4976875,
      "grad_norm": 0.8328384160995483,
      "learning_rate": 0.0001520800882954624,
      "loss": 3.7289,
      "step": 238890
    },
    {
      "epoch": 0.4977083333333333,
      "grad_norm": 0.8473722338676453,
      "learning_rate": 0.000152070230684574,
      "loss": 3.7107,
      "step": 238900
    },
    {
      "epoch": 0.49772916666666667,
      "grad_norm": 0.7941513657569885,
      "learning_rate": 0.00015206037306474306,
      "loss": 3.6323,
      "step": 238910
    },
    {
      "epoch": 0.49775,
      "grad_norm": 0.7729533314704895,
      "learning_rate": 0.0001520505154360121,
      "loss": 3.9224,
      "step": 238920
    },
    {
      "epoch": 0.49777083333333333,
      "grad_norm": 0.8175351023674011,
      "learning_rate": 0.00015204065779842374,
      "loss": 3.8165,
      "step": 238930
    },
    {
      "epoch": 0.4977916666666667,
      "grad_norm": 0.7708178162574768,
      "learning_rate": 0.00015203080015202053,
      "loss": 4.0328,
      "step": 238940
    },
    {
      "epoch": 0.4978125,
      "grad_norm": 0.7610103487968445,
      "learning_rate": 0.00015202094249684508,
      "loss": 3.7412,
      "step": 238950
    },
    {
      "epoch": 0.49783333333333335,
      "grad_norm": 0.8594620823860168,
      "learning_rate": 0.0001520110848329399,
      "loss": 3.8769,
      "step": 238960
    },
    {
      "epoch": 0.49785416666666665,
      "grad_norm": 0.7821348309516907,
      "learning_rate": 0.00015200122716034774,
      "loss": 3.7755,
      "step": 238970
    },
    {
      "epoch": 0.497875,
      "grad_norm": 0.8355070948600769,
      "learning_rate": 0.000151991369479111,
      "loss": 3.8455,
      "step": 238980
    },
    {
      "epoch": 0.4978958333333333,
      "grad_norm": 0.9517154097557068,
      "learning_rate": 0.0001519815117892723,
      "loss": 3.7689,
      "step": 238990
    },
    {
      "epoch": 0.4979166666666667,
      "grad_norm": 0.7924310564994812,
      "learning_rate": 0.00015197165409087433,
      "loss": 3.6681,
      "step": 239000
    },
    {
      "epoch": 0.4979166666666667,
      "eval_loss": 4.14945650100708,
      "eval_runtime": 8.1737,
      "eval_samples_per_second": 1.223,
      "eval_steps_per_second": 0.367,
      "step": 239000
    },
    {
      "epoch": 0.4979375,
      "grad_norm": 0.7909937500953674,
      "learning_rate": 0.00015196179638395958,
      "loss": 3.7589,
      "step": 239010
    },
    {
      "epoch": 0.49795833333333334,
      "grad_norm": 0.8596680760383606,
      "learning_rate": 0.00015195193866857063,
      "loss": 3.7942,
      "step": 239020
    },
    {
      "epoch": 0.49797916666666664,
      "grad_norm": 0.7570611238479614,
      "learning_rate": 0.00015194208094475005,
      "loss": 3.6959,
      "step": 239030
    },
    {
      "epoch": 0.498,
      "grad_norm": 0.9180442094802856,
      "learning_rate": 0.00015193222321254051,
      "loss": 3.8534,
      "step": 239040
    },
    {
      "epoch": 0.49802083333333336,
      "grad_norm": 0.6809069514274597,
      "learning_rate": 0.00015192236547198446,
      "loss": 3.7086,
      "step": 239050
    },
    {
      "epoch": 0.49804166666666666,
      "grad_norm": 0.8896380066871643,
      "learning_rate": 0.0001519125077231246,
      "loss": 3.7438,
      "step": 239060
    },
    {
      "epoch": 0.4980625,
      "grad_norm": 0.7863284945487976,
      "learning_rate": 0.00015190264996600345,
      "loss": 3.9666,
      "step": 239070
    },
    {
      "epoch": 0.4980833333333333,
      "grad_norm": 0.8681908845901489,
      "learning_rate": 0.0001518927922006636,
      "loss": 3.8134,
      "step": 239080
    },
    {
      "epoch": 0.4981041666666667,
      "grad_norm": 0.8113142251968384,
      "learning_rate": 0.00015188293442714766,
      "loss": 3.5873,
      "step": 239090
    },
    {
      "epoch": 0.498125,
      "grad_norm": 0.7241170406341553,
      "learning_rate": 0.00015187307664549815,
      "loss": 3.6464,
      "step": 239100
    },
    {
      "epoch": 0.49814583333333334,
      "grad_norm": 0.8715019226074219,
      "learning_rate": 0.00015186321885575773,
      "loss": 3.8556,
      "step": 239110
    },
    {
      "epoch": 0.49816666666666665,
      "grad_norm": 1.4723641872406006,
      "learning_rate": 0.00015185336105796892,
      "loss": 3.8032,
      "step": 239120
    },
    {
      "epoch": 0.4981875,
      "grad_norm": 0.8223792314529419,
      "learning_rate": 0.0001518435032521743,
      "loss": 3.6536,
      "step": 239130
    },
    {
      "epoch": 0.4982083333333333,
      "grad_norm": 0.759081244468689,
      "learning_rate": 0.00015183364543841656,
      "loss": 3.7805,
      "step": 239140
    },
    {
      "epoch": 0.49822916666666667,
      "grad_norm": 0.7384608387947083,
      "learning_rate": 0.0001518237876167381,
      "loss": 4.0823,
      "step": 239150
    },
    {
      "epoch": 0.49825,
      "grad_norm": 1.1720805168151855,
      "learning_rate": 0.00015181392978718165,
      "loss": 3.6874,
      "step": 239160
    },
    {
      "epoch": 0.49827083333333333,
      "grad_norm": 0.8064785003662109,
      "learning_rate": 0.00015180407194978975,
      "loss": 3.6992,
      "step": 239170
    },
    {
      "epoch": 0.4982916666666667,
      "grad_norm": 0.8226698040962219,
      "learning_rate": 0.00015179421410460494,
      "loss": 3.7799,
      "step": 239180
    },
    {
      "epoch": 0.4983125,
      "grad_norm": 0.928342342376709,
      "learning_rate": 0.00015178435625166984,
      "loss": 3.8432,
      "step": 239190
    },
    {
      "epoch": 0.49833333333333335,
      "grad_norm": 0.7794297337532043,
      "learning_rate": 0.00015177449839102707,
      "loss": 3.8274,
      "step": 239200
    },
    {
      "epoch": 0.49835416666666665,
      "grad_norm": 0.7814306020736694,
      "learning_rate": 0.00015176464052271913,
      "loss": 3.8777,
      "step": 239210
    },
    {
      "epoch": 0.498375,
      "grad_norm": 0.9384626746177673,
      "learning_rate": 0.00015175478264678864,
      "loss": 3.6707,
      "step": 239220
    },
    {
      "epoch": 0.4983958333333333,
      "grad_norm": 0.7544520497322083,
      "learning_rate": 0.0001517449247632782,
      "loss": 3.5799,
      "step": 239230
    },
    {
      "epoch": 0.4984166666666667,
      "grad_norm": 0.8801286816596985,
      "learning_rate": 0.00015173506687223034,
      "loss": 3.8848,
      "step": 239240
    },
    {
      "epoch": 0.4984375,
      "grad_norm": 0.8267098069190979,
      "learning_rate": 0.0001517252089736877,
      "loss": 3.7278,
      "step": 239250
    },
    {
      "epoch": 0.49845833333333334,
      "grad_norm": 0.7898967862129211,
      "learning_rate": 0.00015171535106769287,
      "loss": 3.7977,
      "step": 239260
    },
    {
      "epoch": 0.49847916666666664,
      "grad_norm": 0.8703154921531677,
      "learning_rate": 0.00015170549315428837,
      "loss": 3.6516,
      "step": 239270
    },
    {
      "epoch": 0.4985,
      "grad_norm": 0.9837828874588013,
      "learning_rate": 0.00015169563523351683,
      "loss": 3.5663,
      "step": 239280
    },
    {
      "epoch": 0.49852083333333336,
      "grad_norm": 0.7354591488838196,
      "learning_rate": 0.0001516857773054208,
      "loss": 3.7506,
      "step": 239290
    },
    {
      "epoch": 0.49854166666666666,
      "grad_norm": 0.8650714755058289,
      "learning_rate": 0.0001516759193700429,
      "loss": 3.828,
      "step": 239300
    },
    {
      "epoch": 0.4985625,
      "grad_norm": 0.8254152536392212,
      "learning_rate": 0.00015166606142742568,
      "loss": 3.6981,
      "step": 239310
    },
    {
      "epoch": 0.4985833333333333,
      "grad_norm": 0.7739366888999939,
      "learning_rate": 0.00015165620347761173,
      "loss": 3.8009,
      "step": 239320
    },
    {
      "epoch": 0.4986041666666667,
      "grad_norm": 0.8688378930091858,
      "learning_rate": 0.00015164634552064366,
      "loss": 3.8759,
      "step": 239330
    },
    {
      "epoch": 0.498625,
      "grad_norm": 0.9497004151344299,
      "learning_rate": 0.000151636487556564,
      "loss": 3.8178,
      "step": 239340
    },
    {
      "epoch": 0.49864583333333334,
      "grad_norm": 0.8534321784973145,
      "learning_rate": 0.00015162662958541535,
      "loss": 3.793,
      "step": 239350
    },
    {
      "epoch": 0.49866666666666665,
      "grad_norm": 0.8580595850944519,
      "learning_rate": 0.00015161677160724035,
      "loss": 3.9144,
      "step": 239360
    },
    {
      "epoch": 0.4986875,
      "grad_norm": 0.843314528465271,
      "learning_rate": 0.00015160691362208154,
      "loss": 3.7487,
      "step": 239370
    },
    {
      "epoch": 0.4987083333333333,
      "grad_norm": 0.8145219087600708,
      "learning_rate": 0.00015159705562998145,
      "loss": 3.681,
      "step": 239380
    },
    {
      "epoch": 0.49872916666666667,
      "grad_norm": 0.815290629863739,
      "learning_rate": 0.00015158719763098274,
      "loss": 3.8701,
      "step": 239390
    },
    {
      "epoch": 0.49875,
      "grad_norm": 0.9903137683868408,
      "learning_rate": 0.00015157733962512795,
      "loss": 3.6065,
      "step": 239400
    },
    {
      "epoch": 0.49877083333333333,
      "grad_norm": 0.9133219718933105,
      "learning_rate": 0.00015156748161245968,
      "loss": 3.6116,
      "step": 239410
    },
    {
      "epoch": 0.4987916666666667,
      "grad_norm": 0.9517699480056763,
      "learning_rate": 0.0001515576235930205,
      "loss": 3.7653,
      "step": 239420
    },
    {
      "epoch": 0.4988125,
      "grad_norm": 0.8344924449920654,
      "learning_rate": 0.00015154776556685305,
      "loss": 3.8134,
      "step": 239430
    },
    {
      "epoch": 0.49883333333333335,
      "grad_norm": 0.9340565204620361,
      "learning_rate": 0.0001515379075339998,
      "loss": 3.705,
      "step": 239440
    },
    {
      "epoch": 0.49885416666666665,
      "grad_norm": 0.8985335826873779,
      "learning_rate": 0.00015152804949450344,
      "loss": 3.7738,
      "step": 239450
    },
    {
      "epoch": 0.498875,
      "grad_norm": 0.9745224714279175,
      "learning_rate": 0.0001515181914484065,
      "loss": 3.8099,
      "step": 239460
    },
    {
      "epoch": 0.4988958333333333,
      "grad_norm": 0.8234815001487732,
      "learning_rate": 0.0001515083333957516,
      "loss": 3.874,
      "step": 239470
    },
    {
      "epoch": 0.4989166666666667,
      "grad_norm": 0.7663818597793579,
      "learning_rate": 0.00015149847533658126,
      "loss": 3.7444,
      "step": 239480
    },
    {
      "epoch": 0.4989375,
      "grad_norm": 0.8687765598297119,
      "learning_rate": 0.0001514886172709381,
      "loss": 3.7641,
      "step": 239490
    },
    {
      "epoch": 0.49895833333333334,
      "grad_norm": 1.0484110116958618,
      "learning_rate": 0.00015147875919886475,
      "loss": 3.7721,
      "step": 239500
    },
    {
      "epoch": 0.49897916666666664,
      "grad_norm": 0.8250914812088013,
      "learning_rate": 0.0001514689011204037,
      "loss": 3.969,
      "step": 239510
    },
    {
      "epoch": 0.499,
      "grad_norm": 0.7260587215423584,
      "learning_rate": 0.00015145904303559757,
      "loss": 3.745,
      "step": 239520
    },
    {
      "epoch": 0.49902083333333336,
      "grad_norm": 0.8293917775154114,
      "learning_rate": 0.000151449184944489,
      "loss": 3.6969,
      "step": 239530
    },
    {
      "epoch": 0.49904166666666666,
      "grad_norm": 0.8380799889564514,
      "learning_rate": 0.00015143932684712048,
      "loss": 3.6631,
      "step": 239540
    },
    {
      "epoch": 0.4990625,
      "grad_norm": 0.7424705624580383,
      "learning_rate": 0.00015142946874353465,
      "loss": 3.8076,
      "step": 239550
    },
    {
      "epoch": 0.4990833333333333,
      "grad_norm": 0.7094244956970215,
      "learning_rate": 0.0001514196106337741,
      "loss": 3.8554,
      "step": 239560
    },
    {
      "epoch": 0.4991041666666667,
      "grad_norm": 0.8913872838020325,
      "learning_rate": 0.00015140975251788137,
      "loss": 3.8022,
      "step": 239570
    },
    {
      "epoch": 0.499125,
      "grad_norm": 0.9219964146614075,
      "learning_rate": 0.00015139989439589906,
      "loss": 3.8847,
      "step": 239580
    },
    {
      "epoch": 0.49914583333333334,
      "grad_norm": 0.9359441995620728,
      "learning_rate": 0.0001513900362678698,
      "loss": 3.7328,
      "step": 239590
    },
    {
      "epoch": 0.49916666666666665,
      "grad_norm": 0.771497368812561,
      "learning_rate": 0.0001513801781338361,
      "loss": 3.6983,
      "step": 239600
    },
    {
      "epoch": 0.4991875,
      "grad_norm": 0.7897967100143433,
      "learning_rate": 0.0001513703199938406,
      "loss": 3.8061,
      "step": 239610
    },
    {
      "epoch": 0.4992083333333333,
      "grad_norm": 0.9168460965156555,
      "learning_rate": 0.00015136046184792583,
      "loss": 3.7876,
      "step": 239620
    },
    {
      "epoch": 0.49922916666666667,
      "grad_norm": 0.8696763515472412,
      "learning_rate": 0.00015135060369613442,
      "loss": 3.8879,
      "step": 239630
    },
    {
      "epoch": 0.49925,
      "grad_norm": 0.8081610202789307,
      "learning_rate": 0.00015134074553850896,
      "loss": 3.8575,
      "step": 239640
    },
    {
      "epoch": 0.49927083333333333,
      "grad_norm": 0.8326353430747986,
      "learning_rate": 0.00015133088737509198,
      "loss": 3.7908,
      "step": 239650
    },
    {
      "epoch": 0.4992916666666667,
      "grad_norm": 0.8788637518882751,
      "learning_rate": 0.00015132102920592609,
      "loss": 3.8884,
      "step": 239660
    },
    {
      "epoch": 0.4993125,
      "grad_norm": 0.7963957190513611,
      "learning_rate": 0.0001513111710310539,
      "loss": 3.7615,
      "step": 239670
    },
    {
      "epoch": 0.49933333333333335,
      "grad_norm": 1.0363937616348267,
      "learning_rate": 0.00015130131285051793,
      "loss": 3.5893,
      "step": 239680
    },
    {
      "epoch": 0.49935416666666665,
      "grad_norm": 0.8225616216659546,
      "learning_rate": 0.00015129145466436083,
      "loss": 3.8148,
      "step": 239690
    },
    {
      "epoch": 0.499375,
      "grad_norm": 0.7961534857749939,
      "learning_rate": 0.0001512815964726252,
      "loss": 3.8208,
      "step": 239700
    },
    {
      "epoch": 0.4993958333333333,
      "grad_norm": 0.8919535875320435,
      "learning_rate": 0.00015127173827535353,
      "loss": 3.6706,
      "step": 239710
    },
    {
      "epoch": 0.4994166666666667,
      "grad_norm": 0.7457396984100342,
      "learning_rate": 0.00015126188007258843,
      "loss": 3.8989,
      "step": 239720
    },
    {
      "epoch": 0.4994375,
      "grad_norm": 0.7974488139152527,
      "learning_rate": 0.00015125202186437258,
      "loss": 3.9181,
      "step": 239730
    },
    {
      "epoch": 0.49945833333333334,
      "grad_norm": 0.7653965353965759,
      "learning_rate": 0.00015124216365074844,
      "loss": 3.882,
      "step": 239740
    },
    {
      "epoch": 0.49947916666666664,
      "grad_norm": 0.8704047799110413,
      "learning_rate": 0.00015123230543175864,
      "loss": 3.7942,
      "step": 239750
    },
    {
      "epoch": 0.4995,
      "grad_norm": 0.7463822364807129,
      "learning_rate": 0.00015122244720744578,
      "loss": 3.718,
      "step": 239760
    },
    {
      "epoch": 0.49952083333333336,
      "grad_norm": 0.7862879037857056,
      "learning_rate": 0.00015121258897785245,
      "loss": 3.8286,
      "step": 239770
    },
    {
      "epoch": 0.49954166666666666,
      "grad_norm": 0.884657621383667,
      "learning_rate": 0.00015120273074302118,
      "loss": 3.7476,
      "step": 239780
    },
    {
      "epoch": 0.4995625,
      "grad_norm": 0.8608680367469788,
      "learning_rate": 0.00015119287250299463,
      "loss": 3.7816,
      "step": 239790
    },
    {
      "epoch": 0.4995833333333333,
      "grad_norm": 0.9594494700431824,
      "learning_rate": 0.0001511830142578153,
      "loss": 3.6584,
      "step": 239800
    },
    {
      "epoch": 0.4996041666666667,
      "grad_norm": 0.8133334517478943,
      "learning_rate": 0.00015117315600752588,
      "loss": 3.7533,
      "step": 239810
    },
    {
      "epoch": 0.499625,
      "grad_norm": 0.8285503387451172,
      "learning_rate": 0.00015116329775216884,
      "loss": 3.8244,
      "step": 239820
    },
    {
      "epoch": 0.49964583333333334,
      "grad_norm": 0.9170172214508057,
      "learning_rate": 0.0001511534394917868,
      "loss": 3.8374,
      "step": 239830
    },
    {
      "epoch": 0.49966666666666665,
      "grad_norm": 0.9144136309623718,
      "learning_rate": 0.00015114358122642242,
      "loss": 3.7577,
      "step": 239840
    },
    {
      "epoch": 0.4996875,
      "grad_norm": 0.767255425453186,
      "learning_rate": 0.00015113372295611817,
      "loss": 3.8685,
      "step": 239850
    },
    {
      "epoch": 0.4997083333333333,
      "grad_norm": 0.7267976403236389,
      "learning_rate": 0.00015112386468091668,
      "loss": 3.7312,
      "step": 239860
    },
    {
      "epoch": 0.49972916666666667,
      "grad_norm": 0.7973161935806274,
      "learning_rate": 0.0001511140064008606,
      "loss": 3.947,
      "step": 239870
    },
    {
      "epoch": 0.49975,
      "grad_norm": 0.7440686821937561,
      "learning_rate": 0.0001511041481159924,
      "loss": 3.6108,
      "step": 239880
    },
    {
      "epoch": 0.49977083333333333,
      "grad_norm": 1.1582655906677246,
      "learning_rate": 0.00015109428982635468,
      "loss": 3.7736,
      "step": 239890
    },
    {
      "epoch": 0.4997916666666667,
      "grad_norm": 0.7932632565498352,
      "learning_rate": 0.00015108443153199016,
      "loss": 3.6334,
      "step": 239900
    },
    {
      "epoch": 0.4998125,
      "grad_norm": 0.7534549832344055,
      "learning_rate": 0.00015107457323294127,
      "loss": 3.9108,
      "step": 239910
    },
    {
      "epoch": 0.49983333333333335,
      "grad_norm": 0.829496443271637,
      "learning_rate": 0.00015106471492925066,
      "loss": 3.9739,
      "step": 239920
    },
    {
      "epoch": 0.49985416666666665,
      "grad_norm": 0.8596463799476624,
      "learning_rate": 0.0001510548566209609,
      "loss": 3.9874,
      "step": 239930
    },
    {
      "epoch": 0.499875,
      "grad_norm": 0.8406532406806946,
      "learning_rate": 0.0001510449983081146,
      "loss": 3.7835,
      "step": 239940
    },
    {
      "epoch": 0.4998958333333333,
      "grad_norm": 0.7759428024291992,
      "learning_rate": 0.00015103513999075425,
      "loss": 3.6827,
      "step": 239950
    },
    {
      "epoch": 0.4999166666666667,
      "grad_norm": 0.8271384239196777,
      "learning_rate": 0.00015102528166892256,
      "loss": 3.8624,
      "step": 239960
    },
    {
      "epoch": 0.4999375,
      "grad_norm": 0.7740442156791687,
      "learning_rate": 0.00015101542334266204,
      "loss": 3.7598,
      "step": 239970
    },
    {
      "epoch": 0.49995833333333334,
      "grad_norm": 0.9999217987060547,
      "learning_rate": 0.00015100556501201532,
      "loss": 3.874,
      "step": 239980
    },
    {
      "epoch": 0.49997916666666664,
      "grad_norm": 0.7589627504348755,
      "learning_rate": 0.0001509957066770249,
      "loss": 3.7988,
      "step": 239990
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0361366271972656,
      "learning_rate": 0.00015098584833773347,
      "loss": 3.7164,
      "step": 240000
    },
    {
      "epoch": 0.5,
      "eval_loss": 4.1465349197387695,
      "eval_runtime": 8.9051,
      "eval_samples_per_second": 1.123,
      "eval_steps_per_second": 0.337,
      "step": 240000
    }
  ],
  "logging_steps": 10,
  "max_steps": 480000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 120000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 8.9155266674688e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}